您的位置:首页 > 理论基础 > 计算机网络

高维、相依和不完全数据的统计分析(一) [转http://i.mtime.com/920665/blog/5652751/]

2012-01-10 21:07 295 查看
李国英

中国科学院数学与系统科学研究院系统科学所

现代科学技术和社会经济的许多领域都遇到高维、相依和不完全数据的统计分析问题,它是目前统计学应用和理论中面临困难最多、挑战最严峻,也是最有可能取得突破的研究领域之一。本文试就笔者个人的认识,分三部分介绍、讨论与该领域有关的情况和问题。首先简要讲述统计学的发展情况,然后介绍我国学者在相关领域中的研究成果,最后探讨该领域中一些值得注意的研究方向。本文旨在抛砖引玉,以期得到国内同仁对统计学发展更多的关心和支持。由于笔者水平和知识所限,定有疏漏和不妥之处,欢迎批评指正。

统计学( statistics,我国习惯上称为数理统计)研究有效地收集、分析和解释数据,以提取信息、建立模型,并进行推断、预测和决策的方法和理论。人类在社会、生产和科学活动中常常通过实验、观测和调查获得数据(包括各种资料),再从数据中获得知识。统计学正是在这样的过程中产生和发展起来的。社会经济、科学技术和工农业生产的发展是它的源泉和动力,也是它的目的和归宿。统计学的本质性特征决定了它有广泛的应用性和很强的交叉性。
大致从十七世纪开始,由于天文、物理、生物、遗传以及人口和社会调查等方面的需要而萌发了统计学。例如, 17 世纪中期, J.Graunt 在人口死亡等社会问题的研究中,发展了最早的描述统计; 18 世纪末 19 世纪初, A. M. Legendre 和C. F. Gauss 在研究测地学和天体物理的数据分析中,提出了最小二乘法和误差的正态分布理论; 19 世纪中期, F.Galton 在研究生物遗传规律的过程中发明了相关分析和回归分析方法。关于统计学的早期历史可参阅陈希孺的文章《数理统计学小史》(《数理统计与管理》, 1998 年第 2 期至 1999 年第 6期)。进入二十世纪以后,相继出现了几位伟大的数学家和统计学家 K. Pearson 、 R. A. Fisher 、A. N. Kolmogrov 、 N. Neyman 、 E. Pearson 和 A. Wald等,由于他们的奠基性工作,统计学方法和理论都有了很大发展,到四十年代中期成为一门成熟的学科。近五十多年,突飞猛进的社会经济和科学技术不断提出各种各样的统计学问题,计算机的急速发展为收集和分析数据提供了方便。这些都极大地推动了统计学的发展和应用。统计学的内容更加丰富,理论更加深刻,统计方法也越来越广泛深入地渗透到社会经济、科学技术和工农业生产的各个领域,对人类社会的繁荣进步起到了积极的推动作用。统计学也因此受到社会的承认和重视。例如,1984 年美国《科学》杂志把统计学列为1900年以来对人类生活影响最大的二十项科学成就的第十八项(第一项是塑料,第六项是电视,第十六项是计算机)。美国和印度等国家曾聘用统计学家作为国家元首的科学顾问。一些发达国家和地区的大部分大学设有统计系,许多大学还同时设有生物统计系或林业统计系等等;许多大企业聘用统计学家为其解决统计问题,例如美国的贝尔公司就拥有数十人的统计学家队伍,著名统计学家J.W.Tukey生前在该公司任职长达数十年。现在,统计学已经成为许多学科领域必不可少的工具;它还与一些学科相结合形成了相应的专业统计,例如,生物统计、计量经济、地质统计、气象统计、农业统计、林业统计、心理统计和教育统计等。
在当今的信息和知识经济时代,人类研究的科学和社会问题更加高深、更加复杂、更加庞大,有效地收集和分析数据以提取信息和获得知识变得更加须臾不可离。而且发达的信息技术和高性能的计算机使收集、储存、传输数据和进行科学计算更加便捷。这就给统计学提出了许许多多更大、更难、更复杂的问题。例如,复杂系统的统计建模,经济金融中的预测和决策,高维、定性和不完全数据的统计分析,数据库等巨型复杂数据的信息提取和知识发现,相依变量和动态系统的统计规律,小样本和相关信息的统计推断,信号和图象的统计处理等等。因此,统计学正面临着前所未有的巨大挑战和机遇,其中高维、相依和不完全等复杂数据的统计分析是一个带有普遍性的突出难题。例如,雷达网、信息网等接收和传输的信号数据,卫星遥感观测的图象数据,文字语言的记录数据,DNA和蛋白质结构的测试数据,全国乃至全球的气象和环境数据,人口、企业、教育、科技、医疗卫生等社会调查数据,以及股市、保险、信用卡、房地产等经济金融数据,都是维数很高(数十、数百乃至上千维)、结构十分复杂的数据,许多数据还是前后相依(不独立)的;在工业、国防、天文和医学等领域存在大量的不完全数据,即人们不能得到所关心的某些变量的数值,而只知道它们所在的区域,甚至完全不知道部分变量在部分场合的数值(即缺失数据)。而且在实际问题中,往往同时遇到多种情况。例如,来自复杂现象的数据一般是高维的,许多时候还是相依的、动态的,有时还含有不完全数据;图象和信号可以转化为高维数据处理,而信号一般是前后相依的动态数据;许多高维数据(例如DAN和基因数据),相对其维数而言,样本量相当小;许多小样本问题中经常含有不完全数据等等。对于这些问题,统计学工作者和实际领域中的数据分析工作者都进行了许多研究,有些方面已经形成了一些比较有效的方法,但很多方面还处在探索阶段,缺乏系统有效的方法,更缺乏完整的统理论。近些年,特别是在发达国家中,有许多统计学家深入到实际领域,或与实际领域的专家合作,探索解决这些挑战性问题的途径。我们将在第三部分介绍一些有关的具体情况。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐