硕士论文网/国内首批论文服务机构

当前位置:硕士论文网首页 > 社会学论文 > 统计学论文 > 大数据时代统计学面临的机遇与挑战

大数据时代统计学面临的机遇与挑战

时间:2021-04-08 19:37 | 栏目:统计学论文 | 浏览:

硕士论文网第2021-04-08期,本期硕士论文写作指导老师为大家分享一篇统计学论文文章《大数据时代统计学面临的机遇与挑战》,供大家在写论文时进行参考。
  内容提要: 大数据给统计学带来了机遇、挑战和紧迫感。本文描述大数据的环境,利用大数据的目的和大数据带来的变革; 介绍国内外有关大数据的研究动向; 探讨大数据包含的信息,大数据的预处理、抽样和分析方法。
  关键词: 大数据; 抽样; 数据分析方法论
一、引言
  在人类利用观察认知自然的方法论发展的历程中,最初神学、哲学和科学合为一体,巫术、占星术和宗教是哲学和科学的前身。人类旧石器期用神学解释自然,根据蛙鸣预测下雨,用巫术和占星术祈祷、预测和干预自然。中国古代利用阴阳太极图和八卦图作为思辨模型,分析和解释自然和人文社会的现象。古希腊文明孕育了演绎逻辑、归纳逻辑。文艺复兴前后哲学家提出观察和试验的方法,培根( FBacon,1620,新工具) 提出通过观察实验,运用三表法: 存在与具有表、差异表、程度表。穆勒( J SMill,1843,逻辑体系) 提出归纳四法: 求同法、求异法、共变法、剩余法。在统计方法论的发展中,贝叶斯( T Bayes,1764) 提出逆概率方法,利用观察结果推断事件的概率。高尔顿( F Galton,1886) 将变量间的相关关系进行了形式化,提出了相关系数,进一步在相关性的基础上提出了回归预测的方法。皮尔逊( K Person,1900) 提出了拟合优度检验的方法,使得人们能够利用概率度量观测现象与科学假说的拟合程度。在此后的一个多世纪中统计方法有了突飞猛进的发展,被广泛地应用到自然科学、经济金融和人文社会科学的各个领域。在人类利用观察探索自然和社会规律的历程中,从远古时代的观察加臆想,古希腊时代的观察加理性推理,文艺复兴时代的试验加理性推理,直到现代的抽样加统计模型。当今时代,一方面人们在主动地获取数据。各个科学领域都在大量地获取数据,自然科学领域收集着从宏观的天文数据到微观的基因数据,经济、金融和人文社会科学收集着大量的观察和调查数据。一些人们在通宵达旦地制造和收集数据,他们相信这些数据会对别人有用。也有一些人们脱离了实验室,仅依靠网络数据从事研究。另一方面人们在被动地囤积数据。随着计算机互联网、搜索引擎、电子商务、多种传感器和多媒体技术的发展和广泛使用,各种形式的数据如江河流水般地涌来。当今数据的获取和规模发生了根本的变化,统计学面临着新的机遇和挑战,需要在方法论上有所突破。本文在第二部分描述大数据的形式和环境,以及利用大数据的目的; 第三部分描述大数据带来的变革; 第四部分介绍国内外有关大数据的研究动向;第五部分探讨大数据的信息问题; 第六部分介绍大数据需要的预处理、抽样和分析方法,特别地介绍了网络图模型对大数据分析的潜在用途; 最后一部分是结束语,讨论大数据给统计学带来了机遇、挑战和紧迫感。
大数据时代统计学面临的机遇与挑战
二、大数据及其目的
  狭义地讲,大数据是一个大样本和高维变量的数据集合。针对样本大的问题,统计学可以采用抽样减少样本量,达到需要的精度。关于维数高的问题,需要变量选择、降维、压缩、分解。但认知高维小样本存在本质的困难。广义地讲,大数据涵盖多学科领域、多源、混合的数据,自然科学、人文社会、经济学、通讯、网络、商业和娱乐等各领域的数据集相互重叠连成了一片数据的海洋。各学科之间数据融合和贯通,学科的边界已重叠和模糊。大数据涉及各种数据类型,包括文本与语言、录像与图像、时空、网络与图形。我认为当代的大数据不仅数据量大,还包括多种类型数据和大量数据项目集的覆盖重叠。大部分传统的统计方法只适合分析单个计算机存储的数据。而目前大数据的环境包括了[2]:1. 数据流环境: 数据快速不断涌来,现有存储设备和计算能力难以应付这种洪水般的数据流;2. 磁盘存储环境: 数据已不能完全存储在内存中,需要硬盘存储;3. 分布存储环境: 数据分布存储在多个计算机中;4. 多线条环境: 数据存储在一个计算机中,多个处理器共享内存。大数据的目的是将数据转化为知识 ( Big Datato Knowledge,BD2K) ,探索数据的产生机制,进行预测和制定政策[2,6,7]。把信息转变为有用的知识还需漫长的时间[9] 。“预测”不同于“制定政策”。一个儿童的鞋子越大,可以预测他掌握的词汇量越多; 但是,制定政策强制他穿大鞋子并不能提高他的词汇量。进一步,大数据有记录保存自然与社会现状的作用。现在有些人收集着大量数据,尽管他们还不清楚如何分析这些数据,但是他们相信需要保存现今社会和经济高速发展的过程,期待着今后分析和解释这段历史。还有些人将百岁老人的血液和其他各种生物标本等存放在冰箱里,他们认为当今的技术还不足以测试和分析这些资源,期待着今后更先进的测试技术。大数据就如同自然和社会的血液那样记录着社会的现状和发展过程。17 世纪望远镜和显微镜的发明使人类看到了以前从来没有看到过的宇宙空间和微生物,扩大了人类对自然的认识。大数据就像“望眼镜”和“显微镜”那样,使得人们能够通过数据观察分析丰富的自然、经济、社会的现象。借助互联网数据,可以及时了解疾病疫情、科学动态、社会动态。谷歌借助频繁检索词条能及时判断流感从哪传播,哪些人可能感染了流感[6]。大数据将形成自然和人文社会的历史长河,不但能用于探索当代的科学问题,将来可以用于研究人们食用转基因食品对子孙后代的影响等追踪研究问题,为未来留下现今的历史资料。
三、大数据带来的变革
  大数据给我们的时代带来了变革。目前,人们习惯于根据“研究问题”来驱动“收集数据”。今后,大数据到处可得,人们将会用“数据”驱动“研究问题”。就像我们出远门前常常查询目的地的天气、交通和宾馆那样,未来人们在研究和决策前将会通过查询数据做决定。目前已经有科学家开始使用软件搜索和汇总已发表论文中的成果。古希腊文明时代哲学家是百科全书式的人物,文艺复兴以来学科的分裂和细化产生了单一学科的专家。大数据时代,将可能再次出现百科全书式的人物。大数据将减弱专家在各个领域的影响,甚至导致专家的消亡[6]。例如目前已经有很多统计学家、物理学家和计算机专家凭着他们对数据的敏锐和处理能力进入了生命科学领域。假若我们有了成千上万本中文书和它们的阿拉伯语译本,即使我们不懂阿拉伯语,我们也能采用匹配文本的方法将中文翻译成阿拉伯语。谷歌机器翻译团队并不会说他们翻译出的语言[6]。大数据中包含有各种不同目的的数据集,综合利用它们可以做出原来目的之外的意外成果。例如,将医院病历数据与信用卡消费数据结合,我们能发现食品与健康的相关关系,指导人们进行健康饮食。假若再加上手机和 GPS 等数据,还能随时对人们进行体检,指导健身,减少猝死,帮助医生诊断疾病等,应用大数据可以设想的用途不计其数。
四、大数据的研究动向
  美国科学院全国研究理事会的“大数据分析委员会[2]提出了大数据的挑战问题: 处理高度分布的数据资源,追踪数据的来源,核实数据,处理样本偏倚和异质性,处理不同格式和结构的数据,开发并行和分布式算法,数据的完整性、安全性、一体化和共享,开发大数据的可视化方法和可扩展算法,处理实时分析和决策制定。美国国家卫生研究院( NIH) [7]提出将数据转换为知识( BD2K) 的使命,设立生物医学大数据研究中心基金。
五、大数据的处理、抽样与分析
  大数据的预处理包括数据清洗、不完全数据填补、数据纠偏与矫正。利用随机抽样数据矫正杂乱的、非标准的数据源。统计机构的数据是经过严格抽样设计获取的,具有总体的代表性和系统误差小的优势,但是数据获取和更新的周期长,尽管调查项目有代表性,但难以无所不包。而互联网数据的获取速度快、量大、项目繁细,但是难以避免数据获取的偏倚性。将统计机构的数据作为金标准和框架对互联网数据进行矫正,将互联网数据作为补充资源对统计机构的数据进行实时更新,也许是解决问题的一个思路。研究利用多源数据的重叠关系整合多数据库资源的方法,多种专题( panels) 的数据可以相互联合,实现单一专题数据不能完成的目标。大数据的抽样方法有待研究[2] 。“样本”不必使用所有“数据”,不管锅有多大,只要充分搅匀,品尝一小勺就知道其滋味。针对大数据流环境,需要探索从源源不断的数据流中抽取足以满足统计目的和精度的样本。需要研究新的适应性、序贯性和动态的抽样方法。根据已获得的样本逐步调整感兴趣的调查项目和抽样对象,使得最近频繁出现的“热门”数据,也是感兴趣的数据进入样本。建立数据流的缓冲区,记录新发生数据的频数,动态调整不在样本中的数据进入样本的概率。对于罕见案例,如果采用简单随机抽样将会抽到很少的案例和过多的非案 例 数 据。需要研究大数据的案例抽样方法Case-based sampling) 。探索基于事件的抽样方法( Event-based sampling) 。设置信号强度门槛值,仅抽样超过门槛值的数据。利用其他各种抽样技术,例如: 捕获—再捕获,不等概率抽样,将注意力放到总体中难以观测到的部分。在大数据环境中采用非随机抽样方法,如滚雪球方法,从种子开始逐步扩大样本。研究对社会关系网络和图的抽样方法,从随机种子出发,不断加入新种子,了解网络性质和结构。需要研究发现稀疏信号的方法和压缩感知方法。成组检测是发现稀疏信号的一个特别方法。例如美国 1943 年对新兵验血检查梅毒感染时,由于梅毒是罕见疾病,采用了将一组人群的血液混合在一起进行检测的高效快捷方法。
结束语
  一个新生事物的出现将必定导致传统观念和技术的革命。数码照相机的出现导致传统相片胶卷和影像业的已近消亡。如果大数据包含了所有父亲和儿子的身高数据,只要计算给定的父亲身高下所有儿子的平均身高就可以预测其儿子身高了。模型不再重要,当年统计学最得意的回归预测方法将被淘汰。大数据的到来将对传统的统计方法进行考验。统计学会不会象科学哲学那样,只佩戴着历史的光环,而不再主导和引领人们分析和利用大数据资源。现在其他学科和行业涌入大数据的热潮,如果统计学不抓紧参与的话,将面临着被边缘化的危险。现今统计学的目标是通过获取数据和分析数据发现真理( 总体的参数和性质) ,统计方法和理论对数据有过高的要求。而大数据充满了各种随机的、非随机的误差和偏倚,不能满足这些苛刻的要求。按照波普的科学划界准则,只要我们能从大数据中提炼出具有可证伪的结论,那么这个结论还是科学的,可以用于知识积累。这些可证伪的大数据结论可作为进一步科学研究的假说,以数据驱动研究。我们在看到大数据给统计学带来了机遇的同时,也应该看到现在的统计方法普遍只适用于全部数据放在单个计算机内存的环境,分布式大数据和数据流的环境给统计学带来了挑战。统计学家不应该固守传统数据的环境,必须积极学习新生事物,适应新的大数据环境,扩展统计学的应用领域,创造出迎合大数据的新统计方法,“机遇”与“挑战”并存。
参考文献
[1]Chen H,Geng Z,Jia J. Criteria for surrogate end points[J]. JRoyal Statist Soc Ser,2007,B 69: 919 - 932.
[2]Committee on the Analysis of Massive Data et al. ( 2013) Frontiers inMassive Data Analysis[J]. National Academies Press,Washington.http: / /www. nap. edu /catalog. php? record_id =18374.
[3]Deng K,Geng Z,Liu J. Association Pattern Discovery via ThemeDictionary Models[J]. To appear in J Royal Statist Soc B,2013.
[4]He Y,Geng Z. Active learning of causal networks with interventionexperiments and optimal designs [J]. J Machine LearningResearch,2008,9: 2523 - 2547.
[5]Jia J, Geng Z, Wang M. Identifiability and estimation ofprobabilities from multiple databases with incomplete data andsampling selection[J]. Lecture Notes in Computer Sciences,2006,4109: 792 - 798.
[6]维克托·迈尔 - 舍恩伯格,肯尼思·库克耶. 大数据时代—生活、工作与思维的大变革[M]. 盛杨燕,周涛 译,杭州: 浙江人民出版社.

以上论文内容是由硕士论文网为您提供的关于《大数据时代统计学面临的机遇与挑战》的内容,如需查看更多硕士毕业论文范文,查找硕士论文、博士论文、研究生论文参考资料,欢迎访问硕士论文网统计学论文栏目。