统计学论文试论大数据统计的新思维
所属栏目:统计论文
发布时间:2015-04-10 16:56:17 更新时间:2019-06-12 15:16:58
摘要:大数据给互联网带来的是前所未有的信息大爆炸,不仅改变了从前互联网的数据应用模式,还影响了人们的生活方式。处于大数据时代的人们认识到了大数据已经将数据分析从向后分析转变成向前分析,从而改变了人们的思维方式,但同时也提出了一些挑战,在解决问题的同时也意味着大数据开始向纵深方向发展。
关键词:统计学论文,大数据,统计学,统计思维,数据应用模式,数据分析
1 对大数据的初步认识
首先我们需要知道什么是大数据,它在不同的科学领域、不同的行业都有不同的解释。相对于传统意义上的数据,大数据这里的含义有新的解释,不只是字面本身的意思,更为重要的是数据的内涵,可能“大”与“数据”的含义本就不能分开理解,只有把“大数据”这三个字放在一起才能更有意义。从统计学的角度出发我们应该怎样来理解大数据呢?它是在现代信息技术、工具的基础上运用可自动记录、储存能力的所有类型的数据。简单地说,大数据就是所有的可记录信息的集合。可以这样来理解,把以前的统计研究数据比做是根据一定条件收集在一起的结构化的样本,那大数据就是所有可以记录、存储、超大容量的各种各样类型的数据总集合。从统计学的角度出发,传统的样本数据与现今的大数据的区别在哪呢?区别就在于传统的样本数据是按特定的条件所产生的格式化数据,样本的数量是有限的,而且如果说统计设计过程偏离了方案,数据就失去意义。一般都不可能同时满足各方面统计需求,如果出现了其事先未考虑到的情况,数据的不能扩展性就会导致数据的失效,那统计方案也就失效了。而大数据是所有可能通过现代信息科技手段可获得的数据,其数据量巨大,并且不会受到一些条件的限制。因此,大数据最大的优势就是非常宽的数据选择性,可进行多维度、多角度的数据分析方案。更为重要的是因为大数据的样本选择面宽,样本如果不够说明情况还可以从大数据中选择扩大;样本中不能够发现的某些细小信息,在大数据也可以获得。
2 统计思维的新变化
在大数据时代要想做好统计工作,需要改变统计思维,否则,统计工作很难发展,至少会被边缘化。统计思维的变化应该从对数据的掌握与分析开始,下一步是揭示事物的本质与相互联系,直至揭示事物的发展规律。也可以说统计工作的目的就是要还原事物的本来面目,从而达到还原真相的效果。
2.1 认识数据的思维要变化
与传统样本数据相比,大数据不仅数量多和选择多,而且其来源和数据类型都发生了根本性的变化,数据既杂乱又多样。首先,从根源来讲,传统的样本数据的收集对象较特定,所以数据的特征都非常明显并可以识别,还可以进行事后的核对检验。但大数据则不同,它们来源于网络,其数据并不是为了特定事物收集而产生的,而是一切可记录的数据,所以说大数据的来源是没有针对性的。其次,从类型来看,传统样本数据一般都是结构型数据,有一定格式标准,可以运用常规统计指标或者统计图表来表示。而大数据大多是非结构型且无任何针对性的数据,既包括可记录的和可存储的信号,又没有标准、多样化,过去的统计指标或图表来表现比较困难。最后,从运用方式上看,传统样本数据的处理有一整套方法可行,其结果可以直接使用。但是大数据中的数据怎样与结构化数据对接则是一个崭新的问题。
2.2 收集数据的思维要变化
以往收集统计数据的方法是先确定统计研究目的,再根据统计目的收集数据,因此设计调查方案及设计统计流程就显得十分必要,有时投入的人力物力较大而产出数据十分有限。现在则不同了,在大数据时代,有大量的可选择数据,需要做的环节就是加以比较与筛选,我们需要考虑的应该是怎样利用大数据的优势,在大数据源中找到我们需要东西。当然,也不是所有数据都可以从互联网中找到,中间存在一个再加工或成本比较的问题。所以,有时运用大数据的同时也需要采用一些传统的统计方法来收集特殊的数据,再利用互联网信息技术的强大功能去收集一些相关的数据进行过滤、选择。
2.3 对数据的分析思维要有新变化
针对上述两方面内容发生的变化,对统计数据分析的思维必然要做出调整,这就需要我们尽可能地利用信息技术或先进的技术方法从大数据中找出对我们有价值的信息,并在这个过程中丰富统计科学的方法。主要体现在以下三点:
首先,过去的统计分析方法是先定性,再定量,最后定性。它的意义是为了找准统计方向和目标,运用的是以往经验的判断,这些在以前统计数据分析手段方法较落后的情况下是很重要的。而在信息时代,我们只需要在大数据中找出相应的资料,直接依靠数据分析方法做出统计判断,这种方法在存储能力无限增大、统计分析方法和实现速度大大改善的现在,已经变得可以实现了,因此我们更需要做的就是直接从中找出真正需要的数据,就可得出我们所需要的内容,因此统计分析的整个流程可直接简化为先定量、后定性。
其次,过去的统计样本实证分析,都需要先依据统计目的提出设定,再通过数据收集与分析来证明是否成立,但是这种验证过程往往受到局限,特别是一旦假设不科学、不符合实际情况,那么分析的结论就没有意义甚至歪曲事实。许多例子分析目的就是为了凑合假设。反之,在大数据时代,可以先不考虑任何条件和限制去寻找关系和发现规律之后再加以总结并做出结论。统计分析的思路则是发现、总结。这样一来,就丰富了统计分析的资源和空间,有利于发现其他更有益的数据。
最后,统计推断分析理论,是基于分布理论原理,以数学中的概率做基础,再根据样本的特征推断出总体特征。其逻辑关系为先分布理论,然后是概率考证。标准虽然与样本无关,但是推断的是否正确却是决定于样本的质量。在大数据条件下,总体特征就不再需要根据分布理论来进行推断了,如果需要的话进行计数即可根据所有数据以及实际分布的情况来推断其中某些可能,那么其逻辑就变成了实际分布情况、总体特征和概率推断。
3 结语
大数据时代对人类社会政治、经济、文化产生着深远的影响,特别是对国民经济统计科学的变革产生着直接的影响。我国统计机构和统计人员如果忽视或者回避这种影响,就很难适应时代的发展,也就不能良好地完成统计工作。大数据时代已经到来,我国统计机构要端正态度、放眼未来,率先在统计制度和方法上做出改变,才能使统计科学的意义得到保证。
参考文献
[1] 涂子沛.大数据[M].桂林:广西师范大学出版社,2013.
[2] 郭晓科.大数据[M].北京:清华大学出版社,2013.
[3] 李金昌.统计思想研究[M].北京:中国统计出版社,2009.
作者简介:柴世珲(1980-),男,甘肃兰州人,供职于甘肃省邮政公司。
文章TAG标签:大数据论文