
大数据的研究状况及演进动态预测 产生的背景与含义 大数据的概念 上世纪 60 年代到 80 年代早期,企业在大型机上推进财务、银行等关键应用平台,存储 介质包括硬盘、磁带、光盘等。尽管后来他们称其为大数据,但以今日的数据量来看,这些 数据无疑是比较有限的。随着 PC 的发生和应用较多,企业外部发生了这些以公文档为主要 形式的数据,包括 Word、Excel 文档,以及当时出融ppt' target='_blank'>联网的勃兴则促使了数据量的第三次增长,在互联网的时代,几乎全民 都在制造数据。而与此同时,数据的方式也非常丰富,既有社交网络、多媒体等应用所主动 产生的数据,也有搜索引擎、网页浏览等主动行为过程中被记录、搜集的数据。时至今日, 随着联通互联网、物联网、云计算应用的进一步丰富,数据已呈指数级的下降,企业所处理 的数据尚未超过 PB 级,而中国今年所造成的数据量更是到了惊人的 ZB 级。在数据的这些 爆炸式增长的背景下, “大数据”的概念逐步在科技界、学术界、产业界引起质疑。

在大数 据时代,我们预测的数据由于“大” ,摆脱了传统对随机采样的依赖,而是应对全体数据; 因为所有信息都是“数” ,可以不再纠结具体数据的精确度,而是从容应对信息的混杂;信 息之“大”之“杂” ,让我们预测的“据”也由传统的因果关系变为相关关系。 大数据浪潮的引爆让美国渴望“弯道超越”的机会,创造亚洲 IT 企业从在红海领域苦 苦沉沦转向在蓝海领域奋起直追的战略契机。传统 IT 行业针对底层设备、基础科技的规定 非常高,企业在起点落后的状况下依然疲于追逐。每当企业在浪费大量人力、物力、财力取 得技术突破时,IT 革命尚未将核心设施或元件构建至下一阶段。这种一步落后、处处受制 于人的状况在大数据时代有望得到颠覆。 大数据针对软件基础设施的规定相对较低, 不会受 困于基础设施核心元件的相对落后。 与在传统操作层面的科技差距相比, 大数据分析 应用的中外科技差距要小得多。而且,美国等特色 IT 强国的大数据战略也都处于摸着石头 过河的试错阶段。中国行业的体量之大也为这一行业发展提供了大空间、大系统。大数据对 于美国企业不仅仅是信息技术的升级,更是企业发展战略的转型。随着对大数据的获得、处 理、管理等各个角度研究的推进,企业逐步了解数据终于渐渐演成为“数据资产” 。

任何硬 件、软件及服务就会随着科技发展和需求差异日渐被淘汰内外研究现状和发展动态,只有数据才具备大量可用性,值 得累积。数据是企业的核心资产,可以是也需要是独立于软软件平台及应用需求而存在的。 大数据是信息技术演化的最新产物内外研究现状和发展动态, 确立了数据这一信息技术元素的独立地位。 正由于数据 不再是软软件及应用的附属产物, 才有了昨天爆炸式的数据下降, 从而确立了大数据的基础。 为了充分利用数据资产,大数据行业也呼之欲出。大数据时代来临,使商业智能、信息安全 和云计算具备更大潜力。 大数据产业链按产品形态分为硬件、 基础软件和应用工具三大领域, 商业智能、信息安全和云计算主横跨三大领域,将组成产业链中迅速发展的三驾马车。就国 内而言,商业智能行业已进入成大量,预计今后 3 年复合年均增长率( CAGR) 为 35%, “十 二五”期间潜在收入将超 300 亿元; 信息安全预计今后 3 年 CAGR 有望保持 35% ~ 40% 的快速增长, “十二五” 期间潜在收入将超 4000 亿元; 云计算刚步入成大量, 预计今后 5 年 CAGR 将超 50%,2015 年产业规模力争将达 1 万亿元。大数据处理的基础设施数据仓库、 以物联网为代表的数据收集环节、 实时性强的数据预测软件, 以及数据可视化的产品呈 现,数据挖掘的应用在营销、销售、人力资源、电子商务等各个商业领域广泛推行,大数据 为个性化营销和精准化推荐提供了充裕的养分和可持续发展的沃土。

同时大数据研究会给企 业管理创新带给巨大冲击。对现代企业的管控运作模式、组织业务流程、市场营销决策以及 消费者行为方式等造成很大制约, 使得企业商务管理决策越来越依赖于数据预测而非经验甚 至直觉。大数据将造就由信息驱动的的商业理念,在企业的价值链中发挥中间作用,通过商 业交易构建极具价值的“排出数据” ;数据驱动的决策建立,利用可控实验,企业才能验证 假设、 分析结果以指导投资决策及运作改变; 利用大数据进一步提升算法和机器预测的作用, 避免成本低廉的人工干预,节约费用,提高效率。 研究进展 “大数据”这个概念早在上个世纪的 1980 年,著名未来学家阿尔文·托夫勒便在《第 三次浪潮》一书中,就将“大数据”热情地赞颂为“第三次浪潮的华彩乐章” 。2008 年 9 月 《科学》 (Science)杂志发表了一篇文章“BigData: Science in the Petabyte Era” 。 “大数据” 这个词开始被广泛传播。目前的人士学者对大数据也是在数据体量上达成共识: “超 ”表示的是 GB 级别的数据, “海量”表示的是 TB 级的数据,而“大数据”则是 PB 级别以及以下的数据。

但对其的确切定义给出的推论不一。美国国家科学基金会( NSF) 则 将大数据定义为“由科学仪器、传感设备、互联网交易、电子邮件、音视频插件、网络单击 流等多种数据源生成的、多元化、复杂、长期的分布式数据集” 。Wiki 对大数据的定 义为:所涵盖的资料量规模很大到难以透过现在主流硬件软件,在合理时间内超过撷取、管 理、处理、并整理作为帮助企业经营决策更切实目的的资讯。麦肯锡中国数据预测研究所在 2011 年 5 月发表的一篇论文中所说: “大数据是指大小超过了典型工具采集、存储、 管理和探讨素质的数据集。 ”但它同时强调“大数据”并非总是说有数百个 TB 才算得上。 根据实际使用状况,有时候数百个 GB 的数据也可称为大数据,这主要要
本文来自电脑杂谈,转载请注明本文网址:
http://www.pc-fly.com/a/tongxinshuyu/article-124217-1.html
爱你