书城政治中国大参考(2013-2014)
48867900000035

第35章 数据报告(1)

大数据时代的一个特点,便是人们不愿意再容忍信息短缺,或是靠个人的经验智慧来预测、做决断。决策者不仅要求数据说话,而且期待由巨量的动态中的数据来说话。这将成为决策的基本要求。有分析家大胆宣布:大数据预示着“理论”的终结。

2013:中国大数据元年

IDC数据显示,2006年全世界的电子数据存储量为18万PB ,2011年这个数字已经达到180万PB,短短5年间就已经增长了一个数量级,而根据预测,2015年这个数字则会达到如同天文数字般的800万PB,大数据时代已经来临。那么,大数据这个概念孕育着一个怎样的未来?综合各方对大数据的研究和描述,大数据时代未来发展将出现4大发展趋势。

大数据将改变人类生活、工作和思考方式

大数据与互联网截然不同,互联网重塑了人类交流的方式。大数据标志着社会处理信息方式的变化。随着时间的推移,大数据可能会改变我们思考世界的方式最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡。麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”

早在1980年,着名未来学家阿尔文·托夫勒便在《第三次浪潮》一书中,将大数据热情地赞颂为“第三次浪潮的华彩乐章”。不过,大约从2009年开始,“大数据”才成为互联网信息技术行业的流行词汇。

美国互联网数据中心指出,互联网上的数据每年将增长50%,每两年便将翻一番,而目前世界上90%以上的数据是最近几年才产生的。

在公元前3世纪,亚历山大图书馆被认为收藏了全部的人类知识。

而如果把今天全世界的信息平分给每一个活着的人,那么每个人拥有的信息量将足足超过当年亚历山大图书馆全部藏书的320倍。如果把所有这些信息刻到光盘上并且分5摞叠起来的话,那么这些光盘可以一直堆到月球。仅仅在2000年的时候,全世界全部的存储信息中还只有1/4是数字化的,其余的都保存在纸张、胶片和其他模拟介质上。

但是由于数字数据数量的增长十分迅速——几乎每三年就翻一番,这种情形很快发生了逆转。今天,在所有存储信息中只有不到2%是非数字化的。

大数据到底有多大?一组名为“互联网上一天”的数据告诉我们,一天之中,互联网产生的全部内容可以刻满1.68亿张DVD;发出的邮件有2940亿封之多(相当于美国两年的纸质信件数量);发出的社区帖子达200万个(相当于《时代》杂志770年的文字量);卖出的手机为37.8万台,高于全球每天出生的婴儿数量37.1万……

截止到2012年,数据量已经从TB(1024GB=1TB)级别跃升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024EB=1ZB)级别。国际数据公司(IDC)的研究结果表明,2008年全球产生的数据量为0.49ZB,2009年的数据量为0.8ZB,2010年增长为1.2ZB,2011年的数量更是高达1.82ZB,相当于全球每人产生200G 以上的数据。

而到2012年为止,人类生产的所有印刷材料的数据量是200PB,全人类历史上说过的所有话的数据量大约是5EB。IBM 的研究称,整个人类文明所获得的全部数据中,有90%是过去两年内产生的。而到了2020年,全世界所产生的数据规模将达到今天的44倍。

众所周知,互联网改变了企业经营、政府运作以及人们生活的方式。

但是一种新的、不那么明显的技术趋势却有着同样巨大的变革能力,那就是“大数据”(Big Data)。

大数据的趋势发端于下面这个事实:如今到处传播的信息比以往任何时候都多出了许多,而且这一趋势正在应用于非同寻常的新用途。大数据与互联网截然不同,互联网重塑了人类交流的方式。大数据标志着社会处理信息方式的变化。随着时间的推移,大数据可能会改变我们思考世界的方式。虽然互联网使数据的收集和共享方便了很多。大数据的意义并不仅仅是通信:其本质是我们可以从大量的信息中学习到从较少量的信息中无法获取的东西。

大数据的另一个特征是它能够用数据来表现世界的众多层面,而这些层面以往从来都没有被量化过——这种特征可以被称为“数据化”。

例如,位置信息的数据化最早是由于经纬度的发明,而后来又有了GPS。当计算机对几个世纪内的书籍进行取样时,文字便成了被处理的数据。甚至连友谊和爱好也被数据化了——例如通过脸谱网。借助于廉价的电脑内存、高性能处理器、智能算法、聪明软件以及从基本统计学中借鉴来的数学知识,这样的一类数据正在被应用于难以置信的新用途中。这种新方法并不是试图“教会”计算机去从事驾驶或翻译这样的事情,而是要向计算机输入足够多的信息,从而使它们能够推断概率,例如交通指示绿灯亮、红灯不亮的概率,或者是在特定语境下“light”一词意为“光”而不是“轻”的概率。

大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。

美国《外交》杂志题为“大数据的兴起”一文就此指出,互联网重塑了人类交流的方式。大数据则不同:它标志着社会处理信息方式的变化。随着时间的推移,大数据可能会改变我们思考世界的方式。

据报道,奥巴马便是借了大数据的光,才获胜连任。美国人常说,总统竞选由捐款额决定胜负。奥巴马的竞选班子则聪明地意识到,信息社会要利用信息优势。于是,早在2008年,他们就悄悄布下一场大数据战役,确定了竞选纲领,力争举棋不定的选民和捐款大腕。总统竞选的班子从选民登记、电话民调、博客、推特、社交与视屏网站、用户行为的电子轨迹等入手,收集信息,为每一个争取对象建立了有80来个信息点(变量)的个人档案,包括年龄、性别、种族、职业、教育背景、投票历史、电视习惯,诸如此类。然后用专门编写的大数据算法分析这些数据,推测选民的立场,关注什么,担心什么,直至潜意识中最可能感动他的东西。就拿筹款活动来说,跟总统晚宴是少不了的,4万美元一张餐券,邀请信美轮美奂,内容更见功夫。竞选班子根据大数据分析结果,为受邀者量体裁衣。对于关心儿童和青少年教育的人士,邀请信会注明晚宴主持人的母亲身份;对爱好文化艺术的,就安排表演节目或知名学者讲话;而对“追星族”,则必有好莱坞或体育明星捧场。结果,奥巴马一举创下了11亿美元的募款纪录(Sasha Issenberg:《奥巴马总统的竞选如何用大数据大获选民》,MIT Technology Review,2012年12月16-18日)。

更为关键的是,竞选大数据计划保持着全程动态,每一次竞选活动得到的反馈都及时输入数据库,保证档案能准确反映选战的最新发展。

必要时,还能激活自学程序,实时调整算法,让决策和行动紧跟形势。

实际上,此次大选两党的募捐都很成功,但共和党的竞选班子太愿意相信媒体发布的孤立的民调数字,反而对选民的感觉迟钝了。直到离投票日只有几个月了,才意识到对手大数据战略的厉害。这时,追赶已经来不及了。奥巴马的成功连任,分析家都说,大数据功不可没。

大数据的预测和决策精度可以达到85%以上。换言之,它使得成功的预测不再是随机、难以把握的任务,而是建立在科学方法和巨量数据基础上,具有极高的连贯性和可预期性。大数据成了信息时代的预测权威。

人类受自身生理器官和认知能力的局限,只能收集处理极其有限的信息。几千年来,人类一直致力于信息工具的改进与革新,如印刷术、图书馆、档案馆等,不断突破自身和材料、技术条件的限制,拓展信息知识的利用。但这些进步并没有改变预测决策的常态:信息缺失,寓意模糊,分析工具的处理能力不高。预测往往不甚可靠,每每失误、丧失机会而浑然不知。直到数码互联网技术的发明,天地才豁然开朗。

大数据时代的一个特点,便是人们不愿意再容忍信息短缺,或是靠个人的经验智慧来预测、做决断。决策者不仅要求数据说话,而且期待由巨量的动态中的数据来说话。这将成为决策的基本要求。难怪有分析家大胆宣布:大数据预示着“理论”的终结。

但大数据也并非那么完美。正如哥伦比亚大学媒体创新研究所的汉森(Mark Hansen)所长指出:数据承袭了人类的所有缺陷。使用大数据如稍不当心,那些缺陷便会带来失误。大数据的职责是预测和决策支持,是处理未来跟未知。当未来与往昔情形相似时,大数据一般能有效发挥作用。但如果不尽相似或迥异,大数据就未必比人高明了;很可能比人错得更厉害,因为它大,会成倍地放大人的缺陷。不幸的是,未来常常不同于往昔,充满了偶然与突变。大数据就没法当灵丹妙药了;过度的信赖,有可能被误导。

大数据将在全球范围内催生服务产业链

以往大数据通常用来形容一个公司创造的大量非结构化和半结构化数据,而现在提及“大数据”,通常是指解决问题的一种方法,即通过收集、整理生活中方方面面的数据,并对其进行分析挖掘,进而从中获得有价值信息,最终衍化出一种新的商业模式。

很多人对数据的理解依然停留在“数字”的概念上,其实,数据的范围已经扩大。人们发的每一条微博、电脑上听到的声音文件、监控器收集到的视频信息都成为数据。不仅有数字,还包括文本、图片、声音、影像、地理位置。未来还可能包括利用生物技术收集的生物数据,比如指纹、脉搏、眼球移动记录等。

以往大数据通常用来形容一个公司创造的大量非结构化和半结构化数据,而现在提及“大数据”,通常是指解决问题的一种方法,即通过收集、整理生活中方方面面的数据,并对其进行分析挖掘,进而从中获得有价值信息,最终衍化出一种新的商业模式。

事实上,大数据的影响并不仅仅限于信息通信产业,而是正在“吞噬”和重构很多传统行业,广泛运用数据分析手段管理和优化运营的公司其实质都是一个数据公司。麦当劳、肯德基以及苹果公司等旗舰专卖店的位置都是建立在数据分析基础之上的精准选址。而在零售业中,数据分析的技术与手段更是得到广泛的应用,传统企业如沃尔玛通过数据挖掘重塑并优化供应链,新崛起的电商如卓越亚马逊、淘宝等则通过对海量数据的掌握和分析,为用户提供更加专业化和个性化的服务。

传统的商务智能已经应用了数据仓库和数据挖掘的技术,对企业自身的数据进行存储、清洗、索引和分析,并能够提供包括客户价值评价、客户满意度评价、服务质量评价、营销效果评价、市场需求评估等各种基于简单统计和关联挖掘的报表——这些统计结果对于企业自身评估和决策起到了重要的作用。在商务智能时代积累起来的和数据打交道的经验既是大数据新商业模式技术和理念的基础,又有可能束缚大数据商业革命,因为有经验的商务智能人士会不自觉地把大数据分析庸俗化,认为只是传统商务智能针对更大规模数据集的一种平凡推广。

未来,可能会形成一些产业的分工,比如哪些是做数据整合的,哪些是做数据服务的,哪些是做数据交换的,哪些是做产品运营和咨询的等,部门都会逐步的清晰,这样就会形成一定的市场规模,在不同的行业领域和细分市场里都会出现比较专业的分工体系按照电子科技大学互联网科学中心教授周涛的观点,大数据商业模式也可以粗略地分为1.0版本,2.0版本和3.0版本。大数据1.0是指企业自身的产品和服务产生了大量的数据,通过对这些数据进行深入的挖掘分析,改进自身业务,改进后的业务吸引更多用户或客户,产生更大量的数据,形成正向的循环。亚马逊是一个典型的例子,他们利用以“基于商品的协同过滤”为主要代表的一系列推荐算法,帮助用户找到他们可能喜欢的商品。这种精准的个性化服务的背后,是非常复杂的算法和实时大数据处理能力。亚马逊的算法大大提高了用户的黏度和企业的销售额,从而产生了更多有价值的数据,这些数据又帮助亚马逊做得更好。

大数据2.0是指企业用自身业务产生的数据,去解决主营业务以外的其他问题,获得重大的价值;或者引入非企业自身业务的外部数据,来解决企业自己遇到的问题。大数据2.0强调的是数据的外部性。