书城政治中国大参考(2013-2014)
32784300000013

第13章 中国大数据元年

大数据时代的一个特点,便是人们不愿意再容忍信息短缺,或是靠个人的经验智慧来预测、做决断。决策者不仅要求数据说话,而且期待由巨量的动态中的数据来说话。这将成为决策的基本要求。有分析家大胆宣布:大数据预示着“理论”的终结。

IDC数据显示,2006年全世界的电子数据存储量为18万PB,2011年这个数字已经达到180万PB,短短5年间就已经增长了一个数量级,而根据预测,2015年这个数字则会达到如同天文数字般的800万PB,大数据时代已经来临。那么,大数据这个概念孕育着一个怎样的未来?综合各方对大数据的研究和描述,大数据时代未来发展将出现4大发展趋势。

大数据将改变人类生活、工作和思考方式

大数据与互联网截然不同,互联网重塑了人类交流的方式。大数据标志着社会处理信息方式的变化。随着时间的推移,大数据可能会改变我们思考世界的方式。

最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡。麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”

早在1980年,著名未来学家阿尔文·托夫勒便在《第三次浪潮》一书中,将大数据热情地赞颂为“第三次浪潮的华彩乐章”。不过,大约从2009年开始,“大数据”才成为互联网信息技术行业的流行词汇。美国互联网数据中心指出,互联网上的数据每年将增长50%,每两年便将翻一番,而目前世界上90%以上的数据是最近几年才产生的。

在公元前3世纪,亚历山大图书馆被认为收藏了全部的人类知识。而如果把今天全世界的信息平分给每一个活着的人,那么每个人拥有的信息量将足足超过当年亚历山大图书馆全部藏书的320倍。如果把所有这些信息刻到光盘上并且分5摞叠起来的话,那么这些光盘可以一直堆到月球。仅仅在2000年的时候,全世界全部的存储信息中还只有1/4是数字化的,其余的都保存在纸张、胶片和其他模拟介质上。但是由于数字数据数量的增长十分迅速——几乎每三年就翻一番,这种情形很快发生了逆转。今天,在所有存储信息中只有不到2%是非数字化的。

大数据到底有多大?一组名为“互联网上一天”的数据告诉我们,一天之中,互联网产生的全部内容可以刻满1.68亿张DVD;发出的邮件有2940亿封之多(相当于美国两年的纸质信件数量);发出的社区帖子达200万个(相当于《时代》杂志770年的文字量);卖出的手机为37.8万台,高于全球每天出生的婴儿数量37.1万……

截止到2012年,数据量已经从TB(1024GB=1TB)级别跃升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024EB=1ZB)级别。国际数据公司(IDC)的研究结果表明,2008年全球产生的数据量为0.49ZB,2009年的数据量为0.8ZB,2010年增长为1.2ZB,2011年的数量更是高达1.82ZB,相当于全球每人产生200GB以上的数据。而到2012年为止,人类生产的所有印刷材料的数据量是200PB,全人类历史上说过的所有话的数据量大约是5EB。IBM的研究称,整个人类文明所获得的全部数据中,有90%是过去两年内产生的。而到了2020年,全世界所产生的数据规模将达到今天的44倍。

众所周知,互联网改变了企业经营、政府运作以及人们生活的方式。但是一种新的、不那么明显的技术趋势却有着同样巨大的变革能力,那就是“大数据”(Big Data)。

大数据的趋势发端于下面这个事实:如今到处传播的信息比以往任何时候都多出了许多,而且这一趋势正在应用于非同寻常的新用途。大数据与互联网截然不同,互联网重塑了人类交流的方式。大数据标志着社会处理信息方式的变化。随着时间的推移,大数据可能会改变我们思考世界的方式。虽然互联网使数据的收集和共享方便了很多。大数据的意义并不仅仅是通信:其本质是我们可以从大量的信息中学习到从较少量的信息中无法获取的东西。

大数据的另一个特征是它能够用数据来表现世界的众多层面,而这些层面以往从来都没有被量化过——这种特征可以被称为“数据化”。例如,位置信息的数据化最早是由于经纬度的发明,而后来又有了GPS。当计算机对几个世纪内的书籍进行取样时,文字便成了被处理的数据。甚至连友谊和爱好也被数据化了——例如通过脸谱网。借助于廉价的电脑内存、高性能处理器、智能算法、聪明软件以及从基本统计学中借鉴来的数学知识,这样的一类数据正在被应用于难以置信的新用途中。这种新方法并不是试图“教会”计算机去从事驾驶或翻译这样的事情,而是要向计算机输入足够多的信息,从而使它们能够推断概率,例如交通指示绿灯亮、红灯不亮的概率,或者是在特定语境下“light”一词意为“光”而不是“轻”的概率。

大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。

美国《外交》杂志题为“大数据的兴起”一文就此指出,互联网重塑了人类交流的方式。大数据则不同:它标志着社会处理信息方式的变化。随着时间的推移,大数据可能会改变我们思考世界的方式。

据报道,奥巴马便是借了大数据的光,才获胜连任。美国人常说,总统竞选由捐款额决定胜负。奥巴马的竞选班子则聪明地意识到,信息社会要利用信息优势。于是,早在2008年,他们就悄悄布下一场大数据战役,确定了竞选纲领,力争举棋不定的选民和捐款大腕。总统竞选的班子从选民登记、电话民调、博客、推特、社交与视屏网站、用户行为的电子轨迹等入手,收集信息,为每一个争取对象建立了有80来个信息点(变量)的个人档案,包括年龄、性别、种族、职业、教育背景、投票历史、电视习惯,诸如此类。然后用专门编写的大数据算法分析这些数据,推测选民的立场,关注什么,担心什么,直至潜意识中最可能感动他的东西。就拿筹款活动来说,跟总统晚宴是少不了的,4万美元一张餐券,邀请信美轮美奂,内容更见功夫。竞选班子根据大数据分析结果,为受邀者量体裁衣。对于关心儿童和青少年教育的人士,邀请信会注明晚宴主持人的母亲身份;对爱好文化艺术的,就安排表演节目或知名学者讲话;而对“追星族”,则必有好莱坞或体育明星捧场。结果,奥巴马一举创下了11亿美元的募款纪录(Sasha Issenberg:《奥巴马总统的竞选如何用大数据大获选民》,MIT Technology Review,2012年12月16—18日)。

更为关键的是,竞选大数据计划保持着全程动态,每一次竞选活动得到的反馈都及时输入数据库,保证档案能准确反映选战的最新发展。必要时,还能激活自学程序,实时调整算法,让决策和行动紧跟形势。实际上,此次大选两党的募捐都很成功,但共和党的竞选班子太愿意相信媒体发布的孤立的民调数字,反而对选民的感觉迟钝了。直到离投票日只有几个月了,才意识到对手大数据战略的厉害。这时,追赶已经来不及了。奥巴马的成功连任,分析家都说,大数据功不可没。

大数据的预测和决策精度可以达到85%以上。换言之,它使得成功的预测不再是随机、难以把握的任务,而是建立在科学方法和巨量数据基础上,具有极高的连贯性和可预期性。大数据成了信息时代的预测权威。

人类受自身生理器官和认知能力的局限,只能收集处理极其有限的信息。几千年来,人类一直致力于信息工具的改进与革新,如印刷术、图书馆、档案馆等,不断突破自身和材料、技术条件的限制,拓展信息知识的利用。但这些进步并没有改变预测决策的常态:信息缺失,寓意模糊,分析工具的处理能力不高。预测往往不甚可靠,每每失误、丧失机会而浑然不知。直到数码互联网技术的发明,天地才豁然开朗。

大数据时代的一个特点,便是人们不愿意再容忍信息短缺,或是靠个人的经验智慧来预测、做决断。决策者不仅要求数据说话,而且期待由巨量的动态中的数据来说话。这将成为决策的基本要求。难怪有分析家大胆宣布:大数据预示着“理论”的终结。

但大数据也并非那么完美。正如哥伦比亚大学媒体创新研究所的汉森(Mark Hansen)所长指出:数据承袭了人类的所有缺陷。使用大数据如稍不当心,那些缺陷便会带来失误。大数据的职责是预测和决策支持,是处理未来跟未知。当未来与往昔情形相似时,大数据一般能有效发挥作用。但如果不尽相似或迥异,大数据就未必比人高明了;很可能比人错得更厉害,因为它大,会成倍地放大人的缺陷。不幸的是,未来常常不同于往昔,充满了偶然与突变。大数据就没法当灵丹妙药了;过度的信赖,有可能被误导。

大数据将在全球范围内催生服务产业链

以往大数据通常用来形容一个公司创造的大量非结构化和半结构化数据,而现在提及“大数据”,通常是指解决问题的一种方法,即通过收集、整理生活中方方面面的数据,并对其进行分析挖掘,进而从中获得有价值信息,最终衍化出一种新的商业模式。

很多人对数据的理解依然停留在“数字”的概念上,其实,数据的范围已经扩大。人们发的每一条微博、电脑上听到的声音文件、监控器收集到的视频信息都成为数据。不仅有数字,还包括文本、图片、声音、影像、地理位置。未来还可能包括利用生物技术收集的生物数据,比如指纹、脉搏、眼球移动记录等。

以往大数据通常用来形容一个公司创造的大量非结构化和半结构化数据,而现在提及“大数据”,通常是指解决问题的一种方法,即通过收集、整理生活中方方面面的数据,并对其进行分析挖掘,进而从中获得有价值信息,最终衍化出一种新的商业模式。

事实上,大数据的影响并不仅仅限于信息通信产业,而是正在“吞噬”和重构很多传统行业,广泛运用数据分析手段管理和优化运营的公司其实质都是一个数据公司。麦当劳、肯德基以及苹果公司等旗舰专卖店的位置都是建立在数据分析基础之上的精准选址。而在零售业中,数据分析的技术与手段更是得到广泛的应用,传统企业如沃尔玛通过数据挖掘重塑并优化供应链,新崛起的电商如卓越亚马逊、淘宝等则通过对海量数据的掌握和分析,为用户提供更加专业化和个性化的服务。

传统的商务智能已经应用了数据仓库和数据挖掘的技术,对企业自身的数据进行存储、清洗、索引和分析,并能够提供包括客户价值评价、客户满意度评价、服务质量评价、营销效果评价、市场需求评估等各种基于简单统计和关联挖掘的报表——这些统计结果对于企业自身评估和决策起到了重要的作用。在商务智能时代积累起来的和数据打交道的经验既是大数据新商业模式技术和理念的基础,又有可能束缚大数据商业革命,因为有经验的商务智能人士会不自觉地把大数据分析庸俗化,认为只是传统商务智能针对更大规模数据集的一种平凡推广。

未来,可能会形成一些产业的分工,比如哪些是做数据整合的,哪些是做数据服务的,哪些是做数据交换的,哪些是做产品运营和咨询的等,部门都会逐步的清晰,这样就会形成一定的市场规模,在不同的行业领域和细分市场里都会出现比较专业的分工体系。

按照电子科技大学互联网科学中心教授周涛的观点,大数据商业模式也可以粗略地分为1.0版本,2.0版本和3.0版本。大数据1.0是指企业自身的产品和服务产生了大量的数据,通过对这些数据进行深入的挖掘分析,改进自身业务,改进后的业务吸引更多用户或客户,产生更大量的数据,形成正向的循环。亚马逊是一个典型的例子,他们利用以“基于商品的协同过滤”为主要代表的一系列推荐算法,帮助用户找到他们可能喜欢的商品。这种精准的个性化服务的背后,是非常复杂的算法和实时大数据处理能力。亚马逊的算法大大提高了用户的黏度和企业的销售额,从而产生了更多有价值的数据,这些数据又帮助亚马逊做得更好。

大数据2.0是指企业用自身业务产生的数据,去解决主营业务以外的其他问题,获得重大的价值;或者引入非企业自身业务的外部数据,来解决企业自己遇到的问题。大数据2.0强调的是数据的外部性。Google曾利用网页搜索词的记录,来预测流感爆发后随时间变化的新增病例数。显然,预测流感趋势这一需求并不包含在记录网页搜索词的初衷中。Zest Finance有一个口号,就是一切数据都是信用数据。实际上,他们大量采集用户在社会媒体上留下的数据,从这些数据中对用户的信用进行判断,预测用户拖延还贷的概率。Zest Finance通过这种分析,能够在低于行业平均拖延还贷率的条件下,进行更快更低成本的贷款发放。显然,用户在社交媒体上产生的数据,并不是Zest Finance自身业务产生的,但是一样可以服务于它的业务。

大数据3.0是一个尚在探索中的商业形态。它首先要求政府和行业,对数据质量、价值、权益、隐私、安全等产生充分认识,出台量化与保障措施。在此基础上,数据运营商出现,形成了以加工粗数据和已有数据产品,产生新的数据产品的“数据客”(Dacker)。个人、团队和企业通过数据API接口或其他方式付费使用数据产品,数据客、运营商和被加工原料所有者共同分享数据产品的利益。数据市场也可能应运而生,数据和数据产品有可能像今天淘宝集市上的商品被售卖交换。于是,一种新的以数据/数据产品为输入,数据/数据产品为输出的新商业模式诞生,这种模式不同于2B(to business)和2C(to customer)的模式——譬如一款精确位置告知实时空气质量的API接口,既可能被企业和政府使用,也可能被个人使用。为了区分,我们称这种模式为2D(to data)的商业模式。新商业模式的直接后果,就是促进学术团体、企业和政府通过大量异质数据和数据产品产生科学、社会、经济等方面的新价值。

艾瑞研究院院长曹军波认为,“从大数据未来发展趋势来看,围绕大数据服务的产业链会逐步形成与完善。未来,可能会形成一些产业的分工,比如哪些是做数据整合的,哪些是做数据服务的,哪些是做数据交换的,哪些是做产品运营和咨询的等部门都会逐步的清晰,这样就会形成一定的市场规模,在不同的行业领域和细分市场里都会出现比较专业的分工体系。互联网仅仅是对线下数据的一个传递、组织、运营和研究、分析。单纯的互联网数据不能完整的刻画和描述人类行为的全部数据,也有很多数据是基于传统意义的线下数据。进入大数据时代,越来越多的这种所谓的线下数据变成了可处理、可运营、比较低成本的进行处理和应用分析的事情。这时,互联网的数据也包含了很多传统意义上认为是线下的一些数据,比如说像消费数据,比如说行为类信息,这些数据在互联网运营服务时代变得可分析、可挖掘。未来线上线下数据融合模式是发展趋势。”

数据储备分析将成为未来新型国家核心战略能力

大数据将深远地改变政府的运作方式和政治的性质。在推动经济增长、提供公共服务或进行战争等方面,那些能够有效利用大数据的人将拥有胜过别人的巨大优势。越来越多的政府、企业等机构开始意识到数据正在成为组织最重要的资产,数据分析能力正在成为组织的核心竞争力。

大数据时代对人类的数据驾驭能力提出了新的挑战,也为人们获得更为深刻、全面的洞察能力提供了前所未有的空间与潜力。正如《纽约时报》2012年2月的一篇专栏中所称,“大数据”时代已经降临,在商业、经济及其他领域中,决策将日益基于数据和分析而做出,而并非基于经验和直觉。哈佛大学社会学教授加里·金说:“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。”

牛津大学互联网研究所Mayer-Schonberger教授指出,“大数据”所代表的是当今社会所独有的一种新型的能力——以一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见。这种“前所未有的”巨大价值和深刻洞见,并不仅仅来自于单一数据集量上的变化,而是不同领域数据集之间深度的交叉关联,姑且称之为“跨域关联”。譬如微博上的内容和社交关系,Flickr上的图片共享,手机通信关系,淘宝上的购物记录等数据通过同一个用户关联起来;又如移动手机定位的移动轨迹,车载GPS的移动数据通过同一个地点关联起来。跨域关联是数据量增大后从量变到质变的飞跃,是大数据巨大价值的基础。

大数据会给整个社会带来从生活到思维上革命性的变化:企业和政府的管理人员在进行决策的时候,会出现从“经验即决策”到“数据辅助决策”再到“数据即决策”的变化;人们所接受的服务,将以数字化和个性化的方式呈现,借助3D打印技术和生物基因工程,零售业和医疗业亦将实现数字化和个性化的服务;以小规模实验、定性或半定量分析为主要手段的科学分支,如社会学、心理学、管理学等,将会向大规模定量化数据分析转型;将会出现数据运营商和数据市场,以数据和数据产品为对象,通过加工和交易数据获取商业价值;人类将在哲学层面上重新思考诸如“物质和信息谁更基础”“生命的本质是什么”“生命存在的最终形态是什么”等本体论问题,等等。总之,大数据不是数据量的简单刻画,也不是特定算法、技术或商业模式上的发展,而是从数据量、数据形态和数据分析处理方式,到理念和形态上重大变革的总和——大数据是基于多源异构、跨域关联的海量数据分析所产生的决策流程、商业模式、科学范式、生活方式和观念形态上的颠覆性变化的总和。

大数据被认为是继信息化和互联网后整个信息革命的又一次高峰。云计算和大数据共同引领以数据为材料,计算为能源的又一次生产力的大解放,甚至可以与以蒸汽机的使用和电气的使用为代表的第一次工业革命和第二次工业革命相媲美。与提升国家竞争力及国民幸福程度密切相关的重大战略都与大数据的分析和利用息息相关,包括与国家安全、社会稳定相关的尖端武器制造与性能模拟实验,群体事件和谣言的预警和干预;与国家科技能力相关的等离子即高能粒子实验分析,纳米材料及生物基因工程;与国民经济繁荣相关的经济金融态势感知与失稳预测,精准营销与智能物流仓储;与环境问题相关的全球气候及生态系统的分析,局部天气及空气质量预测;与医疗卫生相关的个性化健康监护及医疗方案,大规模流行病趋势预测和防控策略;与人民幸福生活相关的个性化保险理财方案,智能交通系统,等等。数据储备和数据分析能力将成为未来新型国家最重要的核心战略能力。

对于政府部门来讲,大数据所能带来的巨大能量已经显现,甚至已经超过了技术改进产生的效益。与互联网的发明一样,大数据分析绝不仅仅是信息技术领域的革命,更是建设数据政府,引领社会变革的利器。

英国牛津大学网络学院互联网研究所教授、《大数据时代》作者迈尔·舍恩伯格:大数据时代带来更理性、更可靠的决策。20多年来,维克托一直致力于网络经济、信息与创新、信息监管、网络规范与战略管理的研究。还在“大数据”这一概念众说纷纭时,维克托就已进行了系统深入的研究,2010年他在英国《经济学人》杂志上和数据编辑肯尼思·库克耶一起,发表了长达14页的大数据专题文章。他被称为最早洞见大数据时代发展趋势的数据科学家之一。目前,维克托还是欧盟互联网官方政策背后的重要制定者与参与者,尤为重要的是,他还在新加坡商务部、文莱国防部、科威特商务部等部门任职过,特别熟悉亚洲信息产业的发展与战略布局。

迈尔·舍恩伯格指出,事实上,过去几个世纪以来,数据已经在科学家们制定决策的过程中扮演了一定的角色,而过去几十年间,这一做法又延伸到了一些公司的决策制定过程。但在大数据时代之前,数据是非常匮乏的,我们拥有的数据非常少。因此,我们的决策、我们构建的制度都是建立在这样一种数据匮乏的基础上。

迈尔·舍恩伯格强调,大数据时代将推动我们从根本上改变企业的运作方式,以及我们在社会中的生活方式。大数据可以提高人类制定决策的能力,这种提高将是大幅度的。有了大数据,我们不是简单地提高经济效率,而是将挽救人类生命,延长我们自己的寿命。我们还将改善教育,促进发展。同样的道理,我们必须要小心。大数据同样也有“阴暗面”,正如我们在书中讨论的那样。如果应用错误,大数据也可能会化为一个强有力的武器。大数据是一个强大的工具,如果我们使用了错误的方式,它就可能会加深数字鸿沟。因此,我们必须确保正确使用大数据。

大数据这一新趋势必将从理念到实践带来更多创新价值和挑战。大数据是一种资源和一种工具。推动大数据发展,关键在于政府理念的转变。联合国2012年发布了大数据政务白皮书,指出大数据对于联合国和各国政府来说是一个历史性的机遇,人们如今可以使用极为丰富的数据资源,来对社会经济进行前所未有的实时分析,帮助政府更好地响应社会和经济运行。

大数据时代数据科学家抢手

数据科学家们开始变得炙手可热,《哈佛商业评论》将数据科学家称之为21世纪最性感的工作。埃森哲、麦肯锡(二者都属于咨询公司)先后发布报告称,对于数据科学家的需求缺口愈加扩大,并将持续相当长的时间。埃森哲2013年发布的《数据分析在行动:通向高投资回报率之路的突破与壁垒》预计,到2018年,光美国和英国,需要具备高深科学、技术、工程和数学(STEM)知识的职位的增长速度将是其他职业的五倍,是金融服务等信息密集型行业职位的四倍。麦肯锡甚至在2011年就发布报告称,预计美国需要额外的150万名专业人才,可以给出准确的问题,并有效利用分析结构,而这些就是所谓的数据科学家。

具有哪些技能的人才是数据科学家?《哈佛商业评论》将这群人定义为,集“数据黑客、分析师、沟通大师和受信任的顾问”于一身。《哈佛商业评论》指出,目前没有任何一个大学有数据科学的学位,同时对于数据科学家到底是何企业中的何种职位,如何能让他们发挥最大价值,以及如何衡量其表现,都没有形成共识。

网址缩短服务商Bit。ly的首席科学家希拉里·梅森认为,一个数据科学家必须拥有三大技能,“他们能获得数据流,并用数学方式建模,同时拥有这些数学建模技能……最后他们能从这些数据中获得一些见解,并能讲出一个故事。”

大数据公司Context Relavant首席执行官兼首席技术官斯蒂芬·普普拉在接受ZDnet采访时则表示,业界对于数据科学家的定位是有形象化项目的能力,通过研究数据为公司赚钱,并将这些数据转换成统计过程,推测是否应该投资等,这些人还应该具有统计学技能、商业头脑以及高超的编程技巧,知道如何处理普通编程者无解的问题,这让这群人变得很稀少。

数据是整个社会经济活动的数字化记录,是可以无限次重复利用的特殊非物质财富,是不可或缺的管理和决策的依据。政府部门越来越注重运用技术手段对数据资源进行深度的价值挖掘,满足日益增长的精细化、科学化管理需要。与此同时,随着社会经济文化的发展和进步,公众对政府和职能部门的要求也越来越高,集中表现为要求提高行政效率和透明度、创新工作方式、提高对社会的服务能力等。开展政府大数据研究,能够推动政府信息公开、透明和社会公正,促发行政管理创新,并创造无限价值。

大数据分析技术已为世界多个国家所重视和运用,成为政府施政的主要工具。

大数据时代为政府管理带来了美好的前景,但大规模的数据增长也带来了各种各样的问题。大数据将成为全球政府管理下一个创新的前沿。数据的爆炸性增长日益挑战政府部门的存储架构、数据中心基础设施,以及数据仓库、统计分析、数据挖掘、价值应用等各个环节。如何收集、保存、维护和管理正在呈指数级增长的数据是政府部门必须面对的一个重要问题。

然而,大数据真正的挑战不是在如何存储和计算上,而是如何有效在大数据中挖掘价值。人力资源是开展大数据挖掘的战略性资源,也是有效挖掘数据价值的关键性因素,大数据时代需要拥有分析大数据所需的数学、统计学和计算机编程等知识背景的数据科学家。

对于政府部门来讲,大数据所能带来的巨大能量已经显现,甚至已经超过了技术改进产生的效益。与互联网的发明一样,大数据分析绝不仅仅是信息技术领域的革命,更是建设数据政府、引领社会变革的利器。

大数据具有激发社会变革的力量,但释放这种能量,需要严谨的数据治理、富有洞见的数据分析。在政策制定阶段,数据分析是决定政策质量高低的关键性因素。对历史数据的有效分析,吸取教训,总结经验,为新计划的制订提供宝贵的借鉴;对当前及未来影响政府活动的可能因素进行量化分析,辅之以同期其他国家(地区)同类活动的运行比较,可以为政策的制定提供更为直接、更加重要的参考。在政策实施阶段,数据分析能够有效监控政策实施情况。一方面,通过数据分析监控,可以掌握政策是否按计划实施,哪些因素会影响政策的顺利实施;另一方面,对于计划实施过程中出现的问题或失误,数据分析工作可以及时、准确地反映给决策者,提出补救或修正措施。在政策评估阶段,数据分析的作用同样不容忽视。政策的实施有没有发挥预期的作用,产生了哪些其他方面的后果……这些问题都需要通过科学的数据分析来解答,并且对未来政策的制定有着重要的借鉴意义。

大数据正在帮助提高民主政府的透明度。一个建立在“开放数据”概念上的运动已经形成,其诉求超出了目前在发达民主国家已经十分常见的信息自由法。这一运动的支持者呼吁政府把手上浩如烟海的普通数据向公众开放。

与此同时,在政府推动使用大数据的同时,它们还需要保护公众免受不正当市场垄断的侵害。管理大数据的法规甚至可能成为国家间的角斗场。出于对反托拉斯和保护隐私的关切,欧洲各国政府已经在严查谷歌公司。脸谱网可能会成为世界各地类似行动的打击目标,因为它持有太多的个人数据。

大数据作为跨越式发展主导力量已成国家竞争前沿

在当今世界发展中,大数据研究至关重要,数据管理及应用对国家治理模式、组织决策、个人生活方式都将产生深刻影响,它不仅是各国推动科技创新的主要基础,而且已成为推动人类社会跨越式发展的主导力量。大数据时代,数据的作用前所未有地凸显,成为国家竞争的前沿、企业创新的来源。

哈佛大学定量社会学研究所主任盖瑞·金以“一场革命”来形容大数据技术给学术、商业和政府管理带来的变化,认为“大数据技术将触及任何一个领域”。不仅在商业方面,大数据在社会建设方面的作为同样令人惊叹,智能电网、智慧交通、智慧医疗、智慧城市等的蓬勃兴起,都与大数据技术与应用的发展息息相关。

对大数据技术的成功运用,将改变日常生活、企业决策和国家治理的面貌,带来惊人的经济和社会效益。美国著名摄影师兼作家里克·斯莫兰便认为,大数据将成为人类的仪表盘,一个帮助人们对付贫困、犯罪和污染的智能工具。

一直处于世界经济发展及信息技术发展与应用前列的美国,视大数据为“未来的新石油”,给发展大数据赋予了非同一般的战略意义,并积极倡导和实践大数据的应用,已成为全球大数据领域的先行者。

2013年3月22日,奥巴马政府宣布投资2亿美元拉动大数据相关产业发展,将“大数据战略”上升为国家意志。奥巴马政府将数据定义为“未来的新石油”,并表示一个国家拥有数据的规模、活性及解释运用的能力将成为综合国力的重要组成部分,未来对数据的占有和控制甚至将成为陆权、海权、空权之外的另一种国家核心资产。

美国前总统克林顿开展的“信息高速公路”计划是通过高速率的通信网络搭建人们的信息交流网络,进而带动经济的快速发展,该计划促使海量数据的产生,却未能实现对数据资源进行充分利用,尤其是在大数据时代的今天,海量数据的具有巨大价值被白白浪费。

目前,美国在大数据发展与应用方面已经形成较为普遍的共识,美国政府部门、社会机构、商业企业、科研院校都在结合各自实际需求,推进大数据应用。

其一,以大数据应用支撑政务活动开展。美国积极运用大数据推动政府管理方式变革和管理能力提升,越来越多的政府部门依托数据及数据分析进行决策,将之用于公共政策、舆情监控、犯罪预测、反恐等活动。例如,作为美国警界最早的大数据预测分析试点单位,圣克鲁斯警察局通过分析城市数据源和社交网络数据,能够发现犯罪趋势和犯罪模式,对重点区域的犯罪概率等进行预测。作为大数据的强力倡导者,奥巴马及其团队创新性地将大数据应用到竞选活动中,通过对近两年搜集、存储的海量数据进行分析挖掘,寻找和锁定潜在的己方选民,运用数字化策略定位拉拢中间派选民及筹集选举资金,成为将大数据价值与魅力发挥到淋漓尽致的典型。

其二,以大数据应用增强社会服务能力。美国的微博、社交网络、搜索引擎等用户众多,积累了海量历史数据,并在不断产生新的数据。美国的人口、交通、医疗等公共事业部门通过对这些新媒体数据的挖掘,实现了对人口流动、交通拥堵、传染病蔓延等情况的实时分析。佛罗里达州迈阿密戴德县将数十种关键县政工作和迈阿密市紧密联系起来,帮助政府在制定治理水资源、减少交通拥堵和提升公共安全等方面决策时提供了更好的信息支撑。

其三,以大数据应用提高商业决策水平。美国商业企业运用大数据进行决策的案例不胜枚举。沃尔玛、可口可乐等消费企业借助数据分析掌握消费者习惯,从而制定针对性的营销策略,成为应用大数据的早期获益者。最为人乐道的案例之一就是沃尔玛通过分析挖掘销售数据,发现并实施了“啤酒+尿布”的营销策略。除上述行业外,医疗卫生、交通物流、金融等领域的机构和企业,都在逐步发现大数据的价值,加入应用大数据的行列。例如,西雅图儿童医院通过应用可视化数据分析技术,有效减少了医疗事故,帮助医院节省了300万美元的供应链成本。华尔街“德温特资本市场”公司通过分析3.4亿微博账户的留言,判断民众情绪,并依据人们高兴时买股票、焦虑时抛售股票的规律,决定公司买卖股票的时机,从而获取盈利。

大数据在美国之所以能被迅速、广泛应用,与美国高度重视大数据价值、积极推动数据开放和拥有一批掌握核心技术的信息技术企业分不开。

首先,美国政府将大数据发展提升到国家战略层面。2011年,美国总统科技顾问委员会提出的一份建议显示,大数据相关技术具有重要战略价值,但美国联邦政府对其研发投资却明显不足。而通过“大数据研究和发展”计划可以深度挖掘大数据的潜在巨大价值,带动产业的升级换代。联邦政府应当加大投资研发力度。作为对这一建议的回应,2012年3月29日,奥巴马政府宣布启动《大数据研究和发展计划》。此举标志着,美国把应对大数据技术革命带来的机遇和挑战提高到国家战略层面,形成了全体动员格局。《大数据研究和发展计划》提出,应当通过对海量和复杂的数字资料进行收集、整理,从中获得真知灼见,以提升对社会经济发展的预测能力。根据这一计划,美国希望利用大数据技术在多个领域实现突破,包括科研教学、环境保护、工程技术、国土安全、生物医药等。同时组建“大数据高级指导小组”,涉及美国国家科学基金、国家卫生研究院、能源部、国防部等6个联邦政府部门,宣布将启动2亿美元的投资计划,提高从大量数据中访问、组织、收集发现信息的工具和技术水平。这使得美国成为全球首个将大数据从商业行为上升到国家意志和国家战略的国家。《大数据时代的历史机遇》一书称,美国将“大数据”上升至国家意志,将大数据发展战略从商业行为上升到国家意志的层面,这将对未来十年科技与经济的发展带来深远的影响。

在美国政府的实际运作中,大数据技术已经进入了应用阶段。不久前,美国中央情报局的首席技术官格斯·汉特便在旧金山举行的一次讨论会上透露了大数据技术对追踪恐怖分子和监控社会情绪的作用。他以“阿拉伯之春”举例说,大数据分析可以了解多少人和哪些人正在从温和立场变得更为激进,并“算出”谁可能会采取对某些人有害的行动。不仅如此,美国政府还倡议企业、科研院校和非营利机构一起集中资源,共同促进大数据发展。例如,伯克利加州大学、迪肯大学等专门开设了研究大数据的相关课程,培养下一代的“数据科学家”。麦肯锡全球研究所的一份报告说,美国需要150万精通数据的经理人员以及14万至19万深度数据分析方面的专家。目前,已有美国大学专门开设了研究大数据技术的课程,培养下一代的“数据科学家”,一些美国公司也在向大学提供研究资助,并赞助与大数据有关的比赛。目前美国正在握紧大数据这个人类科技领域的最新仪表盘,以求继续保持科技领先地位。

其次,数据开放为大数据应用提供创新“源头”。大量数据的可获得是大数据价值实现和最大化的前提。自20世纪以来,美国国会、政府先后出台一系列法规,对数据的收集、发布、使用和管理等环节出了具体的规定。经过几十年的修改完善,现已形成较为成熟的框架和体系。2009年1月,奥巴马入主白宫后,做的第一件事就是要求联邦政府各部门通过“一站式”政府数据下载网站(www。data。gov)向社会公开各类非保密的数据库。2010年,美国国会通过更新法案,进一步提高了数据采集精度和上报频度。截至目前,data。gov上有超过40万种各类原始数据文件,涵盖了农业、气象、金融、就业、人口等近五十个门类,汇集了数千个应用程序和软件工具。数据的集中、开放、共享及对数据的应用支持,极大地方便了美国各界对大数据的利用。

再者,信息技术巨头为大数据应用落地提供技术支撑。拥有一批掌握大数据核心技术的信息技术龙头企业,是美国大数据应用快速落地的关键原因之一。谷歌、EMC、惠普、IBM、微软、甲骨文、亚马逊、脸谱等企业很早就通过收购或自主研发等方式布局大数据发展,成为大数据技术的主要推动者,并快速推出大数据相关的产品和服务,为各领域、各行业应用大数据提供工具和解决方案。IBM利用大数据技术,通过整合、分析波士顿现有交通数据以及来自社交媒体的新数据源,帮助波士顿政府解决长期困扰城市的交通拥堵问题。谷歌公司利用海量搜索数据,成功预测2013年美国流感爆发。除了传统的信息技术企业,在大数据分析、应用及安全等领域还涌现出一批像Splunk、Teradata等创新性较强的创业公司,这些公司在风投资本市场的支持下,快速成长并引导新的市场趋势,为各界应用大数据提供了丰富的创新工具。

大数据是英国政府舍得为之一掷千金的“宠儿”,将注资6亿英镑发展八类高新技术,在计算基础设施方面投入巨资,加强数据采集和分析,在数据革命中占得先机。

大数据技术创造价值的能力已经在英国崭露头角。一份行业报告显示,英国政府通过高效使用公共大数据技术每年可节省约330亿英镑,相当于英国每人每年节省约500英镑。以连锁零售业为例,英国最大的连锁超市特易购已经开始运用大数据技术采集并分析其客户行为信息数据集。特易购首先在大数据系统内给每个顾客确定一个编号,然后通过顾客的刷卡消费、填写调查问卷、打客服电话等行为采集他们的相关数据,再用计算机系统建立特定模型,对每个顾客的海量数据进行分析,得出特定顾客的消费习惯、近期可能的消费需求等结论,以此来制订有针对性的促销计划并调整商品价格。这种有的放矢的营销和定价模式为特易购提供了更加高效的盈利方法。

中国政府将数据分析作为核心竞争力的只占5.6%

根据BNET商学院对中国政府部门的调查分析显示,政府部门以数据分析作为决策支撑并没有形成气候,将数据分析作为核心竞争力的只占5.6%,比起美国和英国等政府开源力度差距巨大。

历次产业技术革命,中国似乎都是学习者和模仿者;和上几轮产业技术革命不同的是,大数据时代,中国几乎和欧美发达国家同时开始技术研发,中国人口又居世界首位,将会成为产生数据量最多的国家。

迈尔·舍恩伯格认为,中国很可能成为大数据这一领域的先驱。在大数据时代,中国有很多优势:中国人都受过良好的教育,特别是在数学和统计方面(这是非常重要的)。中国是一个巨大的多元化社会,这会创造大量机会来创造大数据这一资源,并建立大数据应用。

从国家层面上说,中国对大数据的关注基本上与美国是同步的。中国的863计划已发布了与大数据相关的计划。中国科技部发布的“‘十二五’国家科技计划信息技术领域2013年度备选项目征集指南”也把大数据研究列在首位。有中国专家称,2013年将是中国大数据元年。尽管如此,中国对大数据的重视程度尚不及美英等国。

资料显示,2011年,麦肯锡公司以2010年度各国新增的存储器为基准,对全世界大数据分布做了一个统计,中国2010年新增数据量约为250拍(一拍是2的50次方),不及日本的400拍,欧洲的2000拍,和美国的3500拍相比,更是连1/10都不到。

中国传媒大学教授沈浩认为,现在的政府网站许多都是空架子,甚至大部分网站都很少更新,内容上也只是一些公告,而之前的决策过程并没有反映出来;与此同时,由于中国政府缺少推动力,尚无法建立像data。gov的数据平台。沈浩认为,虽然中国政府在2007年就发布了《政府信息公开条例》,但目前政府公布的数据大部分还是报告和报表,没有标准的格式,不能以数据的形式查到,因此也无法进行深入的分析、加工和挖掘。

根据BNET商学院对中国政府部门的调查分析显示,政府部门以数据分析作为决策支撑并没有形成气候,将数据分析作为核心竞争力的只占5.6%,比起美国和英国等政府开源力度差距巨大。此项调查的负责人,BNET商业英才网副总编周安利认为:政府部门依然缺乏对大数据的真正、全面的认识。在挖掘信息系统价值方面,数据分析也受制于管理体制和职能制约及长期传统管理积累的习惯,业务驱动力不足,绩效考核不配套。所以中国政府部门对大数据可能产生的价值,以及如何利用数据分析实现政府的科学决策依然有相当长的距离要走。

目前全世界都缺乏大数据领域的技术人才和商业人才,而中国在大数据开发和应用方面的广阔平台有利于迅速培养这一领域的领军人物,同时推动产生一批围绕大数据形成的创业型企业,通过企业、科研院所和高等学校之间的合作,中国有望站在大数据领域的技术最前沿。

中国政府如何应对大数据时代的挑战?工业和信息化部赛迪智库软件与信息服务业研究所研究员刘琼认为,中国可从三个方面借鉴美国发展大数据的经验:

第一,确立大数据的战略地位。大数据领域的竞争将关系到国家的安全和未来,国家竞争力也将越发体现为一国拥有数据的规模、活性以及解释、运用的能力。我国要发展好、应用好大数据,应把大数据产业上升到战略高度,强化全民数据意识,树立以数据提高效率、提升精细化和智能化水平的意识,从国家层面推动大数据的收集、分析和应用。

第二,推动大数据的创新应用。政府部门应基于自身和社会服务机构掌握的丰富数据,在医疗健康、食品卫生、道路交通、地质灾害、社会舆情、国防安全等领域先行开展应用示范,继而不断拓展在各部门、各行业的应用范围。在此基础上,要特别注重加强对微博、微信、社交网络等新媒体数据的应用。

第三,夯实大数据发展基础。发展大数据是一项系统工程,需要在加强数据立法、推动数据开放、支持技术创新等方面同步开展工作,从而为中国发展大数据、应用大数据营造更加良好的环境。

国家信息中心网络政府研究中心副主任于施洋在2013年1月国双数据中心启动仪式中表示:“推动政府领域的大数据相关的工作有三个关键词:第一,透明的政府。奥巴马提出大数据,最核心的理念就是要提出要建设开放的政府,这是大数据对于政府最核心的价值。第二,智慧的政府。政府可以变得更加智慧,只有变得更加智慧了,才可以创造对公众的价值。第三,责任的政府。为社会公众提供更好的服务,树立更好的政府形象,引导社会的舆论,都需要在大数据领域做出很多的努力。”在信息化领域,在大数据的时代下,政府应该转变工作的观念,坚持改革开放,不能搞封闭,而应当更好地发挥引导的作用。美国的大量案例证明,政府在大数据中会带动整个大数据产业飞速的发展,这已经是一个事实。这既是挑战,更是机遇。十八大之后,政府改革进入了新的攻坚阶段,政府用信息化提升创新的能力是大势所趋。

IBM中国研究院院长沈晓卫2013年4月在美国宾夕法尼亚州匹兹堡参加第二届卡内基-梅隆大学中美创新创业峰会期间接受专访时认为,中国面临前所未有的机遇,有望在这一领域引领全球技术发展趋势,其原因有三:

第一,中国经济发展面临的许多问题,包括基础设施建设、环境保护、食品安全等方面的挑战,都需要大数据这种创新方式提供更好的解决方案。巨大的需求客观上为中国大数据的研究提供了许多实践机会。

第二,中国的人口和经济规模决定了中国大数据的规模为全球最大,可为大数据研究提供许多创新角度,同时也意味着中国大数据分析的解决方案将同样适用于其他国家,这将为从“中国制造”向“中国创造”转变提供难得的机遇。

第三,目前全世界都缺乏大数据领域的技术人才和商业人才,而中国在大数据开发和应用方面的广阔平台有利于迅速培养这一领域的领军人物,同时推动产生一批围绕大数据形成的创业型企业,通过企业、科研院所和高等学校之间的合作,中国有望站在大数据领域的技术最前沿。

沈晓卫认为,大数据在推动中国经济转型方面也将发挥重要作用。其一,通过大数据的分析可以帮助解决中国城镇化发展中面临的住房、教育、交通等难题。例如,通过对交通流量数据的实时采集和分析,可以指导驾驶者选择最佳路线,改善城市交通状况。其二,通过大数据的研究有助于推动钢铁、零售等传统产业升级,向高端价值链发展。其三,大数据的应用可以帮助中国在发展战略性新兴产业方面迅速站稳脚跟,巩固并提升竞争优势。