1.大数据是怎么回事
用大数据读懂一座城市
大数据(Big Data)的概念既容易让人望文生义,也容易让领域外的非专业人士望而生畏。最理想的讲述方式是在把专业领域外的读者吓跑之前,不要急于展开专业性过强的讨论。那最好的方式,就是以具体的例子来开头。
目前,中国有一半以上的人口生活在大大小小的城市中。城市不仅为人们提供工作机会,也满足着休闲、娱乐、教育等多方面的需求。在传统时代,我们通常只从平面地图和县志、年鉴统计中来理解一个城市。例如一般只能通过宏观统计数字来把握一个城市的人口密度和一个地区的经济圈结构等整体状况。
如果更进一步,我们把尺度变得更小一些,我们可以用城市街道立体图这种手段来观察和研究一个城市,比如了解各个城市乡镇街道的人口总量和人口密度分布。
虽然这些图像比较直观,但是有一个最大的问题,它是静态的、平面的和粗放的。传统的统计数据可以让我们了解城市的脉络。但人是流动的,整个城市也是流动的。我们无法从中看到时间如何在城市中流逝、人们在城市中如何运动。可以说,当具体到某一个城市的时候,在这个复杂、动态的系统之中,每个人只能看到自己周围的生活,而几乎无法了解整个城市的场景。例如,在常住人口超过2300万的北京,一个个体可能穷尽一生都无法彻底读懂这座城市。
有了“大数据”这一信息时代的新技术利器,情况就大不一样了。像使用卫星地图监控城市和农村的土地开发、使用状况一样,现在利用大数据,在不同层次监测人口聚集,就能更好地回答“人在哪儿”的基本问题。大数据可以实时、立体、动态和精确地反映出城市中的人“在哪儿”,把时间维度放进城市空间分析,重新理解城市中人的活动,从而为城市管理提供更有效的信息。
例如,百度曾经推出的百度热力图业务中,就显示了实时的网格人口数据,选择工作日上午10点和夜间23点,分别代表上班工作和下班居家的活动状态,由此得出城市的职住中心。然后,通过对北京市某一天两个时段的人口集聚区及稀疏区的大数据分析对比,我们可以发现城市白天和黑夜的不同形态。第一种空间,白天熙熙攘攘的金融街、国贸、西单、王府井等商业就业中心,到了晚上一片寂静;第二种空间,集商业、就业、居住于一体的中关村、五道口、六道口、知春路等地,无论白天黑夜均集聚大量人气;第三种空间,回龙观、天通苑、北苑、宋家庄等主要以居住为主的地区,体现了睡城的基本特征。由此,大数据可以帮助我们了解城市居民如何使用城市空间,进行实时动态监测。
在以往的“小数据”时代,人们往往只能根据直观的经验来判断城市的人口迁移状态,这种基于经验的判断不但不准确,也无法把握城市的全貌。而像上面这样一目了然的分析结果,无论是对于普通市民,还是对于城市的管理者,无疑是极具意义的。
热力图使原来似乎静止的、冷冰冰的数据一下子有了生命力。热力图的数据来源,主要是靠智能手机应用APP和网络授权手机定位以及通话记录来的。类似百度热力图这样地图的出现,显示出大数据时代越来越深入地影响着人们的生活。
大数据总体上是指大小和信息量超过传统规模的海量数据资料。Web、移动设备和其他技术的出现导致数据性质的基本性变化。大数据具有奇特的特性,这种特性使得它与“传统”企业数据区别开来。与以往任何时间相比,现在的数据不再集中化、高度结构化而且易于治理,而是高度疏散的、结构松散(如若存在结构的话)而且体积越来越大。
源自城市的丰富数据可以让我们了解人们怎样组织起来,无论组织的规模有多大。可视化城市话语提供了种种方法,有抽象的,也有直观的、形象的。信息可视化是一个跨学科的领域,涉及平面设计、人机交互、计算机图像学以及数据挖掘。这个学科的目的是为广大受众综合大量的数据,从数据中提炼并澄清信息。这里所说的具体方法,分为相片、图像、漫画以及扭曲等方法,从而得以描述可视化的不同方式。通过这种形象的方法,我们把图像与漫画引入到了数据的国度,使用可视化的隐喻,引入变形的视觉效果,来强调数据的某些特定方面。这使得我们能够使用有趣的类比,构建视觉效果,来向学术圈外的一般大众传达城市的本质特征。
比如,通过新闻大数据对用户数据进行可视化解读,可以从城市、时代、商业、文化和生活等数据维度提炼出一个城市特有的态度标签。依靠数据提升精细化的规划和管理水平后,我们的城市就可以更好地满足不同人群的基础设施和公共服务需求,最大化发挥有限设施的服务水平,提高其使用效率。可以说,大数据让城市和生活更加融合,让空间和市民更加贴近,最终能让我们的城市生活更加美好。
大数据有多“大”?
在1分钟之内,“新浪微博”就发送了数万条微博,苹果应用商店下载次数以万计,淘宝卖出了几万件商品,百度产生了百万次搜索查询……所有这些事件,以及事件背后的人的行为都可以由海量的数据来勾画和呈现出来。互联网搜索引擎是大数据最为典型的应用之一。2013年时,百度技术委员会理事长陈尚义曾透露:“百度每天处理的数据量将近100个PB,1PB就等于100万个G,相当于5000个国家图书馆的信息量的总和。”到2015年,百度每天处理的搜索请求超过60亿次。
随着信息技术特别是信息通讯技术的发展,互联网、Web 2.0、社交网络、物联网、移动互联网、云计算等相继进入人们的日常工作和生活中,全球数据信息量呈指数式爆炸增长之势。继云计算后,大数据成为信息技术领域最为热门的概念之一。移动互联时代,数以百亿计的机器设备、企业和个人在随时随地产生并获取新的数据。即便是在“摩尔定律”——每18个月芯片性能将提高1倍——的支撑下,硬件性能进化的速度也早已赶不上数据增长的速度,并且差距越来越巨大。
一组名为“互联网上一天”的数据告诉我们,一天之中,互联网产生的全部内容可以刻满1.68亿张DVD;发出的邮件有2940亿封之多(相当于美国两年的纸质信件数量);发出的社区帖子达200万个(相当于《时代》杂志770年的文字量);卖出的手机为37.8万台,高于全球每天出生的婴儿数量37.1万……再比如说医疗,现在到医院看病都要做CT,清晰度很高达300多兆,一个病人CT影像往往多达两千幅,数据量已经到了几十个GB,今天中国大城市的医院每天门诊上千人,全国每年住院已经达到了两亿人次,按照医疗行业的相关规定,一个患者的数据通常需要保留50年以上,累积了一个庞大的数据量。
截止到2012年,人类社会所产生的数据量已经从TB(1024GB=1TB)级别跃升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024EB=1ZB)级别。国际数据公司(IDC)的研究结果表明,2008年全球产生的数据量为0.49ZB,2009年的数据量为0.8ZB,2010年增长为1.2ZB,2011年的数量更是高达1.82ZB,相当于全球每人产生200GB以上的数据。截止到2012年,人类生产的所有印刷材料的数据量是200PB,全人类历史上说过的所有话的数据量大约是5EB。IBM的研究称,整个人类文明所获得的全部数据中,有90%是过去两年内产生的。而到了2020年,全世界所产生的数据规模将达到今天的44倍。
每一天,全世界会上传超过5亿张图片,每分钟就有20小时时长的视频被分享。然而,即使是人们每天创造的全部信息——包括语音通话、电子邮件和信息在内的各种通信,以及上传的全部图片、视频与音乐,其信息量也无法匹及每一天所创造出的关于人们自身的数字信息量。这样的趋势会持续下去。
数字化时代,每个人每分每秒都在创造数据,在浏览的网站上、在使用的设备中、在各种通信服务系统里,数据都以指数级的速度在数量和类型上快速增长。除了个人而外,还有企事业组织,政治、经济各部门也在产生数据。更何况在物联网中,各种设备也在不断产生各种各样的数据。
为什么会出现这么大的数据量?因为随着电子化的普遍出现,企业已经积累了大量的电子数据,企业将这大量的电子数据再利用、再挖掘,应用在社会上,便出现了大数据量。平时生活中的大数据自古以来就存在,只是原来没有被电子化、信息化、结构化,所以大家对它茫然不知。现在随着技术发展,这些数据越来越多地涌现出来。
目前社会上数据量每天都在以几何数爆发。如何处理这些数据呢?以前都是把数据存到硬盘上、存到磁盘上做,需要传统的技术。现在更新的技术是所谓的实时把数据放在内存当中去处理。以前内存主要用于数学运算,现随着硬件系统成本的下降,以及一些架构技术上的突破,可以把数据放在内存当中查询和处理,和下面的磁盘几乎不发生关系。于是这种快速的查询方法给大数据的处理带来了技术上的可能。这是大数据的处理技术,这个技术可以帮助各行各业进行大规模的、有目的、有秩序的数据处理。
数据采集得越多,变量越多,由此带来的数据“噪音”也越多。在大数据的海洋中,有相当一部分是无用的数据。有些数据对企业暂时没有用,有些则永远没用。大数据本身良莠不齐,如何才能更好地判别数据价值?有的业内专家认为,那些现在看起来无效的数据,几年后也可能就会随着科技进步被消化,目前只能先把这些数据储存起来。
大数据厂商Teradata天睿公司CTO宝立明表示,不能一味否定看似无用的数据,它们同样蕴含着价值,它们确切的说法应该是低价值密度数据;企业只是尚未找到其价值体现手段,因此可以用低成本的存储服务器加以保留。例如,当人们通过搜索引擎检索时,会出现一些习惯性的拼写错误。这些错误数据虽然表面上没有意义,但通过收集这些数据却可以发现大量的用户习惯和规律。
目前的情况是,学术界和企业界并没有形成一个通用的大数据法则,每个企业都需要根据自身情况去制定自己的标准,从而帮助自己更好地消化这些数据。如车企需要的数据体量比较小,但单个数据的价值很高,并且这些数据在一段时间内还会进一步发挥价值。相比之下,快销品的用户倾向于持续购买,因此快销行业的大数据系统都在百万千万级别。所以,行业不同,对数据挖掘的周期、维度也不同。也有专家指出,虽然数据是真实的,但是它会有偏向性,不同的分析方式,会有不同的解读,所以它可能并不完全客观。要审慎地用正确的方法处理数据,才能获得正确的信息。
大数据的概念
虽然名为大数据,但又绝不能简单等同于“大”的数据,换言之,并非体量大的数据就有价值。“在地球任意地方捡起一块石头,都可以验出铁元素。但是,说世界遍地都是铁矿一定是不对的。只有石头中铁含量超过一定比例,而石头数量又达到相当规模,这堆石头才能称为铁矿,人们才会对它产生投资开采的兴趣。”曾任雅虎中国总经理的谢文如此深刻点评“数据大”与“大数据”的区别和价值。
大数据这一概念最初来源于IT界,将大数据的特征归纳为4个“V”(数量Volume,多样Variety,价值Value,速度Velocity),或者说能成为大数据的数据必然具备四个层面的特点:
第一,数据体量巨大。大数据的起始计量单位往往至少是P(1024个T)、E(100万个T)或Z(10亿个T)。
第二,数据类型繁多。比如,不仅仅包括数据、报表,还包括视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。
第三,价值密度相对较低。如随着物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何通过强大的机器算法更迅速地完成数据的价值“提纯”,是大数据时代亟待解决的难题。
第四,计算设备可以在极短时间内对其进行分析、处理。
大数据从狭义上讲,是指“无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合”;从广义上讲,是从各种类型的海量信息中快速获得有价值信息的能力,它意味着人类思维和决策的方式及方法将进入更高层次。有了大数据的这种能力,人类才能真正从“智能”走向“智慧”。
能构成大数据的数据还应该具备一些特征,例如其来源往往是来自机器设备的数据,而不是人工数据。举个例子,温度计量出来的数据,它是不以人的主观意志为转移的,这样的数据就可以构成大数据。再例如数据可被计算设备加工处理。不能被计算设备记录、存贮、网络传送、加工处理的数据不能构成大数据。例如,填写在纸上的数据表格,如果不输入计算机,就没法构成大数据;而上面提到的温度计,如果被设计成感应式终端,置于物联网中,它的一端与人体相连,另一端通过无线网络与计算机联结,把体温数据传送到医生那里,就能构成有意义的大数据。应该说,数据自古有之,而现在所谓的大数据和以往不一样的关键点在于有了统一融合的网络平台。换句话说,数据不但有大小之分,还因为网络而有了生命。因为有了网络,个体的数据可以变成整体的数据,破碎的数据可以变成互联的数据,衰老的数据可以变成鲜活的数据。数据是有它的生命周期的,这个基本原因是数据生活在网络平台上,网络是大数据应用的血液和神经。
如果同事递给我一张工资表、营收增长表,上面的数据一看之下,可能让我一目了然。但是正如上面提到的,大数据中,占更大比重的是“非结构性的数据”,例如图文、音视频等,这就很难用传统的数理统计方法来判别、分析,但大数据的理念,让这些非结构性的数据同样有了其数据价值。
大数据时代,数据衡量度向纵深定义,我们有了TB(1TB=1024 GB)、PB(1PB=1024 TB)、EB(1EB=1024 PB)、ZB(1ZB=1024 EB)、YB(1YB=1024 ZB)、BB(1BB=1024 YB),数据规模蓬勃发展。同时,需要分析处理的数据类型也正在不断扩展,我们从传统的结构化数据(二维表数据)向越来越多原先无法用常规软件深化分析的非结构化数据扩展,如文本、图形、语音、视频等。随着互联网上各种应用不断涌现,诸如社交网络、电子商务、众包平台、位置服务等,非结构化信息的增长远快于结构化数据的增长。不断发展的信息技术和方法,使我们的视野、我们的能力进入更广更深的领域,就像人类有了天文望远镜我们能探知浩瀚的宇宙一样,如今我们已经进入能够探索和应用规模形态超常的“大数据原矿”的时代。
显而易见的是,大数据时代的到来,是以信息时代、互联时代的到来为技术背景和时代背景的。没有IT技术的发展,没有计算机和互联网的普及应用,就谈不上大数据时代。在各种光纤网络中飞速流淌的数据流,才可以称为大数据。一台断网的、信息孤岛上的电脑上所存贮的内容,即使再重要、再有价值,也无法构成大数据的一分子。是那些可流动、或者说可传送的数据构成了大数据。
以往人们并不是不掌握数据,只是没有有效的技术条件去充分挖掘它们。换句话说,以往人们不认为是有价值的数据,现在成了数据。例如网站,以往“流量为王”的时代,它可能会很关注有多少注册用户;一篇文章、页面的点击率,但这只是小数据。大数据统计的是,诸如:该网页的点击时段分布、IP分布,乃至于点这个网页的用户还点击浏览了哪些网页。渐渐的,一个个特征鲜明的正在上网的人的形象被大数据刻画出来了。数据变得不再平面,不再是冷冰冰的,而是开始活灵活现了。
在信息技术领域,原先已经有“海量数据”“大规模数据”等概念,但这些概念只着眼于数据规模本身,未能充分反映数据爆发背景下的数据处理与应用需求,而“大数据”这一新概念不仅指规模庞大的数据对象,也包含对这些数据对象的处理和应用活动,是数据对象、技术与应用三者的统一。
大数据对象既可能是实际的、有限的数据集合,如某个政府部门或企业掌握的数据库,也可能是虚拟的、无限的数据集合,如微博、微信、社交网络上的全部信息。
大数据应用是对特定的大数据集合,集成应用大数据技术,获得有价值信息的行为。对于不同领域、不同企业的不同业务,甚至同一领域不同企业的相同业务来说,由于其业务需求、数据集合和分析挖掘目标存在差异,所运用的大数据技术和大数据信息系统也可能有着相当大的不同。惟有坚持“对象、技术、应用”三位一体同步发展,才能充分实现大数据的价值。
大数据是信息技术与专业技术、信息技术产业与各行业领域紧密融合的典型领域,有着旺盛的应用需求、广阔的应用前景。为把握这一新兴领域带来的新机遇,需要不断跟踪研究大数据,不断提升对大数据的认知和理解,坚持技术创新与应用创新的协同共进,加快经济社会各领域的大数据开发与利用,推动国家、行业、企业对于数据的应用需求和应用水平进入新的阶段。
就像电力技术的应用不仅仅是发电、输电那么简单,而是引发了整个生产模式的变革一样,基于互联网技术而发展起来的“大数据”应用,将会对人们的生产、生活产生颠覆性影响。数据的挖掘和分析只是整个变革过程中的一个技术手段,而远非变革的全部。
对于工业生产来说,“大数据”的本质是基于互联网基础上的信息化应用,其真正的“魔力”在于信息化与工业化的融合,使工业制造的生产效率得到大规模提升。
简而言之,“大数据”并不能生产出新的物质产品,也不能创造出新的市场需求,但能够让生产力大幅提升。正如《大数据时代:生活、工作与思维的大变革》的作者维克托·迈尔·舍恩伯格指出:数据的方式出现了三个变化:第一,人们处理的数据从样本数据变成全部数据;第二,由于是全样本数据,人们不得不接受数据的混杂性,而放弃对精确性的追求;第三,人类通过对大数据的处理,放弃对因果关系的渴求,转而关注相互联系。这一切代表着人类告别总是试图了解世界运转方式背后深层原因的态度,而走向仅仅需要弄清现象之间的联系以及利用这些信息来解决问题。
当然,大数据技术的战略意义绝不是仅仅在于谁手里“掌握”了庞大的数据信息,原始数据只具有原材料的意义。更重要的在于对这些含有丰富意义的数据,也就是原材料,进行专业分析处理。如果把大数据看成一种产业,那么这种产业实现盈利的关键就在于提高对数据的“加工能力”,通过“加工”来发现和挖掘数据的价值,真正体现出大数据的价值,并实现大数据的“增值”。
大数据时代的基础设施:云、端、网
云计算、物联网、互联网可简称为云、端、网,它们是与大数据关系最为密切的三个事物。物联网对应了互联网的感觉和运动神经系统。云计算是互联网的核心硬件层和核心软件层的集合,也是互联网中枢神经系统的萌芽。大数据代表了互联网的信息层(数据海洋),是互联网智慧和意识产生的基础。物联网、传统互联网、移动互联网在源源不断地向互联网大数据层汇聚数据和接受数据。
云计算是怎么回事呢?面对互联时代的海量数据,传统的数据处理方式已经不能适应大数据的收集、整理、储存、检索、共享、分析等多重功能。倘若不对这些海量的数据进行“加工处理”,则存储和输送大数据的网络空间就会成为“塞满垃圾信息的旷野”。显然,“大数据”的存在依据是技术信息的飞速膨胀。从经济到文化、从意识形态到社会治理、从政治到国际关系,“大数据”之所以能够在其中发挥着越来越重要的作用,关键就在于大数据背后所隐含的“云计算”(Cloud Computing),它使得大数据被存储、分析、运算在技术上成为可能。
如果单就“大数据”本身而言,它仅仅是对社会事物的“数据化”描述而已,本身谈不上什么更深刻的含义和价值,它更像是一堆原始的素材。要使“大数据”真正发挥作用,必须与“云计算”等相联系起来。
云计算的基本原理是通过使计算分布在大量的分布式计算机上,而非本地计算机或远程服务器中。企业数据中心的运行将更与互联网相似。这使得企业能够将资源切换到需要的应用上,根据需求访问计算机和存储系统。
对云计算的理解,有人打了个比方:这就好比是从古老的单台发电机模式转向了电厂集中供电的模式。那么,现在把电力替换成运算能力,把发电站替换成计算机互联网,这就意味着计算能力也可以像煤气、水电一样通过网络进行流通、互联共享、取用方便、费用低廉,而且可以付费购买更强大的计算能力。再进一步解释,私人发电厂不能实现远距离传输,服务器内的信息也只能在局域网传播;私人电厂只供企业和个人使用,数据中心的信息也只供企业内部使用。与这种只能供个人、单个企业使用的运算能力不同,以2005年2月Google公司在美国俄勒冈州北部买下三十亩地开始建立一个庞大的服务器技术中心为标志,信息计算的“公用电网”出现了,这就是“云计算”。在这里,包含着数万、甚至数十万廉价CPU和硬盘组成的服务器,这就是信息时代的“中央电厂”,它把原来企业内部的服务器(私人电厂)整合为一台机器集中处理。自此,企业再不用采购昂贵的设备,不必再培养一支庞大的技术队伍,只要手里有一台连接网络的计算机就能通过云计算完成以往需要大量计算设备、技术人员操作完成的天量运算内容,同时,不必考虑数据存储在什么地方。在数字时代,云计算将会成为人类新的“大脑”。
再来看一看物联网。物联网被称作是“物物相联的网络”,在国际上又称为“传感网”,有“全球神经系统”之称。是继计算机、互联网与移动通信网之后的又一次信息产业浪潮。举几个例子来说,在未来的物联网时代,当你从北京开车到天津,上车后只要设置好目的地便可随意睡觉、看电影,车载系统会通过路面接收到的信号智能行驶;不住在医院,只要通过一个小小的仪器,医生就能24小时监控病人的体温、血压、脉搏;下班了,只要用手机发出一个指令,家里的电饭煲就会自动加热做饭,空调开始降温……世界上的万事万物,小到手表、钥匙,大到汽车、楼房,只要嵌入一个微型感应芯片,把它变得智能化,这个物体就可以“自动开口说话”。再借助无线网络技术,人们就可以和物体“对话”,物体和物体之间也能“交流”,这就是物联网。
如果物联网再搭上互联网这个桥梁,在世界任何一个地方我们都可以即时获取万事万物的信息。可以说,物联网加上互联网等于智慧地球。物联网用途广泛,可运用于城市公共安全、工业安全生产、环境监控、智能交通、智能家居、公共卫生、健康监测等多个领域,让人们享受到更加安全轻松的生活。如果把物联网用人体做一个简单比喻,那么传感器相当于人的眼睛、鼻子、皮肤等感官,“接收”各种信息;互联网络相当于神经系统,用来传递信息;云计算则相当于人的大脑,在接收到信息后要进行分类处理。
物联网所产生的大数据与一般的大数据有不同的特点。物联网的数据是异构的、多样性的、非结构和有噪声的,更大的不同是它的高增长率。物联网的数据有明显的颗粒性,其数据通常带有时间、位置、环境和行为等信息。物联网数据可以说也是社交数据,但不是人与人的交往信息,而是物与物、物与人的社会合作信息。
据美国研究机构Forrester预测,物联网所带来的产业价值要比互联网大30倍,将会形成下一个万亿元级别的通信业务。由于物联网在全球尚处于起步阶段,各国基本处在同一起跑线上。因此,抓住难得的战略机遇,加快推进物联网发展,是增强我国国际竞争力的必然选择。国家发改委、科技部、工信部等相关部门分别支持了一批RFID(电子标签)、传感器网络和智能传感器项目,金卡工程还启动了一批RFID行业(地方)应用试点工程。在国家的“十二五”中,物联网十大应用的重点领域分别是智能电网、智能交通、智能物流、智能家居、环境与安全检测、工业与自动化控制、医疗健康、精细农牧业、金融与服务业、国防军事。业内专家认为,到2020年,中国物联网产业将经历应用创新、技术创新、服务创新三个关键的发展阶段,成长为一个超过5万亿规模的巨大产业。最新制定的“十三五”发展规划又提出:实施“互联网+”行动计划,发展物联网技术和应用,发展分享经济,促进互联网和经济社会融合发展。
互联网作为人类文明史上最伟大、最重要的科技发明之一,发展到今天,用翻天覆地来形容也毫不过分。在“互联网+”时代里,互联网对于人类的意义,是其成为了像电网、铁路一样的基础设施,人们的生产、生活一刻也离不开它。而在这个电网上输送的不是电力,而是信息、数据。
就在互联网在人类社会普及之际,移动互联网的出现又把人们引入了一个新的时代。作为传统互联网的延伸和演进方向,移动互联网在近几年得到了迅猛的发展。越来越多的用户得以通过高速的移动网络和强大的智能终端接入互联网,享受丰富的数据业务和互联网服务内容。移动互联网已成为全世界人们接入互联网的主要方式之一。人们曾经热议一时的互联网思维,很快就需要升级为2.0版,变为移动互联网思维。
移动互联网,人们对它最直观的理解来自于智能手机,简单说,就是将移动通信技术和互联网二者结合起来成为一体,可以让人们随时随地与世界相联。截至2015年6月,中国网民规模达6.68亿,互联网普及率为48.8%。其中,中国手机网民规模达5.94亿,占总网民数的88.9%。从世界上来看,中国的手机保持着第一大上网终端地位,中国的移动互联网发展进入全民时代。随着手机终端的大屏化和手机应用体验的不断提升,手机作为网民主要上网终端的趋势仍将进一步提升。
随着大数据技术的应用发展,在一些重大活动和人流量较大的公共场合,中国移动的大数据分析平台通过对手机用户通信行为的分析,可以及时发布监控区域人员流量数据分析结果,同时,通过中国移动的4G视频监控,可以利用前端无线视频采集设备现场采集实时图像,通过高性能的4G网络,将前方全高清的音视频信息实时回传至系统平台,实时获取现场监控音视频信息,为各级政府部门提供丰富的信息数据服务、应急指挥辅助决策信息,为政府规划、社会治理、应急处置提供有力的数据支撑。通过无所不在的4G网络服务,可以提升政府移动执法、应急指挥、治安管理等应急处理能力。未来,随着4G技术的进一步完善,移动互联网将为“互联网+政务”领域的信息化发展贡献更大的力量。
大数据时代的数据安全问题
当人们用手机扫描二维码,并将其用微博转发的时候,他的消费习惯、偏好,甚至社交圈的信息就已经被商家、企业的大数据分析工具捕获。随后企业要做的,就是利用大数据对用户的习惯和需要进行精准的分析、挖掘、展现和预测,并向用户提供进一步的信息和服务。
大数据时代,每个人都是数据的贡献者。预计到2020年,一个中国普通家庭一年产生的数据将相当于半个国家图书馆的信息储量。大数据时代到来后,随着互联网技术及其应用的发展,大数据、云计算技术方式的使用,个人信息的价值不断被挖掘、被使用,但是安全保护是一个很大的问题。一个不可回避的事实是,当公众在贡献数据信息时,其信息安全也面临着威胁。
发生在2014年的几起信息安全事件让人记忆犹新。2014年1月,支付宝前技术员工涉嫌将多达20G的用户数据非法贩卖他人事件,引起广泛关注;2月17日,淘宝爆出重大安全漏洞,黑客通过搜索引擎,无需密码即可登录淘宝用户账号,直接获取用户的账户余额、交易记录、收货地址、姓名、手机号码等敏感隐私信息;3月,携程网爆发“安全门”事件,携程网安全支付日志存在漏洞,导致大量用户银行卡信息泄露,引发一场“换卡潮”。个人信息泄露并非只发生在我国。同在2014年1月10日,美国零售巨头塔吉特表示,在该集团发生的数据库失窃事件中,有7000万顾客的付款卡和个人信息被盗取。
岁末年初往往是铁路公安民警最忙的一段时间。在这一时间段铁警的一项重要工作就是打击倒票。2015年春节,全国铁路公安机关集中开展了打击倒票“猎鹰—2015”战役。在这一集中行动中,各地铁路公安机关查处了多起倒票案件,这些案件的一个共同点是:不法分子利用他人信息囤票继而高价倒卖。囤票案件暴露出一个问题——公民个人信息泄露。
同一问题在2014年年底曾引起一场风波,同样与火车票有关。2014年12月25日,12306订票官方网站被指流出约13万用户数据,其中包括姓名、身份证号、手机号、用户名、密码等敏感信息。事发第二天,中国铁路总公司官方微博称,铁路公安机关于12月25日晚将嫌疑人蒋某某、施某某成功抓获,嫌疑人通过手机互联网某游戏网站以及其他多个网站泄漏的用户名和密码信息,尝试登录其他网站进行“撞库”,非法获取用户的其他信息,并谋取非法利益。尽管官方宣称事件由黑客“撞库”所致,但个人信息泄露这一问题仍让公众后怕,尤其是在大数据已经来临的今天。
基于大数据可以对人们的状态和行为进行预测,未被妥善处理的大数据会对用户隐私造成极大侵害。社交网络研究表明,通过群组特性可以发现用户属性。例如通过分析用户的Twitter信息,可以发现用户的消费习惯以及喜好的球队等更深层次的个人信息。大数据安全是一个永恒的话题,重要的是通过技术手段,降低安全风险。
“一方面是数据未经授权被搜集,这种情况发生得比较多。”工信部相关部门的一位负责人说,第二个问题是超范围使用。所谓超范围使用,是指企业通过一定的所谓合法的形式拿到个人信息,但是拿到以后使用信息的目的、用途以及范围,并非信息权利主体所熟知。这种情况包括,当互联网对一些数据信息进行更进一步或者深层挖掘时,这种挖掘在一定程度上有可能侵犯了权利主体的权益。因为互联网企业之前可能告诉权利主体,获取信息是基于特定的目的或者在特定范围内使用,但是进一步挖掘就有可能触犯了约定。个人信息安全面临的第三个问题,与2014年发生的一些信息安全事件有关。“2014年出现的几个案例,都遇到了数据保存问题。前几年,某网络社区也遇到这一问题,社区存储的几千万用户信息被黑客拿到后转卖给第三家,最后造成信息滥用。”工信部相关部门这名负责人说。
总体来说,大数据时代将面临着个人隐私安全、企业信息安全乃至国家安全等三方面的问题。
(一)大数据从概念走向实践,引发个人隐私安全问题
在大数据时代,想屏蔽外部数据商挖掘个人信息是不可能的。目前,各社交网站均不同程度地开放其用户所产生的实时数据,被一些数据提供商收集,还出现了一些监测数据的市场分析机构。通过人们在社交网站中写入的信息、智能手机显示的位置信息等多种数据组合,已经可以以非常高的精度锁定个人,挖掘出个人信息体系,用户隐私安全问题堪忧。据统计,通过分析用户4个曾经到过的位置点,就可以识别出95%的用户。在互联时代,有一句话是:“你没有隐私,忘记这事吧。”大数据对个人信息获取渠道拓宽的需求引发了另一个重要问题:安全、隐私和便利性之间的冲突。消费者受惠于海量数据:更低的价格、更符合消费者需要的商品,以及从改善健康状况到提高社会互动顺畅度等生活质量的提高。但同时,随着个人购买偏好、健康和财务情况的海量数据被收集,人们对隐私的担忧也在增大。“棱镜门”事件爆发后,尴尬的奥巴马辩解道:“你不能在拥有100%安全的情况下,同时拥有100%隐私和100%便利。”
(二)企业迈进大数据时代,信息安全面临多重挑战
大数据来袭,企业不仅要学习如何挖掘数据价值,使其价值最大化,还要统筹安全部署,考虑如何应对网络攻击、数据泄露等安全风险,并且建立相关预案。正如Gartner公司论断的那样:“大数据安全是一场必要的斗争。”当企业用数据挖掘和数据分析获取商业价值的时候,黑客也可以利用大数据分析向企业发起攻击。“黑客最大限度地收集更多有用信息,比如社交网络、邮件、微博、电子商务、电话和家庭住址等等,为发起攻击做准备。尤其当你的VPN(虚拟专用网络)账号被黑客获取时,黑客就可以获取你在单位的工作信息,进而入侵企业网络。”绿盟科技首席战略官赵粮表示,大数据分析让黑客的攻击更精准。通常,那些对大数据分析有较高要求的企业,会面临更多的挑战,例如电子商务、金融、天气预报的分析预测、复杂网络计算和广域网感知等。启明星辰核心研究院资深研究员周涛表示,任何一个会误导目标信息的提取和检索的攻击都是有效攻击,因为这些攻击对安全厂商的大数据安全分析产生误导,导致其分析偏离正确的检测方向。“这些攻击需要我们集合大量数据,进行关联分析才能够知道其攻击意图。大数据安全是跟大数据业务相对应的,传统时代的安全防护思路此时难以起效,并且成本过高。”在周涛的眼里,与传统安全相比,大数据安全的最大区别是,“安全厂商在思考安全问题的时候首先要进行业务分析,并且找出针对大数据的业务的威胁,然后提出有针对性的解决方案”。
(三)大数据时代,国家安全将受到信息战与网络恐怖主义的威胁
在机械化战争时代,各国面临的是刀枪的正面冲击。如今的信息时代,安全环境发生了质的变化。不管是战争时期还是和平年代,一国的各种信息设施和重要机构等都可能成为打击目标,而且保护它们免受攻击已超出了军事职权和能力的范围。决策的不可靠性、信息自身的不安全性、网络的脆弱性、攻击者数量的激增、军事战略作用的下降和地理作用的消失等都使国家安全受到了严峻的挑战。此外,网络化的今天,各个国家在石油和天然气、水、电、交通、金融、商业和军事等方面都依赖信息网络,更加容易遭受信息武器的攻击。此外,大数据也将为网络恐怖主义提供新的资源支持。海量的大数据涉及的方面之广,将有可能使网络恐怖主义的势力侵入人们生活的方方面面。为了更好地利用信息技术反对恐怖主义的袭击,美国联邦政府实施新方法,利用海量的、以商业手段收集的个人信息数据库来为提高国家安全服务。这些信息库几乎包括了各个行业,金融数据、保险信息、零售记录、旅游信息、证书和房产证明等政府部门资料。这一趋势早在2001年“9·11”事件发生前就已经产生,但从那之后不断增强,新的数据环境已经产生了两大前所未有的特征,即来源于私人部门的、可用的个人化识别信息具有深度和广度,同时用于分析这些数据的分布形势与意义的能力也在不断提高。
针对大数据时代所带来的隐私安全问题隐患,一些国家政府纷纷立法保护公众隐私。2012年2月,奥巴马政府公布了《消费者隐私权利法案》。数周后,美国联邦贸易委员会(FTC)发布了有关消费者隐私权利保护的最终报告。欧盟数据保护工作组曾在2009年分别致信谷歌、微软和雅虎三大搜索引擎巨头,认为搜索引擎服务商保存用户搜索记录时间超过6个月的理由并不成立,因此要求这三个搜索引擎商必须缩短用户搜索信息的保留时间。
奇虎360公司总裁齐向东在“2015大数据创新发展论坛”上表示:“大数据作为社会的又一个基础性资源,它可能会给我们社会的进步、经济的发展以及政府执政能力的提高带来强大的驱动力。大数据代表了先进生产力方向,已经成为不可阻挡的趋势。”但同时,大数据时代,一旦发生网络攻击或者泄密事件,产生的后果将更为严重。
“一个样本在PC或手机上运行,会在360的主动防御系统上留下详细的行为日志,一台服务器、一台网络交换设备也会对访问留下日志。这些日志汇集在一起形成大数据,网络攻击的痕迹就隐藏在这些数据之中,这就是用大数据技术解决大数据安全的基本道理。”齐向东进一步说。齐向东强调,大数据系统要安全,一定要全面消除死角。他以安防系统为例:“就像全面安防系统,如果安防摄像头布防得有死角,我们就很难说任何一个安全事件的发生我们都能看得见。”
目前,一些非常重要的单位,终端仅仅安装了一个普通的杀毒软件,还不是云控的杀毒软件。必须知道,任何一个网络空间,都离不开对终端的控制。如果一个网络被控制,一定是先释放一个攻击的样本,感染内网的一个终端或者服务器,由终端和服务器作为起点发起攻击。因此,在大数据的网络安全系统里面,必须消除内部的数据死角,网络收集技术一定要全面。任何一个在内部发生的网络访问、网络下载,乃至于网络操作,都要把数据收集起来,如果还有哪一些从终端服务器到各种各样的网络上数据收集不全的,就没办法形成安全的大数据。
当前网络安全形势日新月异,网络攻击已经成为了主战场。在美国等发达国家,网络威胁情报服务和漏洞服务已经非常发达。如何充分利用好外部的大数据是我国亟待解决的重要问题。“我们如果不了解安全形势、不了解外部的情况,可能对发生的网络攻击事件浑然不知。”齐向东介绍,“在国外,购买威胁情报服务和安全服务非常流行,几乎没有任何一家企业不购买多家企业的漏洞服务,而在我国还非常欠缺。因为发生在一个企业的网络攻击事件,绝不是全世界的唯一,很可能同样的网络攻击样本或者方法,在另外一个地方已经使用过,如果通过网络安全公司及时获取了相关威胁警报,就可以及时防范同样的网络攻击在自己的网络里面得手。”
“行政执法机关保护和司法保护,是保护信息安全的一个重要方面。”工信部相关部门负责人说,近年来,行政执法机关和司法机关开始介入互联网领域,但是没有全部地介入。据不完全统计,2003年以来,我国判决的互联网案件不超过150件。也就是说,有关部门在不得不处理的情况下才会介入一些案件,其中存在一些问题。从进一步保护、促进产业发展的角度看,行政执法机关和司法机关还需要进一步努力。对立法问题,工信部这名负责人作了一些细致分析:以互联网竞争为例,我国的反不正当竞争法、反垄断法的制定已经有很长一段时间,这些法律在一定程度上对传统的竞争关系和垄断关系有规范作用,但是缺少互联网专门性的规制。“从我个人看来,对于互联网竞争秩序的规制,要靠专门的互联网立法,更要靠一般性的传统立法。”这名负责人认为,如果没有传统的立法作为基础,仅靠互联网立法,难以规范一些危害互联网安全和秩序的行为。
全球大数据企业
目前全球大数据企业主要分为两大阵营:一部分属于单纯以大数据技术为核心的新兴企业,希望为市场带来创新方案并推动技术发展;另有一些原本打理数据库/数据仓储业务的老牌厂商,他们打算利用自身优势地位冲击大数据领域,将现有安装基础及产品线口碑推广到新一轮技术浪潮当中。下面我们就一起来看今天的十五家大数据企业名单,其中十家早已名满天下,另外五家则属初来乍到。
首先介绍十大老牌大数据企业。
1.IBM
根据Wikibon发布的报告,作为2012年大数据业务营收成绩最好的公司,IBM过去一年从大数据相关产品及服务中获得了13亿美元收益。其具体产品包括服务器与存储硬件、数据库软件、分析应用程序以及相关服务等。在IBM围绕大数据开发出的产品中,DB2、Informix与Infosphere数据库平台、Cognos与SPSS分析应用可谓最为知名。IBM同时也为Hadoop开源数据分析平台提供支持。
2.惠普
惠普在2012年获得的大数据营收名列第二,总值为6.64亿美元。这家供应商还提供与之相关的硬件、软件和服务,其最为知名的方案当数Vertica分析平台。
3.Teradata
Teradata在2012年获得全球第三大大数据厂商头衔,其营收总额达4.35亿美元。Teradata凭借自家硬件平台、数据库及分析软件而声名远播。它同时针对零售及运输行业推出了专门的分析工具。
4.甲骨文
尽管在大家眼中,甲骨文一直以其冠绝群雄的数据库产品闻名,但事实上他们也是大数据领域的主要竞逐者之一。其甲骨文大数据设备将英特尔服务器、Cloudera Hadoop发行版以及甲骨文的No SQL数据库结合到了一起。2012年甲骨文名列大数据企业榜单第五位,营收总额为4.15亿美元。
5.SAP
SAP推出了一系列分析工具,但其中知名度最高的当数其HANA内存数据库。2012年该公司在大数据企业竞争中位居第六,营收总额为3.68亿美元。
6.EMC
EMC一方面帮助客户保存并分析大数据,另外也充当着大数据分析智囊营销科学实验室的所在地,这家实验室专门分析营销类数据。EMC推出的最新爆炸性消息是与VMware及通用电气一道支持Pivotal公司。Pivotal将对Hadoop与EMC的Greenplum数据库与HAWQ查询工具进行整合。EMC在2012年的大数据企业排行榜中位列第七,营收总额为3.36亿美元。
7.Amazon
Amazon向来以企业云平台闻名于世,但同时也推出过一系列大数据产品,其中包括基于Hadoop的Elastic Map Reduce、Dynamo DB大数据数据库以及能够与Amazon Web Services顺利协作的Redshift规模化并行数据仓储方案。
8.微软
微软的大数据发展战略可谓雄心勃勃,包括与Hortonworks建立合作关系、建立一家大数据新兴企业以及推出基于Hortonworks数据平台的HDInsights工具。微软的SQL Server数据库也颇具知名度,且于2012年的大数据企业比拼之中位列第九,营收总额为1.96亿美元。
9.谷歌
谷歌公司推出的大数据产品包括Big Query一款基于云的大数据分析平台。该公司在过去一年中拿下3600万美元大数据营收。
10.VMware
VMware向来以云计算及虚拟化解决方案著称,不过近来也开始逐步踏入大数据领域。虚拟巨头公布的VMware v Sphere大数据扩展版就很说明问题,这套方案使得v Sphere能够控制Hadoop部署并帮助企业用户简化大数据项目启动流程。VMware在过去一年中获得3200万美元大数据营收,几乎与谷歌公司持平。
以下还有5家新生代大数据企业。
1.Cloudera
相信目前已经没人敢在列举顶级大数据供应商时漏掉Cloudera。这家新兴企业获得1.41亿美元风险投资,支持阵营中甚至包括谷歌、Facebook、甲骨文以及雅虎等在大数据领域赫赫有名的老将。该公司于2008年首次为企业客户带来Apache Hadoop平台。
2.Hortonworks
Hortonworks是另一家Hadoop供应商,并在2011年从雅虎公司分离出来之后获得超过7000万美元的风险投资支持。它在发展中将矛头直指Cloudera,这位年轻选手背后则站着微软、Rackspace、红帽、Teradata等多家战略合作伙伴。
3.Splunk
根据Wikibon的统计,Splunk是目前纯大数据供应商中占据市场份额最大的企业,2012年全年营收总额达1.86亿美元。该公司主要关注机器数据分析业务。
4.10Gen
10Gen最具影响力的得意佳作要数其开源Mongo DB一款业界领先的No SQL数据库。该公司的战略投资伙伴包括英特尔、红帽以及In-Q-Tel。10Gen在纯Hadoop及No SQL业务企业中名列第三,营收总额为3600万美元。
5.Map R
大家想必听说过Map R推出的No SQL数据库M7,这家公司与Amazon的云平台及谷歌计算引擎达成了协作关系。Map R在纯Hadoop与No SQL业务企业中位列第四,营收总额为2300万美元。
20个大家应该知道的大数据资源
对于企业和一些研究机构而言,在开始大数据分析之前,不一定要建立自己的大规模数据仓库。一些企业和政府将大量信息投入到公共领域的举措,使得每个人都能够获得海量数据。数据无处不在,并且很多数据源都是免费的。迄今为止,从大蓝筹企业到极小型创业公司,都可以使用比以往更多的数据。以下是一些有价值、好用且免费的大数据来源。
1.Data.gov
美国政府承诺使所有政府数据都能在网上免费获得。这个网站是第一阶段,作为一个门户网站,囊括了从气候到犯罪的一切惊人的信息。
2.美国人口普查局
一个关于美国公民生活的丰富信息,包括人口数据、地域数据以及教育。
3.欧洲联盟开放数据门户
如上所述,但它是基于欧洲联盟机构的数据。
4.Data.gov.uk
来自英国政府的数据,包括《英国国家书目》——自1950以来所有的英国书籍以及出版物的元数据。
5.中情局世界概况
267个国家历史、人口、经济、政府、基础设施以及军事信息。
6.Healthdata.gov
125年来美国的医疗保健数据,包括索赔型医保数据、流行病学和人口统计。
7.NHS健康和社会保健信息中心
来自英国国民健康服务的健康状况数据集。
8.Amazon网络服务公共数据集
巨型公共数据源,包括1000个基因组工程,试图建立最全面的人类遗传信息数据库和美国宇航局的卫星图像数据库。
9.Facebook Graph
虽然Facebook用户个人资料中的很多信息是私有的,但很多也不是——Facebook提供Graph API作为查询大量信息的一种方式,它的用户很乐意与世界分享(或者说是不能隐藏,因为他们还没有制定如何设置隐私功能)。
10.Gapminder
世界卫生组织和世界银行的数据集合,包括世界各地的经济、医疗和社会统计数据。
11.Google Trends
自2004年以来,对所有关键字的搜索量(作为总搜索的比例)的数据统计。
12.Google财经
40年的股票市场数据,并实时更新。
13.Google Books Ngrams
搜索和分析数以百万计的数字图书全文,作为Google图书项目的一部分。
14.国家气候数据中心
从美国国家气候数据中心收集的环境、气象以及气候数据集。全球最大的天气数据存档。
15.DBPedia
维基百科包含数以百万计的数据,包括生活中每个事物的结构化和非结构化信息。DBpedia是一个用来分类的大型工程,并创建了一个公共的、免费发布的并允许任何人来分析这些数据的数据库。
16.Topsy
免费而全面的社交媒体数据是很难得到的——毕竟这些数据是为那些大玩家(Facebook、Twitter等)产生利润的,所以他们不想轻易送人。然而Topsy提供了一个可搜索回溯至2006年公共微博的数据库,和现在一些用来分析会话的工具。
17.Likebutton
在全球范围内,从你自己的网络中挖掘Facebook的公共数据,来了解在某个时刻人们“喜欢”什么。
18.New York Times(《纽约时报》)
可搜索的新闻文章的索引档案,可以追溯到1851年。
19.Freebase
一个关于人、地点和事物的结构化数据的社区数据库,记录数超过45万个。
20.百万歌曲数据集
超过一百万首歌曲和音乐作品的元数据。部分属于亚马逊网络服务。
2.大数据时代的社会大变革
从工业时代到信息时代
历史上没有哪一个时代的人们能像今天一样,以始料未及的速度跨越了人类社会的几个阶段。当工业化浪潮在许多国家和地区方兴未艾之际,从上个世纪末的八九十年代,随着计算机的迅速普及,人类迅速进入了信息时代(The Age of Information)。发达国家对进入信息时代的时间界定一般是1969年,我国及其他部分发展中国家则是从1984年,比欧美晚了15年。就在信息科技的成果在社会生活中快速蔓延开来,人们渐渐接受“信息时代”这个概念的时候,人其他类又进入了数字化时代(The Digital Age)——万事万物皆以数据的形式呈现出来,海量的信息以数据的形式被传递、运算。然而,数字化时代还远没有止步,人们又进入了新的“大数据时代”(The Age of Big Data)。这一切就发生在短短的不到半个世纪的时间里。
科技进步的影响力绝不是仅仅限于科技本身。科技进步所带来的生产方式的改变,必然深刻影响人类社会的方方面面,无论从生活方式、文化、政治、经济、艺术,还是社会成员的组织形式,例如家庭、企业、政府。科技的进步,给人类社会带来前所未有的便利,也带来前所未有的新挑战、新问题。敏锐把握变迁的本质,才能在未来的竞争中保有不败之地。
举一个简单的例子,在工业时代,普通大众追求的是工作保障、安稳、成为大企业的雇员,工业时代人们所接受的教育就是终身成为雇员。但到了信息时代,人们追求成为自由的代理人,成为企业家,拥有自己的企业。正如一位成功的企业家说的:“就业的机会随处可见,而创业的机会稍纵即逝。”走在信息化潮头的美国是一个典型的小公司的国度,80%的企业只有不到九个人,有60%的人都是到这种不到九个人的公司工作,有不计其数的创业者。这和我们以往那种超级跨国大企业、大工厂的印象完全不同,美国政府则积极服务于这些中小企业,保持自身的经济活力。这就是时代的变化给国家和社会成员带来的理念转变。
大机器、大工业和大量人员所从事的大规模流水线生产方式不再是主流,而第三产业即服务性产业将明显增加,信息类无形产业将成为关键资源,身强力壮但未受过教育或受教育较少的人将难以得到工作岗位。在中国,上个世纪80年代的大学生可谓是“天之骄子”,一时成为党政机关、工厂企业的宠儿。但仅隔一二十年,大学毕业生就遍地都是。人们戏称,在街上扔一砖头,砸到的十个人中有七个是大学生,两个是硕士生,一个是博士生。话虽夸张,却形象地说明了知识经济时代的激烈竞争。与信息化随之而来的全球化趋势侵蚀着国家主权概念,同时打破封闭状态,信息一体化将使国家之间传统的国界概念逐步淡漠,尤其是淡化了经济主权。那些拥有信息和知识的国家将是富有的国家,这样的富国将与信息贫穷落后的国家分道扬镳。
信息时代里的企业和大工业时代的企业也完全不同,它就像一个完整的人,其组织形式如同骨骼,资金如同血液,信息如同神经,信息流如同生命线,而信息系统就是神经系统,市场需求就是刺激源。在统一的数字神经系统下,从决策者到管理者再到执行者,从人到机器设备,如果信息可以一路顺畅,整个企业就能用一个大脑思考。这颗数字大脑不仅要对多样化、个性化的市场需求做出及时准确的反应,还要在对这类信息资源的筛选和分析中不断寻找新的机遇,拓展上升的空间。
从数字化时代到大数据时代
数字时代其实就是电子信息时代的代名词。因为电子信息的所有机器语言都是用数字代表的,所以人们将其称为数字时代,由于所有的一切都建立在电子信息的基础上,所以其标志应该从计算机诞生之日起。
计算机及电子学的发展让信息化、网络化等说法变得流行起来,其归根结底就是数字化。我们可以简单地说,在数字化时代,一切皆为数字。换句话说,万事万物都可以以数据的形式呈现出来,并可以被计算设备存储、计算。
随着计算机的普及应用,现实世界开始被大规模地数字化。例如,数字化建立在采样定理之上,即在一定条件下,用离散的序列可以完全代表一个连续函数。采样定理让现实世界中连续变化的声音、图像等模拟信息在计算机中用0和1表示成为可能。数字化让知识、想法的分享与传播变得前所未有的容易,同时,音频和视频的数字化也改变了媒体传输的方式,如数码相机、数字电视、数字广播、数字电影等的出现。图书、报纸、杂志的数字化是互联网出现以来一项重大的突破,亚马逊公司正是看出其中的商机逐渐成长为全球最大的互联网电商。
数字化的过程包括数据的采集和数据的处理。数据采集主要是由硬件来完成的,包括处理器、存储器、传感器等,也就是物联网。例如,我们智能手机的GPS传感器不断地定位我们的位置信息,对人和移动装置比如汽车的行为进行采集;重力传感器不仅仅对数字设备的横屏竖屏进行控制,还能根据重心的位移来记步;手环的血氧传感器采集血氧信息,对健康数据进行监控并预防等。物联网的本质就是在数字化的基础上把人们的现实生活数据化。数据的处理就是软件的算法及实现,包括各种软件程序,管理数据的文件系统和数据库系统,以及各种数据处理方法也就是算法,具体包括存贮、加工、分类、归并、计算、排序、转换、检索等,为了保证安全可靠,还有一整套数据安全保密技术。
在数字时代,每个人都成了数据的生产者。随着智能手机、平板电脑、笔记本电脑的普及加速了每个社会成员“身份的数字化”。在Web服务器面对这样海量的数据信息时,却遇上了新难题:处理能力和储存容量的需求都爆炸性增加。让大家记忆犹新的是,十多年前我们PC的硬盘都是200M或500M的容量;但是5年前,PC硬盘都是250G或500G。一个G是1024个M。而现在市场上卖的移动硬盘常常都是几个T。一个T是多大?是1024个G。但现在Web服务器面对网络上的大量数据需要的储存量却是以P(Peta)为基本单位的,一个P是1024个T。以目前的技术水平,很少有单个计算机可以处理这么大的数据量,也很少有单个储存设备可以有这么大容量。幸亏“云”的概念和技术正好在最近很成熟了,于是利用“云计算”和“云储存”的海量计算能力和海量储存能力,人类得以顺利地迈入“大数据时代”。
2008年9月4日《自然》(Nature)刊登了一个名为“Big Data”的专辑,首次提出大数据(Big Data)概念,该专辑对如何研究PB级容量的大数据流,以及目前正在制订的、用以最为充分地利用海量数据的最新策略进行了探讨。2011年5月,EMC(全球最大的外置存储硬盘供应商)举办了主题为“云计算相遇大数据”的大会,首次提出了“大数据”(Big Data)的概念。
紧接着,IBM、麦肯锡等众多国外机构发布了“大数据”的相关研究报告,2011年6月麦肯锡全球研究所发布研究报告——《大数据的下一个前沿:创新、竞争和生产力》(Big Data:The Next Frontier for Innovation,Competition and Productivity),首次提出“大数据时代”来临。报告中说:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”
此后,联合国、世界经济论坛等机构也开始纷纷关注信息时代海量数据对社会经济发展所带来的冲击。2012年5月联合国“全球脉冲”(Global Pulse)计划发布《大数据开发:机遇与挑战》(Big Data for Development:Challenges&Opportunities)报告,阐述了大数据带来的机遇、主要挑战和大数据应用。
2011、2012年“达沃斯世界经济论坛”将大数据作为专题讨论的主题之一,发布了《大数据、大影响:国际发展新的可能性》(Big Data,Big Impact:New Possibilities for International Development)等系列报告。
在政府层面上,美国奥巴马政府创造性地将“大数据”概念全面引入到公共行政领域。2009年,美国联邦政府发布《开放政府指令》(The Open Government Directive),作为大数据与政务和政府治理相结合的前奏,推出了Data.gov公共数据开放网站。2012年3月,美国联邦政府发布了《大数据研究和发展倡议》(Big Data Research and Development Initiative),正式启动了“大数据发展计划”,宣布将投入超过2亿美元用于大数据研究;同年5月,美国联邦政府又发布《数字政府战略》(Digital Government Strategy),致力于为公众提供更好的“数字化”服务,围绕数据进行的一系列措施在美国政府全面推进。
据麦肯锡预测,预计到2020年,大数据可带动美国GDP提升2%至4%,即创造3800亿至6900亿美元的价值,并创造170万个新的工作岗位。欧盟委员会预测,截至2020年,大数据可带动欧盟GDP提升1.9%,即创造2060亿欧元的价值,并能新增10万个大数据相关的工作岗位。到2020年大数据技术将为欧盟创造GDP达到9570亿欧元,增加就业人数380万。根据Gartner公司的调查结果,目前全球64%的企业已经开始向大数据项目注资,或者打算在2015年6月之前将计划付诸实践。
大数据时代最重要的特征是人类所有的行为都被数据记录下来,无论是在电商的购买行为,还是旅游度假、娱乐活动、行为轨迹等,所有的人类社会行为都被各种传感器和互联网记录下来。数据记录了一切,人类社会的行为都变成了数据,用纸质媒体记录人类历史的时代已经过去,历史正在被数据以文字、数据、表格、声音、影像的方式记录了下来。
随着传统互联网向移动互联发展,全球范围内,除了个人电脑、平板电脑、智能手机、游戏主机等常见的计算终端之外,更广阔的、泛在互连的智能设备,比如智能汽车、智能电视、工业设备和手持设备等都连接到网络之中。基于社会化网络的平台和应用,让数以百亿计的机器、企业、个人随时随地都会获取和产生新的数据。随着社交网络的逐渐成熟、移动带宽迅速提升,更多的传感设备、移动终端接入网络,产生的数据及其增长速度比历史上任何时期都要多,互联网上的数据流量正在迅猛增长。在云计算、物联网等技术的带动下,中国的移动互联网也早已步入“大数据”时代。
回顾历史,从来没有哪一次技术变革能像大数据带来的技术革命一样,在短短的数年之内就从少数科学家的主张进入到那些全球领军企业的战略实践中,继而上升为大国的竞争战略,从而形成一股无法忽视、无法回避的历史潮流。可以说,大数据正在开启一个崭新的时代。在这个新的时代,互联网、物联网、云计算、智慧城市、智慧地球,这些新技术、新概念正在使数据遵照着“摩尔定律”在飞速增长。可以说,一个与人们所生存的物理世界平行的“数字世界”正在形成。在新的数字世界当中,数据无可置疑地成为了最宝贵的生产资源、生产要素。那些更早认清和顺应新时代的趋势、积极谋变的国家、地区和企业将在新的技术条件下乘势崛起,成为地球村中新的领军者;而那些无动于衷、墨守成规或者逆时代而行的组织则将逐渐被新的世界边缘化,失去竞争力和活力。
一个数据主宰一切的时代
从某个角度来说,数字化让人们的生活更加便利,让个性化生存成为最大的可能。有本书的名字很有意思,《当我们变成一堆数字》[1](The Numberati:How They'll Get My Number and Yours),它讲述了数字化是如何改变我们生活的。每一天,我们的身后都拖着一条由个人信息组成的长长的“尾巴”,这只是因为我们生活在一个现代化的世界。我们——点击网页、切换电视频道、驾车穿过自动收费站、用信用卡购物、使用手机,而亚马逊、Google这样的公司,正在以平均每人、每月2500条信息的速度,捕获我们的详细数据。是谁在关注这些数据?他们打算用这些数据来干吗?这正是该书的作者——美国《新闻周刊》资深记者斯蒂芬·贝克在这本书里所探究的问题,而他的回答既让人惊讶,又令人不安。一群新兴的数学精英,正千方百计地以惊人的准确性,利用他们从互联网上获取的信息,剖析人们的每个举动、预测人们的行动计划。他们神不知鬼不觉地将人们买了什么、对什么感兴趣等等尽收眼底,从而巧妙地操控人们的消费行为。这些数字分析家渗透到人们社会生活的每个领域,根据所获取的信息将人们描绘为工薪族、购物者、选民、博主、潜藏的恐怖分子、病患者、恋人等等。他们在公司洞察人们的电子邮件和电话记录,来推测有多少员工真正在为公司的盈利添砖加瓦。他们分析人们的购买行为,以搞清人们是在节衣缩食、瘦身,还是有新的理财计划。从IBM、Google、保险公司到奥巴马竞选团队,莫不重金礼聘身怀绝技的“数字搜客”,从一大堆数字符码中过滤出宝贵的趋势和观点……
大家是否注意到,每当我们在谷歌或百度上搜索一个词汇或一个事件后,你再次上网浏览别的网站时,在边栏或者屏幕上方的横条上出现的广告都和我们刚刚搜索的内容相关。比如你搜了一个数码相机的信息,马上你就在接下来的浏览中发现在屏幕的上方或右方出现的广告都和数码相机有关。
除了上网搜索,我们在使用Web电子邮箱时,也会发生同样的事。当你发了一封邮件给朋友讨论下一个长假到哪个旅游胜地去度假,你会发现下次你再打开邮箱时,旁边的广告都和当地度假酒店或往返度假地的机票有关。这些都与一个网络专有名词“Cookies”有关。Cookies是什么意思?字面上Cookies是“小甜饼”,但在网络世界,Cookies就是服务器暂存放在你的电脑里的资料(.txt格式的文本文件),好让服务器用来辨认你的个人电脑。当你在浏览网站或发送Web邮件的时候,Web服务器会先将一个小资料放在你的计算机上,Cookies会把你在网站上所打的文字或是一些选择都记录下来。当下次你再访问同一个网站,Web服务器会先看看有没有它上次留下的Cookies资料,有的话,就会依据Cookie里的内容来判断使用者,送出特定的网页内容给你。
透过Cookies,我们每个人都被数字化了,我们的个人资料、个人喜好、日常活动范围、购买偏好,通通以一串数字的形式展现在网络世界。也就因为这个Cookies,每当我们在亚马逊网或当当网购买一本书后(甚至只是在他们网站上浏览了几本书),下次再去他们的网站,网站就会推荐和你上次购买有相关主题的书籍,好像知道你的喜好一样。
如果你带着笔记本电脑去外地旅游,当你进了度假村安顿下来后,打开电脑透过Wi Fi检查Web邮箱时,往往就会收到一封从Web邮箱服务器发来的警告,告诉你的电脑在一个以前没有出现过的地方登录了,假如的确是你自己登录的,那么请操作下列指定的步骤以激活你的邮箱。这又是一个借由Cookies工作的例子。
谁在进行数据化的工作?在一开始首先是由互联网公司推动的。很多国外公司,包括苹果、谷歌、亚马逊、微软,以及国内的百度、腾讯、阿里巴巴等,都是不断采集用户的数据,并利用这些数据来预判未来可能出现的各种情况,这些公司的效益都体现在数据上而不是固有的资产上。从另一方面说,政府往往是最大的数据采集者和关键性原始数据的掌握者。政府掌握着公民的一些最关键的信息,例如每个居民的身份信息,这些信息里包括了诸如年龄、性别、受教育状况、财产等等;政府还掌握着国家的宏观经济、社会、军事数据,等等。
在中国,一些地方政府开始公开一些数据,方便人们查阅、使用,例如在2014年5月,上海市政府召开推进政府数据资源向社会开放会议,开始有序推进各个政府职能部门向社会开放政府数据资源,这一举动将数据从政府手中解放出来,公众可以通过政府数据服务网进行浏览、查询、检索和下载等服务。可以说,在数据化时代,政府越来越显示出开明的一面。
我们正处在数据主宰一切的时代,地铁、超市、车站、工厂等场所充斥的摄影头对人类行为数据进行采集,每天我们在网络上的行为痕迹都会被记录下来作为数据来分析和还原。由海量数据所构建的大数据时代给我们既带来了机遇,也同样带来了挑战。可以说,从数字化到数据化是一个必然的过程。现实世界的数据化不断挑战传统时代的各行各业,但其中也无处不存在着风险。人们每天接收到大量的垃圾邮件和短信,个人隐私被泄露,都更加说明数据化其实是一把双刃剑,数据化带来的风险将是人类不得不面对的问题。
技术变革必然影响政府治理
先来看一个简单的例子,2015年1月1日,江西省新余市委设立于上世纪90年代的“公文交换站”停用了,自此,非涉密文件一律通过“数字化综合办公平台”流转,这标志着该市全面迈入“数字化办公时代”,让传统公文交换站退出历史舞台。根据统计,该市的“数字化综合办公平台”自2013年1月1日正式运行以来,全市各级党政机关每年可节约办公经费2700多万元,另一方面工作效率却显著提高了。[2]从2012年6月起,新余市投资800万元建设“数字化综合办公平台”,2013年1月1日正式上线运行,同年7月1日实现市、县(区)、乡(镇、街道)三级无纸化协同办公。该平台设有公文管理、个人办公、移动办公、公文交换等12个模块近百项功能,是集智能办公、智能决策、智能监管和智能服务于一体的综合办公平台。为保证平台高效规范使用,该市将平台使用情况纳入各单位年度绩效考核内容,倒逼各级党政机关养成数字化办公习惯。目前该市607家部门和单位全部纳入了数字化综合办公平台。
“通过数字化综合办公平台,我们将所有非涉密文件在网上流转,不受时间、空间条件限制。遇到领导出差在外,以前可能会压上十天半月,现在不管领导在市里还是在省外,只要上网就可以处理各种文件。”新余市信息化服务中心电子政务科负责人这样介绍。
未来可以预见的是,中国电子政务将建立起更加优化的制度环境,电子政务创新为民服务和社会治理的应用将进一步深化,国家战略和统筹协调的作用将进一步发挥。2014年底,国务院办公厅出台关于促进电子政务协调发展的指导性文件,提出用5年左右时间,全面建成统一规范的国家电子政务网络。国办将目标细划为19项重点任务,分工到各部委,并将对落实工作进行统筹协调、跟踪了解、督促检查。目前,国家电子政务外网已经基本建成,政务内网正由国办直接负责推动各部门、地区加快建设。
以上只是数字化办公对政府治理工作带来影响的一个小小的侧面。如果我们的眼光再广阔一些就会发现技术革新给政府治理带来的变革远不止这些,它不仅将变革以往政府工作的推进方式,还将给政府的治理理念、组织形式、施政理念、政策决策等带来前所未有的深刻影响,这是在后文要深入涉及的。
有人把中国的信息化浪潮总结为三个阶段:在信息化浪潮1.0阶段,信息化浪潮第一波的主体是企业,以PC、操作系统、软件的普及应用为核心;信息化浪潮2.0阶段,推动信息化浪潮的是个体,以互联网、APP的普及应用为核心;而在信息化浪潮的3.0阶段,则是以政府、城市为主体,智慧城市、物联网将是第三波信息化浪潮的核心,将与大数据的应用紧密结合。
在前互联网时代,土地是城市最值钱的资源,但是未来,政府最值钱的资源应该是人,以及基于人的大数据。随着互联网经济的兴起,中国经济进入新常态所倒逼的新一轮经济转轨中,被土地财政主导了20多年的中国城市“价值观”必将缓慢又坚决地转向对城市大数据价值的挖掘。据估算,中国“十二五”规划智慧城市投资5000亿元,“十三五”规划将增加至8000亿元。就智慧城市建设而言,由于投资大、周期长、回款慢,政府将是智慧城市的主要投资方。
在美国,1992年提出建设“信息高速公路”的计划,随后又提出要建设“全球信息基础设施”,并做出了长远规划与战略部署。克林顿政府曾提出“第一政府网”的建设计划,目的是要简化政府办事程序,加速政府对社会需要的回应,让美国人更加快捷、方便地了解政府,同时为业界申请贷款和参加各种招投标活动提供更多的方便。政府在世纪初要完成通信基础设施(硬件)和网络软件及服务系统(软件)的建设,使其得到更加广泛的应用。
发达国家政府的大数据应用
目前,世界上有一些发达国家已经在政府部门开始推广大数据应用。通过分析和比较这些先发国家的大数据应用,我们能了解当前和未来需要大数据应用聚焦和服务的地方,为我国开展大数据应用提供借鉴。
美国
为了对海量数据流实时分析管理,美国政府和IBM在2002年合作开发了一个容量巨大、聚集性强的大数据基础架构。IBM基于Hadoop、流计算、数据仓库等开发的Infosphere Stream和Big Data,被政府机构和商业组织广泛应用于海量实时数据源的分析和可视化、二次应用程序开发和系统管理等。
2009年,美国政府“一站式数据下载”网站data.gov正式上线,并作为向政府透明化和问责制迈进的一个步骤。该网站包括了420894个数据集(截至2012年8月),囊括了交通、经济、医疗、教育和人口服务等方面的数据。数据来源于多个方面,其中1279个由政府提供,236个由居民提供,103个由移动设备提供。2010年,美国总统科学技术顾问委员会(联邦政府协调非分类网络和信息技术投资的主要机构)在《规划数字化的未来》中建议:“联邦政府的每一个机构和部门,都需要制定一个应对‘大数据’的战略。”这标志着大数据时代已经正式来临。
2012年,奥巴马政府颁布了《大数据的研究和发展计划》,同时组建“大数据高级指导小组”,以协调政府在大数据领域的2亿多美元投资,旨在通过提高从大型复杂的数字数据集中提取知识和观点的能力,进而加快美国在科学与工程中的步伐,加强国家安全。此举标志着美国把应对大数据技术革命带来的机遇和挑战提高到了国家战略层面,形成了全体动员格局。这个数额高达2亿美元的投资计划涉及多个联邦部门和机构,包括白宫科学技术政策办公室、美国国家自然基金会、美国国立卫生研究院、美国国防部、美国能源部、美国卫生与公众服务部、美国地质调查局等机构。这个投资项目的主要目的是提高大数据核心技术的发展水平,加速科学和工程开发,加强国家安全,转换大数据教育和学习方式,扩展开发和使用大数据技术的工作力量。
在2012年,美国国家科学基金会联合美国国立卫生研究院(NIH)实施了提高大数据科学与工程核心技术规划,目的在于推进从大量、多样化、分布式、异质性的数据集合中管理、分析、可视化和提取有用信息的核心科学技术。截至2014年2月,美国国家卫生研究院(NIH)在亚马逊网络服务中心已经积累了数以百万亿字节的人类遗传变异数据,研究人员因此能获得和分析巨量数据,而不用再去发展自身的超级计算能力。
美国其他政府机构也开始进行大数据分析。美国国家税务局已经在它的返回审查程序中集成了大数据分析能力。通过分析大量的数据,美国国家税务局能够检查、预防和处理避税和诈骗案。美国国防部也在大数据相关项目中花费了数百万美元,其目标之一就是利用大数据发展自主机器人系统(学习机器)。
美国地方政府同样开发了大数据项目。例如,在2011年,美国纽约州锡拉丘兹市政府与IBM合作开展了一个智慧城市项目,使用大数据帮助预测并阻止住宅空置。密歇根州政府信息技术部构建了一个数据库,提供密歇根州居民的相关信息,以便政府机构提供更好的服务。
在美国政府的实际运作中,大数据技术已经进入了应用阶段。美国中央情报局的首席技术官格斯·汉特在一次讨论会上透露了大数据技术对追踪恐怖分子和监控社会情绪的作用,就像可口可乐等消费公司借助数据分析掌握消费者习惯一样,中情局也通过大数据技术来寻找恐怖分子的踪迹。
麦肯锡全球研究所的一份报告说,美国需要150万精通数据的经理人员,以及14万至19万深度数据分析方面的专家。目前,已有美国大学专门开设了研究大数据技术的课程,培养下一代的“数据科学家”,一些美国公司也在向大学提供研究资助,并赞助与大数据有关的比赛。目前美国正在握紧大数据这个人类科技领域的最新仪表盘,以求继续保持科技领先地位。
欧盟
2010年,欧盟正式发布“欧洲数字化议程”,旨在建立一个统一的“数字市场”,推动欧盟内部高速和极速互联网互联互通和应用共享,进而促进欧盟经济社会可持续发展,造福欧盟人民。2012年,欧盟委员会在“欧洲数字化议程及其挑战”中制定了大数据战略,并强调了公共数据安全及挖掘公共机构数据的价值潜力,同时满足日益强烈的对个人数据安全保护的诉求;发展物联网,确保网络安全及在线交易的数据处理安全。
以英国为例。英国政府是最早推进大数据规划的欧洲国家。2004年,英国设立了水平扫描中心(HSC)项目,以提升政府处理跨部门和多学科挑战的能力。2011年,水平扫描中心(HSC)启动“气候变化的未来国际影响”计划,通过对多数据源进行深度分析,研究解决气候变化对食品和水的可获得性,以及对地区或国际形势的影响等问题。英国政府发起的另外一个项目是,2009年建立了
此外,荷兰、瑞士、英国和其他17个国家与IBM共同合作开发了一个名为DOME的超级计算系统项目。该系统每天能处理超过1EB的数据,数据来源于射电望远镜平方公里阵列(SKA),旨在通过探索百亿亿次的计算、数据传输和存储等新兴技术,以及对每日采集的数据流进行读取、存储和分析,解决一系列宇宙科学问题。这个大数据项目的总部位于英国曼彻斯特的Jodrell Bank天文台。
虽然经济不景气,财政被迫收紧,但大数据依然是英国政府舍得一掷千金的“宠儿”。2013年初,英国商业、创新和技能部宣布将注资6亿英镑,发展8类高新技术,大数据独揽1.89亿英镑,远超其他高新技术。负责科技事务的大臣戴维·威利茨说,政府将在计算基础设施方面投入巨资,同时吸引企业在这一领域的投资,从而在数据革命中占得先机。
一份政府报告详细地阐述了英国发展大数据技术的潜在优势。报告称,英国擅长处理不同大数据集的算法,在数学和计算机科学领域拥有特长,而且在医疗保健、人口统计、农业和环境领域拥有世界上最好、最完整的数据集。威利茨说,政府要利用好这些优势,必须加大对关键研究领域的支持力度,同时推动新技术从实验室走向商业应用。
大数据创造价值基于这样一个核心逻辑,即当今社会的决策行为越来越取决于数据和分析,而不再是经验和直觉。因此,大数据技术可以为决策提供一定的“预见参考”,而成功的分析和预见往往能带来商业和经济价值。大数据技术创造价值的能力已经在英国崭露头角。一份行业报告显示,英国政府通过高效使用公共大数据技术每年可节省约330亿英镑,相当于英国每人每年节省约500英镑。再以连锁零售业为例,英国最大的连锁超市特易购已经开始运用大数据技术来采集并分析其客户行为信息数据集,以此制订有针对性的促销计划、调整商品价格。这种“有的放矢”的营销和定价模式为特易购提供了更加高效的盈利方法。
韩国
2011年,韩国总统国家ICT战略委员会发布了“大数据倡议”。该委员会是最高层次的政府信息通信技术协同机构,其使命是在建立必要的基础设施过程中发挥领导作用。“大数据倡议”旨在建立泛政府大数据网络和分析系统,推进政府与私有部门之间的数据共享融合,建立公共数据诊断系统,培养和培训合格的大数据专业人员;保障个人信息安全,以及改善相关法律,发展大数据基础设施和技术,发展大数据管理和分析技术。
很多韩国的政府机构已经提出了相关的行动计划。例如,韩国卫生部建立了社会福利综合管理网络,分析来源于35个机构的385个不同类型的公共数据,综合管理中央政府和地方政府提供的福利和服务。食品、农业、森林与渔业部、公共行政与安全部(MOPAS)计划推出预防手足口病的综合系统,该系统依托于分析动物疾病相关的海外大数据、海关出入境记录、养殖场的跟踪调查、牲畜迁移和养殖工人活动等相关的大数据,实现预防目的。MOPAS的另一计划是推出灾害预报系统,该系统基于过去的灾害记录和自动实时的天气和地震预报进行预测。此外,韩国生物信息中心计划开发和运营国家DNA管理系统,该系统集成大量的DNA和病人医疗信息,为个人提供个性定制化的诊断和治疗。
新加坡
2004年,针对国家安全、传染病和其他国家层面关心的问题,新加坡政府与国家安全协作中心合作发布了风险评估和水平扫描计划(RAHS),通过对大数据的采集和分析,积极把控威胁国家安全的相关问题,包括恐怖袭击、传染病传播和金融危机等。风险评估和水平扫描计划实验中心(REC)于2007年开放,它聚焦于风险评估和水平扫描计划相关政策制定的新技术工具,并通过大数据基础设施系统升级来维持和强化这一能力。为通过大数据研究、分析和应用创造价值,新加坡政府还推出了门户网站
日本
日本政府也已启动多个利用既有大数据的计划,成立了一个大数据专家组。从2005年到2011年,文部科学省与相关的大学和研究机构合作,设立了信息爆炸时代的新IT基础设施项目。从2011年起,政府优先解决地震、核电站灾难和受污染区域的重建和灾民安置,以及相关的社会和经济救济。文部科学省与国家科学基金会合作提高研究和利用大数据的技术,以预防、减轻和管理自然灾害。作为内务省的两个分支机构,信息和通信委员会与ICT战略委员会把“大数据应用”作为日本面向2020年的关键使命。
澳大利亚
澳大利亚政府信息管理办公室(AGIMO)实施政府2.0计划,为公众获取政府数据提供了渠道,政府2.0计划推出了
综观上述大数据应用领先国家的大数据应用计划有三个显著特点:首先,现有的大多数大数据项目充其量只是数据量较大的应用。这些国家的政府大数据应用项目,大部分是基于共享存储的结构化数据库,并不使用实时、动态和非结构化或半结构化的数据。第二,公共部门致力于规范大型而复杂的数据集,政府期望大数据应用来提升政府服务民众的能力,以及解决国家面临的重大挑战问题,包括经济、医疗、就业、自然灾害和恐怖袭击等。然而,大部分大数据应用于居民(参与到公共事务)和商业部门,而不是政府部门。第三,政府设立的大部分大数据项目刚刚开始或计划未来实施,美国国家科学基金会和国家卫生机构的大数据计划就是如此。这意味着,大数据在政府部门的应用仍然处于发展的初级阶段,只有少数项目在运营(比如美国的RRP、新加坡的RAHS和英国的HSC)。
大数据关乎国家安全和竞争力
可以说,大数据的最大效应是“为我们创造了一个‘共同的世界(Common World)’,一个我们无论如何都只能共同分享的世界”[3]。以前,当一个国家想得到另一国的情报,特别是关乎民心、民情、民意方面的去向的情报,需要派出大量的情报搜集人员到该国潜伏调查,进行长期的情报收集和分析。但现在要想获得这些方面的信息,已无须大费周折。互联时代的国界已经慢慢模糊,只要对一个国家地理范围之内的民众在互联网论坛、微博上的留言、跟帖、搜索记录等关键字进行分析,就能获知该地的民意动向、政治局势。那些在大数据技术领域处于落后状态的国家,将在未来置身于一个被他国监控的弱势状态之中。
2014年2月27日,中共中央成立了网络安全和信息化领导小组,中共中央总书记、国家主席习近平任组长,他在讲话中强调“信息资源日益成为重要生产要素和社会财富,信息掌握的多寡成为国家软实力和竞争力的重要标志”。
《孙子兵法》说:“多算胜,少算不胜。”关于大数据的名著《大数据时代》提到:“未来,数据将会像土地、石油和资本一样,成为经济运行中的根本性资源。”而在大数据时代,决定能否“多算”的重要因素在于,掌握数据的多少以及对数据处理能力的高低。有了大数据对象、大数据处理与应用的技术,再与各类实际应用需求相结合,大数据将给经济社会发展带来巨大影响。大数据将提升电子政务和政府社会治理的效率。大数据的包容性将打开政府各部门间、政府与市民间的边界,信息孤岛现象大幅消减,数据共享成为可能,政府各机构协同办公效率和为民办事效率提高,同时大数据将极大地提升政府社会治理能力和公共服务能力。
数据已经渗透到各个行业和业务职能领域,对数据的科学运用将成为国家竞争力的重要组成部分。大数据时代,政府的重要职责不仅仅是强化自身对数据的开发利用,更重要的是推动大数据产业的发展和全社会的大数据应用。
目前,大数据所蕴含的战略价值已经引起多数发达国家政府重视,这些国家相继出台大数据战略规划和配套法规促进大数据应用与发展。在政府大数据战略部署和政策推动下,发达国家的政府部门、企业、高校及研究机构都开始积极探索大数据应用。
例如,美国大数据战略发布后,12个联邦部门启动开展了82个大数据相关项目,涵盖了国防、国土安全、国家安全、能源、医疗卫生、食品药物、航空航天、人文社会科学、地质勘查等众多领域。企业借助大数据政策的东风,强化对大数据的技术研发和创新应用。
大数据时代,国家影响力和主导权体现在了对数据的掌控上。由于大数据将改变国家治理架构和模式,在大数据时代,用大数据可以通过对海量、动态、高增长、多元化、多样化数据的高速处理,快速获得有价值信息,提高公共决策能力。在竞争层面,国与国竞争焦点正从对资本、土地、人口、资源能源的掌控转向对大数据的掌控。对大数据的开发、利用与保护的竞争也越来越突出。有一种观点甚至认为,制“数”权将成为继制陆权、制海权、制空权之后的新制权。大数据时代中将会出现“数据强国”与“数据弱国”的区分,而不再像以往那样以土地面积、人口数量、经济规模等来作为国家竞争的关键因素。
在商业层面,大数据时代,获取通信、金融、买卖数据流也是企业制胜的关键。知识产权资产的核心内容将变成海量数据;数据将取代专利、商标、版权等,成为最主要、最重要的一种知识产权。随着大批科技企业签署交叉许可协议,放弃专利竞赛,投身大数据竞赛,西方大国的知识产权战略自然也将蜕变为大数据战略。
在安全层面,“大数据安全”已经影响国家战略安全。大数据时代,网络空间中,诸多涉及国家安全的机密数据的安全随时都可能受到威胁。各种国家信息基础设施和重要机构所承载着的庞大数据信息,如由信息网络系统所控制的石油和天然气管道、水、电力、交通、银行、金融、商业和军事等,都有可能成为被攻击的目标,大数据安全已经成为国家安全中一个极为关键的组成部分。
例如,过去美国一直借助互联网手段和信息技术对全球数据情报进行监控,确保自身在网络空间和数据空间的主导地位。其中尤以“棱镜计划”为重。棱镜计划(PRISM)是一项由美国国家安全局(NSA)自2007年小布什时期起开始实施的绝密电子监听计划,该计划的正式名号为“US-984XN”。英国《卫报》和美国《华盛顿邮报》2013年6月6日报道,美国国家安全局(NSA)和联邦调查局(FBI)于2007年启动了一个代号为“棱镜”的秘密监控项目,直接进入美国网际网路公司的中心服务器里挖掘数据、收集情报,包括微软、雅虎、谷歌、苹果等在内的9家国际网络巨头皆参与其中。大数据革命对于美国实现这一战略目标来说,是一个“利器”,可以大幅提升自身的全球数据采集能力、监控能力、分析能力。但对于别的国家而言,则会对大数据安全、大数据资产流失造成更大风险。根据“棱镜门”事件披露信息,美国政府和互联网、大数据领军公司紧密结合形成“美国数据情报联合体”,共同对全球数据空间(多种格式的数据信息)进行整体性监控分析,形成“数据霸权”。
正是由于大数据正在改变各国综合国力,重塑未来国际战略格局,2013年7月,习近平视察中国科学院时指出:“大数据是工业社会的‘自由’资源,谁掌握了数据,谁就掌握了主动权。”
大数据还重新定义了各个大国博弈的空间。在大数据时代,世界各国对数据的依赖快速上升,国家竞争焦点已经从资本、土地、人口、资源的争夺转向了对大数据的争夺。习近平在中央网络安全和信息化领导小组第一次会议上指出:“网络信息是跨国界流动的,信息流引领技术流、资金流、人才流,信息资源日益成为重要生产要素和社会财富,信息掌握的多寡成为国家软实力和竞争力的重要标志。”未来国家层面的竞争力将部分体现为一国拥有数据的规模、活性以及解释、运用的能力,而数字主权将成为继边防、海防、空防之后另一个大国博弈的空间。
鉴于大数据潜在的巨大影响,很多国家或国际组织都将大数据视作战略资源,并将大数据提升为国家战略。2012年3月,美国奥巴马政府宣布了“大数据研发计划”,并设立了2亿美元的启动资金,希望增强海量数据收集、分析、萃取能力,认为这事关美国的国家安全和未来竞争力。迄今为止,美国在大数据方面实施了三轮政策,开放了50多个门类的政府数据确保商业创新。欧盟正在力推《数据价值链战略计划》为320万人增加就业机会。日本积极谋划利用大数据改造国家治理体系,对冲经济下行风险。联合国推出的“全球脉动”项目,希望利用“大数据”预测某些地区的失业率或疾病爆发等现象,以提前指导援助项目。
国际金融危机以来,大数据上升至国家战略已经达成共识,大数据是未来大国间战略博弈的决胜关键。大数据引发的经济社会革命才刚刚开始,这是一场关乎中国前途未来,涉及利益深刻调整的革命。新一轮大国竞争,并不只在硝烟弥漫的战场,还通过大数据对整个世界局势产生影响力和主导权。
中国需要加快形成大数据国家战略。着力规划“大数据战略”中长期路线图与实施重点、目标、路径,统筹布局,加快大数据发展核心技术研发,推进大数据开放、共享及安全方面的相关立法与标准制定,抢占新的全球科技革命和产业革命战略机遇期,重构国家综合竞争优势已经迫在眉睫。
近年来,“大数据”议题已经成为了国务院常务会议的座上客,“大数据”战略早露端倪。2014年7月23日,国务院常务会议审议通过《企业信息公示暂行条例(草案)》,推动构建公平竞争市场环境。其中要求建立部门间互联共享信息平台,运用大数据等手段提升监管水平。2014年9月17日,部署进一步扶持小微企业发展,推动大众创业,万众创新,其中包括加大服务小微企业的信息系统建设,方便企业获得政策信息,运用大数据、云计算等技术提供更有效服务。2014年10月29日,要求重点推进六大领域消费,其中强调加快健康医疗、企业监管等大数据应用。2014年11月15日,提出在疾病防治、灾害预防、社会保障、电子政务等领域开展大数据应用示范。2015年1月14日,部署加快发展服务贸易,以结构优化拓展发展空间,提出要创新模式,利用大数据、物联网等新技术打造服务贸易新型网络平台。2015年2月6日,确定运用互联网和大数据技术,加快建设投资项目在线审批监管平台,横向联通发展改革、城乡规划、国土资源、环境保护等部门,纵向贯通各级政府,推进网上受理、办理、监管“一条龙”服务,做到全透明、可核查,让信息多跑路、群众少跑腿。2015年7月,国务院办公厅印发的《关于运用大数据加强对市场主体服务和监管的若干意见》提出,要提高对市场主体服务水平;加强和改进市场监管;推进政府和社会信息资源开放共享;提高政府运用大数据的能力;积极培育和发展社会化征信服务。
大数据是每个人的大数据,是每个企业的大数据,更是整个国家的大数据。中共中央“十三五”规划建议提出:“实施国家大数据战略,推进数据资源开放共享。”“十三五”规划建议可谓是吹响了向大数据进军的号角,随着国家大数据战略的实施,基于大数据的智慧生活、智慧企业、智慧城市、智慧政府、智慧国家必将一一实现。
注释
[1][美]斯蒂芬·贝克:《当我们变成一堆数字》,张新华 译,中信出版社,2009年7月。
[2]何智勇、王帆:《新余迈入数字化办公时代》,《江西日报》2015年1月3日。
[3][德]贝克、邓正来、沈国麟:《风险社会与中国》,《社会学研究》2010年第5期。