大数据不是未来的某个概念,而是一步步出现在人们生活的每一个角落中,它已经对人们的生活开始产生重大的影响。敏感的企业、政府正在着手为统计、分析海量的数据,认识数据产生的统计分析结果而转变自己的工作方式方法。
未来的先兆——大数据
凡事发生前都会有先兆。现实生活当中,许多事情由于无法实时记录,看上去就好像是“人似秋鸿有来信,事如春梦了无痕”那样。互联网在实时记录方面则是“处处痕迹处处痕”。如果上网买东西,一定会先浏览、对比,再询价,如果上网搞活动的话,一定要经过征集、讨论和策划的整个过程。互联网通过服务器实现了“请求”+“响应”机制,人们大量带有先兆性质的行为数据被保留了下来。搜集完这些数据要进一步进行分析,而这些大量数据后面隐藏着的因果关系也就会被计算出来了。因此这当中的规律或被神秘化,或被庸俗化。
一切事情一定是在蛛丝马迹的先兆出现后才会发生。试想人们买一只股票之前一定会先关注一下它的走势;人们要买一样东西,也一定要先去询问一下商品的价格;人们很难会没有事先沟通而聚在一起;倾盆大雨下下来之前一定是非常闷热的天。很多书籍和文章更是大肆渲染地震前的各种奇怪的先兆。
倘若这些先兆都能被一种技术全部记录下来的话,那么显然人们都可以成为预言家。这种技术其实就是大数据技术,它们能够收集各种类型的数据,并基于数据进行分析统计,还能预测未来。和一般的信息技术相比,大数据影响的范围更广,程度更深。
IBM公司曾有一则广告,它说道:“曾经我觉得追捕罪犯是我的工作,可是现在我重新认识了我的工作。通过分析犯罪数据来识别犯罪的模式,并由此来部署警力。这样一来美国大部分城市的重大犯罪率可以降低30%。案发之前,终结犯罪。”显然它是在利用大数据的宣传企图构筑智慧的地球。
在阿里巴巴平台的网站数据中发现,很多买家在购买商品之前会在众多供应商中货比三家,特别是查询点击的数量和购买的指数两者之间会总结出一个相对的比例,例如“2008年初,阿里巴巴网站上买家的询问量锐减,欧美的中国采购数量也随之下滑。我们比海关提前半年就已经从买家询问的数据中推算出来了世界贸易的变化,海关则必须卖了货才能得到数据。”历史上买家、卖家询问和成交的数据,统计后就能形成询问、成交的指数,两者之间有着密切的相关。作为先兆性的数据询问指数,有了活跃的询问指数才会出现巨大的成交量。马云开始发现询问指数有了异常的下滑之后,就自然而然地能预测成交量一定会萎缩。要是没有大数据的统计和分析的话,这种推测是很难做出的。马云因为向中小制造商提前预告了这一趋势而获得了非常高的声誉。
2012年6月28日,中国建设银行推出了自己的电子商务金融平台——“善融商务”。建设银行对此项业务的宣传语是:“顺应电子商务发展潮流,建设银行推出善融商务,它结合了传统金融服务优势和新兴电子商务服务的优势,从而搭建了最具综合性,涵盖全流程的电子商务服务平台。”建行内部花了很大的气力推广这项业务,尤其是分行,它们甚至是牺牲成本也要将中小商家引入平台。尽管银行推出电子商务平台,看似并非其主业,但实际上这当中正是醉翁之意不在酒。银行通过交易平台来收集各类中小商家的经营数据,推测其还款能力和贷款需求,这样就能避免小额贷款的风险。无论建行这一次是否能成功,都说明银行的高层已经意识到大数据的重要性以及其作为先兆对于结果的预测。建行已经认识到了大数据的统计分析可以为其带来低风险和高收益,这几乎是每一家金融机构的梦想。俗话说:富贵险中求,以往必须是高风险才会带来高收益。但是当大数据的时代来临,低风险也能带来高收益,这也难怪有那么多金融机构趋之若鹜了。金融机构如果还不重视大数据背后的巨大价值的话,那么在21世纪的今天就很难在激烈的竞争中有自己的一片立足之地。
截止到2011年,互联网全球用户量已经超过了20亿。2005年RFID标签保有量仅为13亿个,这一数字到2010年就已经增加到了300亿个。从2003年到2006年,资本市场的数据增长了17.5倍。新浪微博现在每天发布的微博数量已经超过了1亿条,Facebook每天处理的数据大概为10TB,世界气象中心所积累的Web数据约为220TB,还有其他类型的数据也有8PB,等等。
国际数据公司(IDC)的《数据宇宙》报告指出,2008年全世界的数据量只有0.5ZB,到了2010年就增长到1.2ZB,从此人类走进了ZB时代。更可怕的是,从现在开始到2020年,全球数据量的年增长量都将保持在40%左右,也就是说大概每两年数据量就会翻一番。IT界此前有一个摩尔定律众人皆知,这个“大数据爆炸定律”与之极为相似。预计到了2015年全球的数据量总数要达到7.92ZB,2020年会超过35ZB,那时候的总量会是2008年的70倍,2011年的29倍。
互联网数据中心发布的《中国互联网市场洞见:互联网大数据技术创新研究2012》报告指出,到2011年底,中国国内的互联网行业已经持有1.9EB的数据总量,而这一数据到2015年将达到8.29EB以上。
人类社会的数据量随时间流逝不断地在刷新数据量级单位,从最初的TB、PB、一直到现在的EB、ZB。那么35ZB和8.29EB到底意味着什么呢?这样,先来看看数量量级单位之间的进制吧。
1B=8 bit
1KB=1024B≈1 000 byte
1MB=1024 KB≈1 000 000 byte
1GB=1024 MB≈1 000 000 000 byte
1TB=1024 GB≈1 000 000 000 000 byte
1PB=1024 TB≈1 000 000 000 000 000 byte
1EB=1024 PB≈1 000 000 000 000 000 000 byte
1ZB=1024 EB≈1 000 000 000 000 000 000 000 byte
1YB=1024 ZB≈1 000 000 000 000 000 000 000 000 byte
《红楼梦》整本书含标点的话共有87万字,依照数据计算方式的话,一个汉字等于是2B,这样的话,1EB就大概是6626亿部《红楼梦》的数据量。美国国会图书馆是全球最重要的一个图书馆,也是美国四个官方图书馆之一。一直到2011年4月,该图书馆共有1.5亿册藏书量,大致数据量为235TB,那也就是说1EB相当于4462个美国国会图书馆的所有馆藏数据量。
大数据带来的经营理念的转变
一部关于奥克兰运动家棒球队的电影《点球成金》中就有球队通过统计学和数学建模的方式来获得比赛胜利的桥段。其中有一个非常有意思的场景。几个灰白头发的老球探坐在一起开始对球员进行评头论足。观众看到这里难免会有畏缩,因为人类在做决定的时候,往往非常草率。
其中一个球探说道:“这个很有天赋,不错,而且外在也不错。”
“他击打动作也很好,只要碰到球就会弹出去很远。”一个满头白发,还戴着助听器的老人附和着说。
还有另一个球探也说:“击打声音很大。”
“不过他女朋友不够漂亮。”一位球探打断了他们的谈话。
会议负责人听了后说:“这是什么意思呢?”
这个人听完肯定地说道:“女朋友不漂亮就说明缺乏自信啊!”
负责人似乎很满意这个答案,说道:“很好!”随后会议继续。
玩笑了一会儿之后,之前始终沉默的一个球探说:“这人的气场很强大。我要说的意思是我在他上场之前就已经感受到了他的气场了。”
“他的长相也不错,通过了长相测试。他需要的只是时间,因为他随时都能成为一名好的球员。”还有一个人附和着说道。
那个经常都有不同意见的人一直在说:“我的意思是他女朋友的长相实在一般。”
这场景中的所有判断都说明了人类判断的误区,事实上,这个推断完全是在毫无实际标准的情况下做出的,尽管它披上了理智讨论的外衣。一个拥有几百万美元身价的球员,决定是否签约似乎也没有客观的依据,而是依靠感觉。这个场景虽然只是电影中的场景,不过日常生活中也非常常见。之所以说此场景有趣,正是由于其具体现实中普遍存在的特点,无论是曼哈顿的会议室,美国总统办公室,或是街角咖啡馆,各种凭感觉推断的情形皆存在。
电影《点球成金》中的故事来源于迈克尔·刘易斯的小说《魔球——逆境中制胜的智慧》。小说讲述的是一个关于奥克兰运动家棒球队(还有人称之为绿帽队或是白象队)真实的故事,主要介绍了棒球队的经理比利·比恩(Billy Beane)的经营哲学,他在经营球队的过程中摒弃了以往挑选球员的传统方法,换用了一种依靠数学建模和电脑程序的数据来挑选球员的做法。他的这个方法看似很奇怪,有些类似于“上垒率”的标准,而不是以往所用的“棒球击球率”的惯用标准。这方法虽然挖掘了这个项目的一个方面,却忽略了另一个始终存在的方面。球员的上垒其实并非最重要的,不论是地滚球还是三垒跑,无非只要是上垒即可。因此,当比赛非常精彩,可是数据表明透垒不是太管用的时候,比利也不会太关心这项中看不中用的技能的。
比利所推行的“赛伯计量学”(Sabermetrics)尽管招来了众多的质疑,但还是在奥克兰运动家棒球队中被严格执行着,它的命名是来自在美国高级棒球研究协会(Society for Advanced Baseball Research)工作时的体育新闻记者比尔·詹姆斯(Bill James)。一直到现在,在美国高级棒球研究协会当中始终存在着非常奇妙的亚文化中心。比利和当年用“太阳中心说”来挑战天主教权威的伽利略一样,打破了所有惯例。最后,比利的奥克兰运动家棒球队在2002年的美国联盟西部赛中摘得桂冠,此外还取得了20场不败的骄人战绩。也就是从那时起,球探不再吃香,取而代之的是统计学家,他们成为了成了棒球专家,不少球队都将“赛伯计量学”用于球队的运作。
大数据所做出的贡献还包括了从依赖自身判断转化为依赖数据做判断。统计学家和数据分析家的出现使得很多行业专家和技术专家的光芒黯淡了许多,前者摆脱了传统观念的束缚,依靠数据进行统计分析得出判断。在数据相互关系基础上,判断是不会受到偏见和成见的影响的,这和莫里中校从来不认为在酒吧中喝酒的干瘦船长所说的航道信息为真是一样的道理。他们的判断来自收集的所有数据背后隐藏着的信息,也就是说一切分析都有根有据。而莫里的方法当中对于风向和水流为什么如此并没有具体解释,可是一次安全的航海旅程,似乎“去哪里”和“是什么”远比“为什么”重要得多。
现在,各种专家在自己领域的影响力逐渐削弱,这是我们每个人都能看得到的。媒体界,如“赫芬顿邮报”(Huffington Post)和高客网(Gawker)网站上的新闻已经同编辑的新闻敏感度不再有关,而是来自数据的结果。相比资深的记者,数据选出来的新闻似乎更合大众口味。一家名为Coursera的网络教育公司,对其收集来的数据进行深度分析,如哪个讲座的片段是学生重放最多的,他们会找出其中的原因,或讲得不够明确或是不够吸引人,再将最终的结果反馈给课程设计团队。这在以前是难以想象的,而现在教学方法也因此必须发生改变。如前文提到的,贝索斯在发现销量增加由算法来推动的时候,就已经放弃了公司的书籍评论员了。
这说明要在职业领域取得成功,必须做到与时俱进,只有做到这一点的员工才是公司最想要的员工。安大略的麦格雷戈医生所采用的治疗方法来自近十年以来病患数据进行电脑分析处理之后所推荐的,尽管她不是医院医术最为高明的医生,更不是产前护理的世界权威,但总能通过该方法为早产儿提供最好的护理和治疗。事实上,她是一名计算机科学专业毕业的博士。
事实上,最初在大数据上尝到甜头的人似乎都不来自他们做出巨大贡献的领域,他们可能是数据分析家、数学家、统计学家、人工智能学家等等,可是这项技能却在他们的推广之下运用到了各个领域当中。Kaggle的首席执行官安东尼·戈德布鲁姆(Anthony Goldbloom)曾提到,通常来说,在大数据竞争平台上获得成功的人和自己做出成绩的领域总是不相关的。
曾有英国的物理学家差一点就通过设计一个算法系统用于预测保险索赔和二手车质量问题之间的关系而获得成功,还有一个来自新加坡的精算师,也通过预测人体对化合物的生理反应项目大获成功,在谷歌的机器翻译团队中,很多工程师翻译出来的语言甚至他们自己也不懂。除此以外,还有来自微软翻译部门的统计学家,他们经常谈论的居然是只要有语言学家离开他们的团队,他们所得到的翻译质量就会提升一点。
因此行业专家的主导地位会逐渐被动摇,只不过他们不会完全消亡。未来同他们平起平坐的是那些大数据人才,这就好比是清高的因果关系和卑微的相互关系两者终于站在了同一高度一般。关于知识的价值要重新审视,尽管从前专业人才似乎要比全才更受重视,大众普遍认为财富来源于深度。可是这或许是小数据时代的产物,专业技能就代表着精确性,那时候人们还无法掌握和获得足够多的数据,也不够准确,所以直觉和经验都是判断的依据。那是个经验先决的时代,唯有从书本和别人口中,以及在潜意识中的知识积累才是做出明智决定的最终依据。
当海量数据开始冲击人们的时候,人们就可以从数据当中挖掘出更多的信息。大多数数据学家都将以往的方式视为迷信,这并非他们不屑,而是他们手中掌握了从前不具备的财富来源——大数据。作为一个外行人,行业内本身存在的争论无法将他们束缚,他们同行业专家不同的是他们绝不会因为自己支持的那一方观点而导致偏见。这样的结果也证明了衡量员工对公司所做的贡献多寡的标准也在发生着改变。这也意味着每个在职场上的人,要学什么,了解什么,甚至是为职场要做什么准备等等都有了改变。