书城计算机网络一本书读懂大数据
24612700000003

第3章 身处数据时代,揭开大数据的面纱(2)

大数据方式下的云计算

消费者会觉得大数据和云计算很无聊,可是对于Delphix来说却是一座宝藏,因为它正在利用这种技术进行敏捷数据管理。

Delphix不需要部署冗余的基础设施在自己的敏捷数据管理解决方案之上,还能同时提升流程的速度。客户因此能更为快捷地完成交付使用。其实敏捷数据管理就是企业数据库内虚拟化数据,再提高数据库驱动型应用的开发敏捷性质,因此使数据库和应用管理都发生大的改变。企业的数据库被Delphix放到了云上,再通过数据同步和虚拟化技术交给适当的人最恰当的数据。Delphix宣称有了应用交付解决方案后,应用项目的进度会提升5倍之多,成本会减少90%,事实上2010年Delphix面世后的销售增长率达到了300%。

成立于2010年的Delphix,2012年6月它的C轮融资就完成了2500万美元。这一次融资的领投是Jafco Ventures,投资人中还有Greylock Partners。迄今为止Delphix总融资金额高达4550万美元。公司依赖其“敏捷数据”拿到了超额认购。企业数据库的数据在“敏捷数据”的虚拟化作用下,增强了数据驱动应用的敏捷性,经济数据库和应用管理速度也提升了。

不少企业都把自己的目标设定为借由一个强大的平台来实现品牌推广,可是很多社交网站的数据还是找不到可行的商业模式,因为预期真正得以实现的不多。不过社交数据公司在不断发展壮大,可以想见不远的将来社交网站的影响力利用问题不会再是遥远的梦想。

像是纽约的SumAll公司期望就是要带给每个客户“小而美”的数据。SumAll所提供的平台在于提供给中小企业实时的数据服务,利用桌面、iPhone和安卓系统来访问,可以看到很多可视性的大量数据,也就更便于阅读和观看。SumAll在和Shopify、PayPal和Magento合作电子商务和支付系统的时候,用户点击几下就能完成账户的集成工作。SumAll对于实时数据的分析很快速,再为用户提供一个如社交媒体式的“新闻订阅”一样的简洁分析和见解。SumAll还会为客户提供深入挖掘税收、发货和出售量的服务,甚至连对客户依照不同标准的排序分析也可以完成。

2011年11月成立的SumAll,在2012年6月著名风险投资公司Battery Ventures牵头联合Wellington Partners、Matrix Partners和General Catalyst Partners为SumAll投资了150万美元的种子期融资。SumAll到2012年12月对外宣布获得了600万美元的A轮融资,还是Battery Ventures联合Wellington Patners对其进行投资。目前设在纽约总部的公司有25名员工。

还有Ngdata公司,企业用户和他们的消费者通过它们能够进行一对一的营销模式提供和得到最好的建议和产品。Ngdata曾推出过一个产品Lily集成了内外部的结构化和非结构化的数据。Lily还可以用人工智能拍照工具对消费者的习惯和爱好进行记录。正在快速成长的大数据市场,对企业的价值越来越大了,企业对市场的评估和行为的预判都要通过这些数据分析。ING的投资总监Tom Bousmans说过,消费者所产生的数据有上亿个,企业都可以通过这些来了解用户需求,彼此间还有个性和动态的互动。

成立于2009年的Ngdata的员工现有20名,它们还有类似Wibidata和Spire这样的竞争对手。Ngdata与竞争对手的不同在于它能够提供企业与消费者实现互动的数据解决方案,不仅是单纯专注在大批量数据分析之上。2012年10月Ngdata获得了250万美元的融资。这一次融资的资金主要来自ING、Sniper investment、Plug and Play Ventures等投资机构和一些天使投资人,这份资金将帮助Ngdata推广个性化产品线的拓展,并在纽约和旧金山专门为美国客户设立服务办公室。

Attivio的创始人Ali Riaz觉得企业用户每发送一条查询请求的时候,得到的信息都是具有洞察性的,绝非罗列出来的链接或是一张简单的图表。它回答的问题不仅是“是什么”还有“为什么”,就比如销售量下降是市场需求下降还是销售人员表现不够突出造成的。

任何一家企业要做的工作都是市场营销。近几年社会化媒体的兴起,让营销业者的注意力都集中在了数字营销之上,不过对于这个领域营销人员还欠缺有效的分析。Good Data公司正是瞅准这一商机,开始为营销人员提供集成服务,让他们可以利用微博等社交网络平台进行深度的分析。

大数据的奥秘

事实上并不是说大数据的处理就有多困难。收集一些数据,企业的分析专家团队就可以开始进行数据价值的探索。企业要做的就是要让分析专家团队最近地去接触那些数据,接下来的工作才是开始进行分析探索。要相信分析专家和数据科学家们都会很好地做好他们应该完成的工作。

一个很老的拇指法则指出,分析数据的工作的时间中有70%~80%都花在了收集和整理之上,剩下的20%~30%的时间才是真正的分析。大数据在刚开始处理的时候,分析时间所占的比例就更低了。一开始分析专家会用95%左右的时间来处理数据,甚至有时还会达到100%,接下来才会思考这些数据如何用来做更为深层次的分析。

上述做法必须得到理解。首先分析数据的流程中最重要的一环就是要先弄明白数据源的本质。对它们的表现、调整加载情况过程反复地进行检查,才能保证选择出能够更好地服务于目标的数据,虽然有很多数据并不那么吸引人或是令人兴奋,可确实是选出了最重要的数据。要是这些步骤都被忽略的话,那后面的分析环节就不能继续。

大数据中最优价值的部分被确定了,也就能确定用什么办法选择提取这些最优且精确的部分,这是最为关键的环节。这一环节必然是非常耗时的,尽管是花了比预计还要多的时间,也不用为此懊恼。因为企业的分析专家和业务赞助商是需要在弄明白数据源的过程中寻找一个代价最小、见效最快的方式。不论这东西是不是微不足道,但要给企业展示的一定是最有价值的东西。人们可以因此对此过程保持最高的兴趣,并协助其他人理解进展的过程。

大数据要如何应用到业务中,这是个非常耗时耗力的过程。在这一过程中,企业的分析专家和业务赞助商总是想要找到最有效的方式,为企业展示这方面的进展,并以此来赢得最稳定的回报。

举个欧洲零售商的例子,公司总想获得最为详尽的网络日志数据。公司在经历了一个漫长且复杂的收集数据的过程后,开始实施了一系列简单的举措,其中包括鉴别用户浏览过的商品,在这些数据的基础上,他们建立了一个电子邮件系统,目的是为了给浏览过商品却未购买的顾客发邮件。企业从中获取了高额的利润。

公司采取了类似的基本早期措施外,还会继续投资于收集和加载网络数据之上。最为关键的一点在于他们缺乏处理整套数据流的经验和意愿。试想一下经过数据的深层次分析后他们所得到的回报。也正是因为这些快速及时的进展,每个在企业中的人都乐意再继续下去。他们或许从最早期的举措当中看到了数据的巨大威力,也已经为未来的努力买过单了。

顾客给予的是个体具体行为,这一点是最重要的。上述的例子当中已经让他们认定个人的重要性体现在了模式分析的输入数据上。每个个体从获取价值上来说并不需要识别。分析专家如今已经可以利用数据库技术在不识别个体的情况下完成分析。很多隐私的顾虑就可以就此消除了。事实上不少企业都这样来定位和分析具体个体的顾客。这些企业想必都已经制定了关于隐私保护的政策,不论在什么前提之下,这些隐私政策都要谨慎地遵守。

世界在小数据时代是如何运作的,人们总是希望通过分析和收集数据来证明这一设想。不久以后,大数据时代的到来,人们就不再局限在这设想中。因为数据的分析和研究让人们发现了从前没发现的联系。

自然理论或是社会科学带来的人们的设想,也让我们理解和预测周围的世界。人类在经历假想时代到数据时代的过渡中,很可能会发现理论不再需要了。

《连线》杂志的主编克里斯·安德森(Chris Anderson)在2008年就指出:“科学研究方法因为数据爆炸都变得落伍了。”此后他还在《拍字节时代》(The Peta byte Age)的封面故事中提到了,从某种意义上说,大数据就说明了“理论的终结”。安德森曾提出,如今不再需要一系列因果关系来验证各种设想了,这种传统研究模式早已被无理论指导的纯粹相关关系研究所代替。

安德森为了证明自己的想法,阐述了之所以量子物理学称为纯理论学科的原因正是由于高耗费、复杂实验等等。他所提到的潜在观点就在于量子物理学的理论已经和实际剥离了。他提到了谷歌设计的搜索引擎和基因排序工作,他认为:“海量数据时代,所有其他的学科已经为应用学科所取代。只要是有足够的数据问题就可以说明清楚。假设有一拍字节的数据,并了解数据之间的相互关系,那问题就可以得以解决。”

安德森的文章在专业领域引起了轩然大波,事实上安德森也认识到了自己发出了过于偏激的言论,可是某种程度上说他的话还是值得深究的。当中最为核心的是,截至目前,理论总是用来在实践中理解和分析世界的,可是到了大数据时代理论已经不再必要,数据就够了。也就是说譬如世界的运作、人类的行为等等普遍规则也都不重要了。现在最重要的是数据分析,一切问题都能解决了。

事实上,大数据也是有理论基础的。譬如分析大数据所用的就是统计和数学理论,还可能涉及部分计算机科学理论。尽管和地心引力理论差异很大,但不管怎么说也是理论。大数据分析模式如果建立在这些理论之上,那必然可以实现大数据的预测能力。事实上,为人们提供新鲜深刻的洞见就是大数据的价值所在。

第一要关注的是如何收集数据,是不是数据收集的方便程度就是决定的关键因素呢,还是数据收集的成本呢?众多的理论影响了人们的决定,就如达纳·博伊德(Danah Boyd)和凯特·克劳福德(Kate Crawford)说的那样,一定程度上,结果由选择所决定。谷歌用检索词来预测的是流感而不是鞋码。分析数据的时候选择工具依赖的同样也是理论。研究结果的解读同样应用的也是理论。在大数据时代不代表理论消亡,相反却是在大数据的方方面面都渗透着理论。

安德森作为第一个发现这个问题的人,尽管没有得到合适的答案,也值得让人们欢呼。大数据不会宣称“理论已死”,当然它也从本质上改变了理解世界的方式。以往的习惯都被颠覆了,旧有的制度也面临着巨大的挑战。

当人们选择大数据的理念和方法的时候,就会感觉大数据所释放出来的价值已经让这些不再是一种权衡,而是未来的必然改变。高科技行业当中,不少人认为要依靠新的工具来到达大数据的彼岸,这观点可以理解为由于他们是工具制造者的缘故。大数据趋势的深层原因就是海量数据的存在,包括越来越多以数据形式存在的事物。

当下是大数据发展的最佳时机

迄今为止,在大数据上不少企业都做得不多。幸运的是到了2012年,即便是尚未重视大数据的企业也犹未为晚,当然电子商务行业的企业除外。不过这种情况很快就会发生改变。直到今天,绝大多数的企业所错过的不过是第一个吃螃蟹的机会,所以对它们而言这问题并不大,迎头赶上的机会还是存在的。不过过几年以后,要是这家企业仍旧不关心大数据的话,那它就会被淘汰。所以说,现在是控制大数据最好的时间点。

不管是什么企业获取业务价值都可以通过新的数据源来完成,而那种竞争对手还未发现这方式的情况不多见。大数据给所有人都提供了巨大的商机,无论是谁都要能打败自己的对手才能赢在最前方。未来的几年,人们会陆陆续续看到大数据分析所带来的成功案例。不少案例都会显示部分企业会毫无先兆地就被行业所淘汰了。而这些例子现在就已经引起了众多人的注意了,所谓这些企业正是那些在行业当中反应迟钝,落后守旧的企业。如果在新兴的电子商务行业中,则情况就有很大不同了。

因此,现在是最佳的时机。

实际上,控制大数据绝非想象中的那样难。不少大企业都已经开始了自己的数据收集和分析工作了,还将其视为自己发展战略中的核心部分。像数据仓库、报表和分析都已经应用得非常广泛了。企业只要意识到数据存在的价值,那么只需要延伸和扩展现有的工作就可以做到控制大数据。怀疑论者的话,诸如大数据没有探索价值,它们还没有得到验证,风险太大等等都不能信。过去的几十年,很多同样的借口也在一步步成为数据分析的障碍。还不确定大数据价值的人,必须让他明白大数据的分析和控制不过是现有企业所做事情的延伸罢了,并非本质性的变化。因此,大数据既然在人们身边,就不要害怕它的到来。