1950年,计算机之父阿兰·图灵提出设想——“机器真的能思考吗”,人工智能的研究目标由此明确。现在公认的人工智能起源是1956年的达特茅斯会议,约翰·麦卡锡、马文·明斯基以及克劳德·香农等人在达特茅斯举行研讨会,提出了“人工智能”这个名词,人工智能的定义简单来说就是让机器完成一些需要人的智能才能完成的任务。
美国美林银行预测,2025年以前,人工智能每年产生的创造性破坏的影响可能会达到14万亿到33万亿美元,其中包括因人工智能实现了知识工作自动化,导致雇用成本减少的9万亿美元,制造业和医疗护理开销减少的8万亿美元,以及部署无人驾驶汽车和无人机后因效率提升增加的2万亿美元。
麦肯锡全球研究院的观点更加惊人:人工智能带来的社会转变比工业革命“发生的速度快10倍,规模大300倍,影响几乎大3000倍”。
我们不禁要问,人工智能为何有如此逆天的威力?
持续两百多年的工业革命创造的各种机器大幅超越了人类的体能,正在爆发的人工智能革命在快速追上并超越人类的智能,这个“新物种”严重冲击了人类作为地球上唯一高级智能体的地位。
三大基石:人工智能的“智力”从何而来?
2016年3月20日,清华大学语音与语言实验中心网站宣布,它们的作诗机器人“薇薇”通过社科院等唐诗专家评定,通过了“图灵测试”——“薇薇”创作的诗词中有31%被认为是人创作的,超过了30%这个合格标准。
什么是图灵测试?图灵测试的核心是“计算机能否在智力行为上表现得和人无法区分”。我们在墙后放一台计算机,放一个人,然后问一些问题,比如为什么会出现父系社会?计算机和人都给出一些解释,当我们无法判断哪个解释是计算机给出来的,哪个解释是人给出来的时候,就可以认为这个计算机和这个人有同等的智慧。
图灵测试大会的具体规则是,如果在一系列时长为5分钟的键盘对话中,某台计算机被误认为是人类的比例超过30%,那么这台计算机就被认为通过了图灵测试。2014年的图灵测试大会共有5个聊天机器人参与,其中俄罗斯科学家开发的“尤金·古斯特曼”成功地被33%的评委判定为人类,它模拟的是一个13岁乌克兰男孩。在这次测试中,对话是不受限制的,而真正的图灵测试正是不预设问题或主题的。因此可以说这是人工智能在聊天领域首次通过图灵测试。
随着越来越多的机构宣称自己设计的智能程序通过了图灵测试,人工智能拥有与人类同等的智能成为人们必须正视的现实。正如发明家们不是靠模仿鸟类发明飞机,从而实现“人工飞行”;也不是靠模仿鱼类发明潜艇,从而实现“人工深潜”;人工智能也没有完全模仿人类大脑思考的生物过程,却能在越来越多的领域实现与人类智能相同的结果,而且速度更快、效果更好、成本更低。
阿尔法狗是当今人工智能的先进代表,它排名世界第一的围棋棋力来自于30万张人类高手对弈棋谱以及3000万次自我对弈,其思考能力来自“大数据(来自互联网、物联网)+深度学习(优秀算法)+云计算”。
大数据、深度学习和强算力(云计算)是当今人工智能技术的三大基石。
把智能问题变成大数据问题
20世纪中叶,很多计算机科学家认为,如果计算机实现了下面几件事情中的一件,就可以认为它有智能:1.语音识别;2.机器翻译;3.自动回答问题。
1972年,康奈尔大学教授弗莱德里克·贾里尼克来到IBM沃森实验室进行学术休假,应邀挑选了一个他认为最有可能突破的智能课题——语音识别。
贾里尼克的专长是信息论和通信,因此他看待语音识别问题的角度不同于人工智能的专家们。他把语音识别看成是一个典型的通信问题:人的大脑是信息源,想到一件事并说出来,是一个编码的过程;这句话经过空气或者电话线传到听众耳朵里,是一个经过信道的信息传播问题;信源有信源编码,信道有信道编码,整个是一个编码过程,最后听众把这句话听懂,是一个解码的过程。既然语音识别是通信问题,就可以用解决通信问题的方法来解决。贾里尼克先用两个马尔可夫模型分别描述信源和信道,然后用IBM积累的大量数据训练和使用这两个模型。这个方法让IBM将语音识别率从当时的70%左右提高到90%以上,已经基本能让人们理解语音内容了;同时语音识别的词汇量从两三百个单词上升到两万多个单词,足以走向实际应用。
贾里尼克的新思路被称为数据驱动,这种方法有个很大的好处:随着数据量的积累和计算能力的增强,系统的表现会越来越好。很多其他方法的改进需要靠理论的突破,改进的周期会很长,其效率不如数据驱动方法。此后人工智能专家们把智能问题变成了大数据问题,可以说“人工智能”就是“数据科学”。
数据驱动的威力还体现在谷歌在机器翻译领域的巨大成功。2005年,美国国家标准与技术研究院对全世界各机构的机器翻译系统进行评测。在阿拉伯语到英语翻译的封闭集测试中,谷歌系统的评分为51.31%,领先第二名将近5%,而提高这五个百分点在过去需要研究7~10年;在开放集的测试中,谷歌51.37%的得分比第二名领先了17%,大约领先了一代人的水平。谷歌的机器翻译系统只研发了半年多的时间,并没有创造更高明的方法,但它使用的数据量比其他机构高出了近万倍,大数据就是它大幅提高机器翻译智能的方法。
前面提到,机器智能面临三大考验,除了语音识别和机器翻译,还有“自动回答问题”。《浪潮之巅》和《智能时代》的作者吴军曾负责谷歌的机器问答项目,解决了30%左右的问题,这远远超过了学术界同类研究的水平。除了依托谷歌世界领先的自然语言处理等基础算法,吴军成功的关键在于转换了思路,把这个过去认为是纯粹自然语言理解的问题,变成了一个大数据问题。
由于谷歌有完备的大数据,用户在互联网上问的各种问题,有80%左右可以在前十条自然搜索结果中找到答案(去掉广告、图片和视频等搜索结果)。因此,机器自动问答这个难题可以转换成在大数据中寻找答案的摘要问题。谷歌先用算法把问题和网页中的每一句话一一匹配,挑出那些可能是答案的片段,接下来是用自然语言处理算法把摘录的文字片段进行拼凑,组成符合语法而且读起来通顺的自然语言。
总之,大数据是人工智能的第一块基石。机器的学习过程和人类是不一样的。一个小孩见到几只猫从自己眼前走过,妈妈告诉他这是猫,他下次见到别的猫就能知道这是猫。而要教一台机器来识别猫的话,可能需要给它提供超过100万张猫的图片来学习。所以说有大数据才有人工智能。
大数据究竟有多大?它是怎么来的?
人类将世界“数据化”的努力已经持续了上万年,从结绳记事到统一度量衡,再到十进制算法和复式记账法的发明,数据化给人类的生产和生活带来了无数便利;现代科学使得气压、电流、温度、磁场等现象被量化,这一轮数据化浪潮使得人类文明又前进了一大步。
加州大学伯克利分校信息学院的研究者估计,人类在计算机商品化之前的整个历史过程中积累了约12艾字节(Exabyte,1EB=260字节)的数据,但是到2006年,积累的数据已经达到180艾字节。2010年,全球线上和线下产生的数据量首次超过1泽字节(Zettabyte,1ZB=270字节)。1泽字节大约等于1万亿GB,大约可以装8000亿部清晰电影,或者相当于1000亿人一辈子说的话——1个人一生大约要说10亿句话。
可以说人类从2010年开始进入大数据(Big Data)时代。2012年,有人统计了互联网一天产生的数据总量:每天发出的邮件有2940亿封,相当于美国两年的纸质信件数量;发出的博文达200万篇,相当于《时代》杂志770年的文字量;每天有2.5亿张照片上传至Facebook,如果把它们都印出来,摞在一起能有80座埃菲尔铁塔那么高;每天会有1.87亿个小时的音乐在音乐网站Pandora上播放……总之,一天之中,互联网产生的全部内容可以刻满1.68亿张DVD。这还只是大数据时代刚起步时期的数据量。
大数据一方面来自我们在网络上的各种活动,比如搜索、社交和网购记录等。互联网的快速发展使得数据量井喷,每个人每天的活动都数据化了——邮件、日历、定位、商品和服务的订单、身份识别,用户的行为、喜好、知识以及社交联系都在大数据中显现。
大数据的另一个来源是廉价传感器的普及,各种智能手机和可穿戴式设备、智能车载设备都有非常精准的传感器,此外监测空气质量、交通流量、海浪高度的传感器也在持续增加。
今天,我们已经依靠互联网实现了信息和信息、人和人的互联,展望未来,所有物品也将靠廉价传感器连接在一起。每件物品上都将贴上一个售价仅4美分的RFID(这是指甲盖大小的不干胶,可通过无线电讯号识别特定目标并读写相关数据)。纳米物联网尤其值得关注。科学家们已经开始把传感器的尺寸从毫米或微米级缩小到纳米级,小到能在生物体内循环、能直接混合到建筑材料内,这是朝纳米物联网迈出的关键第一步。未来数十亿纳米传感器会为我们提供与城市、房屋、工厂甚至我们身体有关的更详细、更廉价、更新的图像。
当一切信息、人和物品都连接在一起,每年产生的数据量将会比互联网时代更上一个新台阶。
温故人类发展史,我们才能深刻理解大数据的意义。
在农业社会和工业社会,自然资源是经济社会发展的主要动力,比如各种动植物、能源、矿产等。进入信息社会,知识和信息成为经济社会发展的主要资源,知识的力量开始远超金属的力量,正如工业革命期间金属的力量远超身体的力量。
知识可以细分成四类:数据、信息、知识和智慧。数据经过整理变成信息,从信息中可以总结出知识,比如开普勒总结出行星运动的三大定律,知识通过反复实践融会贯通就是智慧。
两千多年前,人类只能利用竹简和羊皮等笨重或贵重载体,因此只能把最重要的东西书写下来,比如四书五经、《老子》《庄子》《伤寒杂病论》这样的智慧结晶与核心知识。
进入工业社会,造纸术和印刷术高度发达,各种各样重要或不重要的知识都得以被书本记载和传承,重要的信息也能通过报刊来普及,这对于人类的经济发展和文化繁荣起到了重要作用。
在信息社会,从国家大事到明星八卦,从企业动态到家长里短,从股票交易到网络购物,所有种类的信息漫天飞舞。虽然很多人在抱怨“信息过剩”“信息过载”,但与此同时经济的繁荣却更上一层楼。
从上述历史可以看到,从智慧到知识,从知识到信息,随着知识普及层级的一步步降低,经济社会的发展一步步升高。
今天我们进入了大数据时代,进入知识层级的底层,这显然意味着一个巨大历史机遇的到来。
数据是一种资产,是一种待挖掘的资源。数字化增加了人类对这个世界的了解,提高了预测的准确性,让科学研究更加畅通。比如《第二次机器革命》的作者埃里克曾创建一个简单的数据模型,这个模型把搜索词语的变化和随后的房产销量和房价的变化联系在一起做预测。它比美国房地产经纪人协会的预测专家们的预测结果还要准确23.6%。
大数据已经成为许多公司的核心资产,马云曾表示,“我们是通过卖东西收集数据,数据是阿里最值钱的财富”。
但目前的大数据并没有实现全面流通。政府、银行、通信运营商、医疗机构都拥有庞大的含金量很高的数据,但缺乏一种安全有效的办法把它们开放出来,无法在众多领域发挥出价值。
目前制约人工智能领域很多重大突破的关键,是缺乏高质量的数据集。这一问题已经得到包括中国政府在内的各国政府的重视。随着这些数据在未来获得安全有效的开放,人工智能将依托大数据了解每一个人的生活,了解社会的每一个细节。
要利用大数据,必须深刻理解大数据的特征。
除了数据量巨大(一千万个数据算小数据)这个特征,大数据还有两个重要特征:多维度和完备性。接下来我们通过案例来理解这两个特征。
气象局会结合空气湿度、气压信息、云图信息来预测天气,这就是我们所说的多维度。
2013年,百度从“百度知道”的7700万条和吃有关的问题里“挖掘”出来一些有趣的结论,发布了《中国十大“吃货”省市排行榜》。百度发现,东南省份的网友很关心什么虫子能吃;西北地区的网友最关心“蘑菇能吃吗”;江苏、上海、北京等地的网友最经常问“什么的皮能不能吃”;在缺少江河湖泊滋润的宁夏,网友最关心的是“螃蟹能吃吗”;历史浏览量最高的问题是“看电影吃爆米花的习惯是从何时形成的”,有863万网友热切关注。
百度研究的这批大数据的维度很多,比如食物的做法、吃法、成分、营养价值、价格,问题的来源地域和时间,提问者所用的电脑或手机的型号、浏览器和操作系统的类型(从中可以推测出提问者的收入高低)。百度如果深入分析,可以通过提问统计出不同生活习惯的人(比如正常作息的、夜猫子们、经常出差的或者不爱运动的等)的饮食习惯,还可以统计出不同年龄、性别和文化背景的人的饮食习惯,还可以根据不同年份所提问题的变化,看出不同地区人饮食习惯的变化。
从百度这个例子可以看出,大数据的不同维度之间有着天然的(而非人为的)联系,因此我们可以从不同角度挖掘出很多有意思的结论。
如果人工智能了解一个美国人的出身背景、朋友、家庭以及他读的书、看的电影,它就能从这些维度的数据中,推断出他在联邦选举中的投票行为。
未来农业领域会是依靠多维数据进行决策的。水果蔬菜每天的生长数据、未来的气象数据、新增的订单数据、目标市场的人口变化数据、大宗商品交易行情……智能机器通过分析各种维度的数据,就可以精准决策未来的种植。
多维数据在医疗领域也大有用武之地。饮食习惯、运动习惯、使用手机的习惯、父母的健康情况、经济情况都可以影响一个人的身心健康,未来这些多元化的数据都能被收集到,并被相应的人工智能算法处理,从而得出更科学的诊断结果。
顺便说一句,每个维度都需要不少数据,这意味着数据量必须很大——大数据的第二个特征和第一个特征是分不开的。
大数据还有完备性这个特征。
完备的数据蕴藏着巨大的威力。比如中国的公安部门把近14亿中国人的面孔或指纹全部收集齐就是典型的完备数据,信息越完备,不确定性就越小,这对于安检工作有很大意义。1997年IBM的深蓝计算机之所以能战胜国际象棋大师卡斯帕罗夫,除了计算力强大,还因为它具备了数据的完备性。它全面收集了卡斯帕罗夫以及世界上其他高手过去的棋局数据,并进行了深入分析。
再来看美国的一个著名案例。2012年,统计学家纳特·西尔弗用大数据对美国总统大选进行预测,他预测了共和党和民主党分别会在哪些州占优,结果100%准确,这是一个空前的记录。70年来,全球知名的民意测验机构盖普洛一直对美国的总统选举结果进行预测,它对大选最终结果的预测还比较准确,但具体到每一个州,是共和党总统候选人赢还是民主党总统候选人赢,它的预测结果就经常出错了。这说明抽样调查做得再好,也会有疏漏之处。
为什么纳特·西尔弗单枪匹马就能胜过盖普洛?他搜集了所有能搜集的数据,比如所有的民调结果、博客、微博、Twitter、Facebook、当地新闻等,他就是靠完备的大数据创造了民意预测的神话。
如果纳特·西尔弗能统计到每个人投票前一天的想法,他的预测就会更加精准。这是有可能做到的,因为移动互联网让人们时刻在线,这使得数据的完备性获得空前的提升。
完备的大数据有极其广阔的应用空间,比如谷歌无人驾驶汽车就是靠完备的空间大数据来“眼观六路,耳听八方”的。
开车绝对是个技术活,司机要全盘考虑迎面而来的车辆、交通信号灯、广告牌、树木、交警等一系列因素,判断每一个目标的大小和位置,以及哪一个目标是危险的。因此直至2004年,经济学家们还认为司机是计算机难以取代的。按照传统思路开发的自动驾驶汽车表现得确实很糟糕,在第一届无人驾驶汽车陆地挑战赛中,排第一的悍马只跑了不到20公里,而且时速只有8公里,比自行车还慢。
但谷歌却在短短几年内就真正实现了汽车的自动驾驶。谷歌同样是把自动驾驶问题变成了一个大数据问题。
谷歌的街景项目积累了大量空间数据,它的自动驾驶汽车行驶到这些“扫过街”的地方时,对路况是很熟悉的,包括马路道牙的高度、十字路口的宽口、红绿灯的高度、路旁消防栓的位置与高度,甚至弯道的曲线等。相比于那些每到一处都要临时识别目标的自动驾驶汽车,谷歌的自动驾驶汽车具有数据完备的优势,让人感觉它相当聪明。
此外,基于收集的海量数据,谷歌通过计算机模拟不同的路况条件,也能实现让自动驾驶汽车学习驾驶技能的效果。谷歌自动驾驶汽车每天模拟行驶的里程高达480多万公里,这样的疯狂练习是人类无法比拟的,因此其无人驾驶汽车很快超越了技术精湛的老司机。
从2009年项目启动到2016年5月31日,谷歌各类自动驾驶汽车已经在自动模式下累计行驶了260万公里,虽然发生了共计12起各种事故,但是谷歌方面表示没有一起事故是由自动驾驶汽车引起的,都是别人的车撞它,没有它撞别人的。谷歌分析认为其自动驾驶软件的驾驶水平相当于一个拥有90年驾龄的人类。
过去十年间,基于大数据的人工智能已经在各个领域崭露头角,除了前面提到的语音识别、机器翻译、自动回答问题和无人驾驶外,还包括在线广告的精准投放、搜索引擎个性化网页排序、电商的个性化商品推荐、社交网络的好友建议等。未来十年,离钱最近、产生用户最多、产生价值最大的金融、法律、医疗、教育等拥有大数据的行业,也将被人工智能深度再造。