书城计算机网络计算机与人工智能(科学新知丛书)
46351000000016

第16章 人工智能(2)

早在1956年,一些计算机专家就提出了逻辑理论机程序:在计算机中先存储一些公理,再给他一些推理规则,然后让机器自己去探索解题的方法,从而证明了罗素—怀特海《数学原理》第二章52条定理中的38条定理。到了1963年,改进的程序就在大型计算机上证明了罗素—怀特海《数学原理》第二章中的全部52个定理。

自动定理证明是人工智能研究领域中的一个非常重要的课题,其任务是对数学中提出的定理或猜想寻找一种证明或反证明的方法。因此,智能系统不仅需要具有根据假设进行演义的能力,而且也需要一定的判断技巧。我们知道,一位熟练的数学家可以运用他所掌握的专门知识和判断能力精确地推测出哪些已经被证明的定理是在当前的证明中最有用的,并把主问题分解成几个子问题,以便独立地处理它们。此外,许多非数学领域的课题,如医疗诊断、信息检索、规划制定和难题求解等,都可以转化成相应的定理证明问题。

现在,数学家们对数学问题在理论上的可计算性已取得了十分丰富而深刻的研究成果。并不是所有的问题都能够找到可以精确确定的算法,因而不是所有的问题都有理论上的可计算性。例如,在数学中有许多“存在性定理”,其中有些定理既指出了某一问题的解是存在的,也指出了寻找这个解的方法,那么这个问题在理论上是可计算的;也有些定理仅仅指出了某一问题的解是存在的,却不能指出寻找这个解的方法,那么从理论上讲,这一问题就不具有可计算性。

从理论上可以精确确定某一个问题的算法是一回事,实际上这种算法是不是可行,则是另外一回事,因为这里还有一个计算时间限制的问题。《十万个为什么》中曾经讲了这样一个问题:如果要求在算盘的高位第十档拨上一颗珠子,规定的算法是从最低位的那一档开始一颗一颗地加,满十则向上一档进一颗珠子,然后又在最低档上一颗一颗地加,满十再向上一档进一颗珠子,如此反复进行,直到有一颗珠子进到第十档上,这种算法显然是可以执行的,但是需要花费多少时间呢?假定每半秒就可以拨一颗珠子,那么,要完成这个算法得花费47年的时间!这显然是人力难以胜任的。电子计算机的运算速度可以高达每秒上亿次,但是毕竟得花费时间,因此如果一个问题的算法非常复杂,就有可能连计算机也难以胜任。比如,要求计算机打印出26个英文字母的全部排列组合,从理论上讲并不难,但是就是一台计算机每秒能够打印1亿个排列,完成这一算法也得花上百亿年的时间!

事实上,计算是人的一种智力活动,人所不能胜任的计算计算机可以胜任,从这个意义上说,计算机比人脑更“灵光”,将计算机誉为“电脑”,它是当之无愧的。但是,如果没有科学家们为它编写好算法程序,它自己可没有办法“动脑筋”,从这个意义上讲,还是人脑比电脑更聪明。

从人性化开始

我们已经十分习惯于一些广告词、未来剧情和科幻小说系列,它们描述那些向计算机喋喋不休的人们,并且这些人总能够得到计算机适当的、智能的、有帮助的回答。那些科幻剧的剧情是如此的通俗,难怪许多人认为这种技术已经存在或者它即将来临。其实,这正好符合某些人工智能(AI)研究人员和远程通信工作者多年的主张,也就是说语音识别的最终目的是,研制出一台能够听得懂任何人的讲话的机器。然而目前的技术水平还难以使得计算机与人类之间的语音交流变得像人与人之间的对话那样自如、方便,甚至有些专家比喻它的难度要超过“人类登上月球”。尽管如此,科学家们仍然在孜孜不倦地研究与开拓,目的就是让语音识别技术更快地走近人们的生活。

语音识别系统的出现,为大多数人提供了走近电脑的理想通道。电脑不仅可以在人的指令下工作,更可以听你倾诉,彼此“谈心”,这个在人们心头挥之不去的梦,现在已经不再遥远,它正在逐步变成现实。电脑已开始有了更多的“人性”。

语音综合

让我们从已经大量“实现”的技术——语音合成开始,它使你的计算机能够向你大声朗读。语言学家早就渴望一些重新产生特殊音素的声音程序,形成人类声音的部件,并把它们组合在一起以产生可以理解的语言。计算机可以“读”任何ASCII正文,以形成辅音、元音、音节和单词,它还可以读全部标点符号,以建立适当的暂停和中止。当然,你的计算机做这件事时并不理解正在讲些什么。虽然你可以在许多声音之间进行选择,但是语音是非常平淡而无表情的,非常类似机器的声音。麻省理工学院的媒体实验室正在进行一个项目的研究,这就是向语音合成添加更多的“表情”,但是无论语音怎样生动,计算机不懂任何含义,听起来仍然十分无趣。

对于具有正常视力的人们来说,语音合成是有趣的新奇事物,但是没有太多的价值。语音合成对于盲人用户或者丧失说话能力的人来讲却是重要的工具,对于他们来说,使用在当前活动窗口上能够自动大声朗读文本的程序和语音合成技术,可以成为与计算机的基本接口和与其他人联系的重要途径。例如,英国天体物理学家斯蒂芬·霍金由于严重的疾病以致全身瘫痪,他用语言合成器与别人进行通信,甚至用它来讲话。他开玩笑说,唯一的缺点是计算机给他带来“美国口音”。

让电脑念文章,这是人与电脑沟通的一个重要方面,英文电子发声的研究成果很多,中文还处于起步阶段,此类软件还没有实质性突破,主要问题在于电子味道较浓。单词的电子发音相对较好,但连续语音方面效果较差,而且大多设置复杂,无法直接使用。不过如果将其使用在娱乐休闲等产品上,将给人特别的感觉。

语音识别

由于有不同的应用范围,因而会有不同的语音识别系统设计。假如你的外语能力还不错,但是还不能够达到应对自如的地步,你会发现要听懂饱受杂音干扰的现场新闻广播实在困难,而对于一个能够把外语说得极为流利的人来说,这充其量只不过是扰人罢了。在我们的生活中听清和听懂,也就是识别语言和理解语言是密不可分的,现在的计算机还无法像你我一样,先对某一件事情的意义建立共识,进而理解事物的意义。研究人员在语音识别方面碰到了难题,当人们自然地把一个句子说成长而混杂的声音时,让计算机听“懂”就更加困难。如果我们把让计算机理解语言的问题放在一边,只考虑让它听清语言,问题就明朗多了。

如果语音识别系统只是要为你利用语音来进行电话拨号,那么它只要能够听清10个数字就可以了,这属于小词汇语音识别系统;如果它是为你自动订飞机票,那么它还应该会认识地名、时间等成百上千的必须使用的词汇,这是中等词汇量语音识别系统;如果它是为了记者把口述的一篇稿件转化成为文字,那么计算机就必须有很大的词汇量,才能够胜任这样的工作,这属于大词汇量语音识别系统。

从另外一个方面讲,如果一个语音识别系统只是在个人的计算机上供专人使用,这就是特定人语音识别系统,这种系统是指系统在使用之前,必须有用户输入大量的发音数据,对其进行训练。非特定人语音识别系统则试图在系统建立成功之后,用户不需要输入大量的训练数据,即可以达到使用的目的。语音信号的可变性很大,不同的人说话的时候,即使是使用同一个音节,如果对其进行仔细分析,就会发现存在相当大的差别。要让一个语音识别系统能够识别非特定人的语音,困难程度是很大的。

从前的语音识别系统几乎都是以单字或单词为单位的孤立语音识别系统,随着近年来语音识别技术的研究和发展,连续语音识别技术已经日趋成熟,现在可以理解正常流畅的语音的计算机向着最高目标——计算机可以理解语音的含义并灵活、适宜地应答迈出了一大步。

1997年是计算机键盘终结的开始,代替计算机键盘的是一种能够处理自然语言的语音识别技术。IBM、DragonSystem和L&H三家公司都推出了第一个可广泛使用的语音识别系统。利用这种系统,人们能够对字处理程序进行口授。据称,只要发音清晰,识别正确率可达90%以上,这对计算机的大量应用来说是个好消息。想想利用语音命令系统,只需简单地说出命令就可轻松使用MicrosoftWord的功能,那将多么奇妙!例如:“将后三个字变红”、“插入一个三行四列的表格”等。即使不曾使用Word的用户,也可以感受到,这真是太酷了!此外,医生已经开始利用这项技术口述病历,这项技术还可以自动处理很多法律事务中的笔录工作。

当然,计算机还不能真正理解人们的语言,它们会犯一些愚蠢的错误,这是可以理解的。计算机还不能从整体上分析易混淆的语音流,但是如果有功能更强大的计算机,它们就能够处理巨大的语音单词库,甚至能够从错误中学习、更新语音词汇数据库。

自然语言的理解

虽然仍不清楚连续语言识别是否真正要求具备某种程度的人类理解能力,但无疑地,让计算机理解口述或者键入的自然语言的含义,是经典人工智能的重要领域。虽然计算机可以识别和提供语言中任何一个单词的定义,并且能够比你的高效英文更快地分析句子,但是对于其意义和理解仍然是难以捉摸的。

许多工作涉及人类语言的特性,语言是人类用以传达和构造意义的“蓝图”。换句话说,作为地球上生存的人类,我们用语言与其他人进行通信,这是建筑在广泛深入的共同认识基础上的。虽然任何一个孩子都可以这样做,但是并不意味着这样做很容易。孩子们经过培养,到了少年时通常都能够掌握它们的自然语言语法的复杂规则,以及几百到几千个单词的含义,这导致一位语言学家推理说,语言能力在很大程度上是遗传确定的。

语音学习是语音识别的一个较新方向,它的侧重点与传统的语音识别不同。通常意义的语音识别是通过电脑适应人的发音来识别人的说话,这就要求人模仿标准发音,其面临的困难是如何衡量人模仿的好坏。

此外,目前所有的语音识别系统在有较大背景噪声的情况下,识别率都会显著降低,这无疑是一个需要解决的重大课题。虽然语音识别技术还处在成长的年代,但它却是计算机技术发展的重要方向。简单地说,这一技术就是让电脑“听懂”人的话,并做出正确的反应,这是电脑在“拟人化”上迈出的一大步。很多人刚刚体会到多媒体的巨大魅力,还没有来得及考虑过什么语音识别技术,总觉得那是非常遥远的事,但它其实已经从各个方向来到了我们的生活中。

一个典型的例子就是金洪恩软件公司的《随心所欲说英语》,在对语音识别技术进行大规模尝试之后,这个软件可识别近3000句话,从而帮助读者更快、更好地掌握英语。相信语音识别技术在技术上的突破,将促使媒体英语教育走向新纪元。

语音识别技术授予计算机人类所具有的,对世界深入的、灵活的理解,即获得语言以外含义的能力。如何解决上述的问题呢?苹果公司的《知识导航器》已经为我们做了精彩的描述。

1988年,苹果公司制作了一部引人注目的小影片,片名叫做《知识导航器》,影片描述了计算机未来使用的美好前景。在影片中,一位教授走进自己装备齐全的家庭办公室,开始与桌面上的计算机对话,他通过其“智能代理人”处理大部分商务工作。智能代理人其实是一个人工智能程序,它在屏幕上作为一位会说话的、有礼貌的和斯文的年轻人出现,戴着一个蝴蝶结领结。教授正在准备那天要做的学术报告的材料,在平静的几分钟的过程中,通过触摸屏幕和询问代理人,教授收集到各种图表和说明,并对巴西的雨林有重要发现。教授还让友好的智能代理人通过视频电话帮助他约见一位同事,说服同事以客人身份参加他的演讲。

整个短片给各种人留下了深刻的印象。人们渴望得到这种“即将到来”的技术,完全相信明天的计算机将完全融合到我们的生活之中,完全消除了由于“信息爆炸”带来的困惑与压力。

软件巨子比尔·盖茨在芬兰发表演讲时预言:5年后的PC将是可以装在口袋里的便携式无绳电脑,能看、能听、能学习,成为人人都会使用的工具。如果早几年,人们可能会对此番议论不置可否,今天却引起了广泛的关注,因为技术最终会使人们生活得更舒适、更有意义,产业发展正在把信息技术推向一个“人性化回归”的新里程。深奥的电脑终于走下了“只有计算机专业人员才能摆弄”的象牙塔,它转化成普通用户,甚至是孩子也能接受的大众化产品。没有这个转化就谈不上普及,也就没有今日信息技术的辉煌。

似人非人机器人

自电子计算机问世以来,伴随着综合控制论、仿生学、信息论等学科的科学技术成果日益涌现,机器人于20世纪60年代初应运而生。1961年在美国诞生了第一台机器人,这台机器人至今已经有40多年的历史。40多年在历史的长河中只不过是“弹指一挥间”,可是由于科学技术的突飞猛进,机器人的研制已经进入第三代。

世界上的机器人真是琳琅满目、五花八门,但是就其种类来说,大致可以归为三大类:

1.重复型机器人:又称工业机器人,它是一种以程序可以变化的、独立的自动搬运和传递装置构成的重复操作系统。工业机器人能够代替人去完成一些重复性的操作和劳动,它勤勤恳恳、任劳任怨。这一代机器人是从20世纪60年代后期开始投入使用,目前在工业界已经得到广泛的应用。

2.感知型机器人:也称为自适应型机器人,它是在第一代机器人的基础上发展起来的,它具有不同程度的“感知”周围环境的能力。这类利用感知信息以改善机器人的性能的研究开始于20世纪70年代初期,到了1982年,美国通用汽车公司为其装配线上的机器人装配了视觉系统,这次装配宣告了感知机器人的诞生,它在20世纪80年代获得广泛的应用。

3.智能型机器人:是给机器安装了微型计算机,赋予它更多的才能的一种机器人。