体感计算是指对人体的运动进行探测和理解,可以分为身体运动信号的跟踪和信号的识别两部分,前者负责探测和获取人体的运动数据,后者是对获取的运动数据进行语义和情感的分析和识别。
本章的工作针对情感计算的交互中的运动感知技术,介绍分析了几种运动跟踪技术,根据不同交互目的,选择合适的运动感知技术和载体。根据人机交互应用的不同需求可以对人体运动行为进行跟踪识别,对人体进行特征提取或体感语义建模,可以更好地分析人的交互意图,实现更为智能的人机交互。
5.1运动感知技术的发展概述
基于运动感知的体感交互可以感知、理解用户的身体动作,并做出适当地反馈93。身体运动是人类的自然本能之一,人类不但能够通过身体运动完成具体的任务,而且还可以充分地表达情感、传递信息。体感计算以人体的运动为交互信息的载体,使用户可以自然、直观和高效地与计算机进行交互,并在人机交互时感受到新奇的体验,这是传统的键盘、鼠标和手写板等GUI交互方式所无法实现的。目前有两种主流的运动感知技术,一种是佩戴在人的身体表面的运动传感设备或者数据手套,另一种是基于光学传感的摄像头。这些运动感知技术是获取运动信息的主要手段,经过分析识别后的“体感”运动的语义,然后将会以图像、虚拟体感化身的动作等形式输出相应地交互反馈。
早在1993年,Badler等人就通过在人体上佩戴运动传感器来实时控制虚拟角色,如图5.1所示的传感器的设置和支持的模型,这可以认为是运动感知设备的早期原型94。1997年,MIT的Marrin95研究的“数字指挥棒”,用户可以通过手持数字指挥棒与计算机交互,需要用运动传感器进行操作,通过实时手势来控制设备。2000年,微软研究院的Hinckley96将不同类型的传感器集成到一个手持移动设备上,其中运动传感器用于对设备的运动状态进行探测,从而了解用户当时的活动状况,比如是在行走还是在看设备屏幕等。2003年Wilson97等人提出XWand是一个用户智能家居交互的设备,通过它可以实现更直观的交互,例如用XWand指向电灯并说“亮”或者做一个手势控制灯具等。这些研究对于使用人体运动作为交互方式进行了探索,同时也大大增强了交互应用对不同环境的适应能力。
近几年来,在消费电子产品的推动下运动感知的人机交互方式逐渐被产业界所关注,基于运动的交互技术成为相关厂商研发的热点之一。数字娱乐厂商任天堂在2006年末发布了新一代的游戏主机——Wii,除了有强大的3D图形引擎外,还装备了具有三轴加速传感器(Accelerometer)的操纵手柄Wiiremote98,如图5.2所示,游戏者通过手持操纵手柄做运动进行游戏,突破了传统手柄方向杆加按钮的陈旧交互形式。任天堂正式在2008年圣诞节假期推出《Wii音乐(WiiMusic)》99,玩家可以一至四人共同游戏,利用Wii遥控器与双节棍控制器,甚至再搭配Wii平衡板,玩家可以从《Wii音乐》提供的超过60种乐器中,随意选择自己喜爱的音乐。如图5.3所示,不管是打爵士鼓、吹萨克斯风、拉大提琴、弹吉他,都可以让用户尽情发挥。
任天堂的知名游戏制作人宫本茂在谈到游戏设计理念表示,大部分音乐游戏通常要求玩家以精确的拍子来按下按钮,但任天堂设计的《Wii音乐》可以让任何人即使不会读乐谱或玩乐器,也能够享受音乐带来的喜悦,让玩家感受到仿佛音乐家就在自己的乐团中,随着心中的旋律轻松地弹奏他们的乐器,不管玩家的音乐风格是什么,即使偶尔节拍快了或慢了,游戏也能自动将玩家的演奏转化为专属个人风格的音乐。
因此,玩家在玩《Wii音乐》时,不用像其它音乐游戏需要去按复杂的按钮,只要简单模拟玩家在弹奏音乐即可;游戏的音乐包罗万象,玩家可以依照喜好选择演奏古典音乐、爵士乐甚至是民歌,当然也可以演奏像是《超级马里奥》等经典的任天堂游戏音乐,这些音乐只是起点,游戏还将加入即兴创作等元素。如图5.4所示,玩家演奏后可以按下重播模式,以欣赏音乐会的角度来享受刚刚自己与好友的共同演出;当然玩家也可以拿起指挥棒(Wii遥控器),来指挥乐团,决定让他们演奏快一点、慢一点或是感情强烈一点或是温柔一点。除此之外,玩家更可以通过网络,与同样拥有《Wii音乐》游戏的朋友来分享,朋友可以看到玩家的Wii角色所创造的乐队成员与所选择的乐器,还可以欣赏到玩家当初演奏纪录等。此外周边“WiiMotionplus”搭配Wii平衡板,玩家更可以即时对应操作,轻松享受手敲鼓与脚踏鼓的乐趣。
苹果公司推出的智能手机iphone101,如图5.5所示,是首次在手机中增加了运动感知的功能,可以通过手机的内置加速度传感器来感知用户的运动,这不仅仅能够为游戏增添新奇感,此外又能让各类应用变得更为直观、自然。例如,大部分的iphone内置软件都可以适时根据机身的朝向,来自动调整画面的方向。并且,媒体播放软件可以用手势运动来迅速实现“播放”、“下一首”等功能,当用户在进行文本处理时,轻轻晃动iphone,就可以取消原来的选择。基于运动的交互方式使用户能在复杂多变的环境下,直观自然地使用iphone。此后,三星、诺基亚、LG等公司也纷纷发布了内置加速度传感器的手机,而且将基于运动的交互作为重要的特性。
Kinect是美国微软公司于2010年11月4日推出的XBOX360游戏机体感周边外设的正式名称,微软XBOX360Kinect102实际上是一种3D体感摄影机,利用即时动态捕捉、影像辨识、麦克风输入、语音辨识、社群互动等功能让玩家摆脱传统游戏机手柄的束缚,通过自己的肢体控制游戏,并且实现与互联网玩家互动,分享图片、影音信息。微软XBOX360Kinect是游戏机的一个配机,如图5.6所示微软XBOX360Kinect。
以下是更多的细节规格:
可视范围:Kinect的扫描范围相对比较小,水平视角为57度,垂直视角为43度。产品本身可转动倾斜27度以便于抓住游戏玩家的动态。
可视深度:这部分也是相当严格,游戏的玩家必须在大约122到350厘米范围内。
人物追踪:Kinect最多能同时追踪两个玩家,如果是眼睛的话,最多可以同时追踪六只眼睛。
分辨率:Kinect的分辨率分别为320x240、16bit、30fps(这应该是测深度的镜头)和640x480、32bit、30fps(这是最左边的彩色镜头),最后是16bit、16kHz频率音效。
Kinect有几个重要传感器功能,这些传感器包括:摄像头、深度传感器、多点阵列麦克风,以及一个可处理专用软件的处理器,如图5.7所示103。
RGB摄像头:Kinect项目的摄像头是一个RGB摄像头,这意味着它可以为XBOX360提供红、绿、蓝三个通道的颜色。它的作用在于面部识别和动作追踪。
深度传感器:深度传感器由红外线投影机加单色CMOS传感器组成。虽然功能并不复杂,但它可以让XBOX360真正“看到”3D空间,而不是通过计算得出空间数据。
多点阵列麦克风:主要功能当然是为了聊天,并可以帮助过滤环境噪声。这个功能可以让使用耳机的XBOXLive聊天的朋友相互听到更清晰的声音。
定制处理器和微软的定制软件:Kinect项目的重中之重就是,所有的硬件都是由微软设计的软件进行控制的。这意味着将来可能不会出现第三方兼容Kinect产品。
虽然消费电子领域的需求大大推动了身体运动交互方式的发展,但体感计算的人体运动捕获技术在人机交互中的应用才刚刚开始研发,其潜力还远远没有被充分地挖掘出来。在体感计算的动作跟踪地研究、开发和应用中,智能高效的运动识别技术、用户体感分析、良好的体感交互体验应用是至关重要的,它们不但能够为基于运动感知的体感计算的交互应用设计与开发提供指导,还保证了最终系统的可移植性,可重用性和灵活性。
5.2人体运动的跟踪识别
体感计算的运动跟踪指对人体的运动进行监控,可以根据人机交互的方式和内容选择适合的人体运动跟踪方法,下面对几种主流的运动跟踪方法进行介绍。
5.2.1跟踪方式的对比与选择
选择合适的运动跟踪方式决定了最终的跟踪效果和用户体验,应该根据不同的交互内容来选择适合的身体运动跟踪方式,目前有几种不同的交互任务,如下所示:
(1)基于运动的交互任务
运动感知技术在不同的应用中有不同的任务:音乐指挥的游戏中用于捕捉指挥者的音乐手势,体育竞技游戏中用于捕捉运动员的身体运动,影视动画制作中用于捕获演员表演的动作,在医学上用于病人的康复研究或远程手术等。在基于运动的交互系统中,运动感知技术一般用于体感表达,通过人体运动来表达特定的情绪、情感和身体感觉,在电子学习、游戏、电影产业中常用的运动捕捉就属于这种任务。例如,具体运动形式可以包括全身运动和半身运动。
在实际使用中,还要考虑一些具体的因素,比如用户、环境、硬件平台等。例如,人们在办公室和家里一般使用台式电脑,而出门后就会使用智能手机和笔记本电脑等,未来还会有大量的可穿戴式或更为智能的电脑。
目前,运动传感器和基于视觉的运动跟踪方式都是人机交互的研究热点。
(2)基于视觉的运动跟踪方式
作为非侵入式的交互技术,基于视觉的运动跟踪方式通过摄像头等光电转换器件将交互活动的光学影像转变为数字信号,再经过计算机视觉算法处理得到运动信息。
微软的XBOX360kinect是目前最先进的采用基于视觉的运动跟踪游戏产品,让用户不用坐在显示器前面游戏,可以通过自己的肢体控制游戏。它与任天堂的游戏手柄有本质的不同,Kinect用户的全身都可充当手柄控制器,系统也只对用户的语音敏感。微软Kinect装置的复杂程度及动作捕获的技术含量很高,微软正在向任天堂看齐,这款XBOX360的Kinect将和Wiimote以及PS3Move进行运动竞技游戏技术的大比拼,如图5.8所示的几种游戏设备104。
Kinect的工作原理如图5.9所示105,系统的标准半导体芯片(CMOS)可以通过处理红外光线和场景的深度图来检测场景空间的深度,CMOS的色彩图可以确定色彩,麦克风和外部数码音箱源是负责处理声音。对于色彩和声音的选择是自选的,而对于深度检测则是强制的。
用于动作跟踪的摄像头一般是在交互环境中被动地接收光的信号,所以,其是一种被动地感知方式,不需要用户手持或佩戴传感设备,从而可以实现更自然的交互体验。但是由于技术本身的局限,基于视觉的运动跟踪也有一些难以解决的问题,比如,以下的几点:
1.反应速度慢
在交互中每次的反应相对于运动传感器都要延迟几秒,因为没有确认按钮,而在WiiRemote手柄有很灵敏的确认按钮。
2.遮挡问题
在复杂的交互环境中,视觉的遮挡严重地制约了运动跟踪效果,很难从根本上解决这个遮挡问题。
3.空间限制
视觉跟踪的范围越大精度就越低,如果要获得更好的效果需要处理性能超强的计算机,因此,对于使用的空间范围就有了一定的限制。
4.背景、光照、运动模糊和外观变化
视觉跟踪需要特定的视觉性质的物体,而不同用户外貌差别很大,并且交互的背景、光照很复杂,运动会造成一定的模糊,不易区分和识别主次物体。
5.环境限制
要固定的摄像头,所以适合固定的场所,而不能够在任意的地点进行。
6.计算需求
光学跟踪的数据量太大,所以反应速度太慢,对于计算机的处理性能要求很高,不便于普及。
但是,由于目前基于视觉的运动跟踪技术水平还不足以解决这些问题,包括Kinect同样也存在着反应比较缓慢和计算量大等问题,因此基于视觉的运动跟踪技术更适合应用在理想的环境中。比如,只有一个用户,并且只在特定的范围内活动,用户的身体直对摄像头;只限于部分肢体,在平面中以缓慢而均匀的速度运动;穿单色或者固定颜色的衣服,并且,不佩戴多余的衣饰;摄像头参数已知,固定不动或匀称;光照不变,固定或统一的背景;强大计算性能的计算机。
(3)运动传感器的方式
以上所述摄像头的方法存在很多弊端,然而,采用运动传感器的运动跟踪方式则不存在这些弊端,在现实的环境中,有着更为强大的可行性,唯一的缺陷就是用户的舒适性和数据的精确度。然而,前者随着可穿戴技术和MEMS技术的发展已经可以解决了,并且后者也基本能够满足大部分交互应用的需求,通过其他方法进行弥补也是可行的。此外,基于运动传感器方法的用户侵入式特点,还将会为今后加入直接对用户的物理反馈提供良好的基础。因此,这就使其容易与其它的交互通道相结合,提供更为人性化的自然人机交互。
在人机交互方面,运动传感器是未来动作捕获的一个重要的方向,运动传感器本身有很多独有的优点,但是也有一个很致命的缺点:无法精准定位造成的数据漂移。传统的运动传感器是基于电压、机械式加速度传感器、激光陀螺等,而现在的运动传感器大多基于MEMS技术。MEMS技术的运动传感器虽然尺寸小、价格便宜,但是缺点是精度低、稳定性差,并且在后续的数据处理中对速度或者位置的计算以积分为主,微小的误差就会随着时间地推移迅速地累积,会导致最终数据严重地漂移。
目前,运动传感器漂移的缺点可以通过一些方法来有效地缓解,比如可以采用补偿技术来进行修正,或者采用混合运动跟踪技术的系统等。
综合考虑各项因素,运动传感器对面向个性化学习的体感计算而言,是一种比较理想的运动跟踪技术。
5.2.2常用的运动传感器件