探索语音为主的多通道交互 DuerOS设计最舒适的人机交流方式

539 阅读10分钟
原文链接: mux.baidu.com

7月4日- 5日,2018百度AI开发者大会在北京国家会议中心隆重举行,大会上展示了众多落地化成果。此次大会上百度首次举办AI设计论坛,百度设计体验委员会主席、百度人工智能交互设计院院长、百度用户体验中心总经理关岱松及设计团队分享了百度在AI设计和用户体验方面的经验及思考,共同交流AI智能美学及创意等方面的最前沿发展。论坛上百度与湖南大学的战略合作正式启动,整合百度在AI交互设计领域的优势和湖南大学先进的科研能力,双方将共建联合创新实验室及博士后基地,在AI设计领域进行更多更有价值的合作与探索。

DuerOS是以语音技术为基础的对话式人机交互系统。通过万物互联、本能交互、千人千面三个方面构建了人机之间的新交互模式,使得设备能够主动适应外界变化提供更好的信息服务,让人机交互像人人交互一样亲切和富有情感,打造出用户体验最舒适的人机交流方式。

 

以下为演讲实录:

 

 

【子轩】:大家好!我是百度体验架构师周子轩,我今天要为大家分享的主题是《智慧型人机对话设计》。

 

大家知道最早的人机对话设计是什么时候开始的吗?1952年,贝尔实验室刚开始研究语音合成,把阿拉伯数字对它说,它直接能转换出来。直到上周,我也都是这么认为的。

 

一周前的晚上,我跟小度小度说了一件事,『小度小度,你给我讲个故事』你们猜小度讲了什么?

 

【丽川】魔镜魔镜,告诉我,谁才是世界上最美丽的女人?

 

【子轩】魔镜才是最早的带屏音箱!但是魔镜从设计角度讲不够聪明,不够有智慧。皇后想听的不是还有白雪公主漂亮,而且想要有人夸她。反正小度不会这么说,

 

为了研究这个话题,这就是我们今天想要分享智慧型人机对话设计,下面有请皇后的扮演者百度DuerOS体验架构师张丽川。

 

【丽川】我是一名DuerOS的设计师,来跟大家分享最下最近几个月,我们在对话式交互上的探索。其实对话有着悠久的历史,在古代没有书本的时候,孔子等古今中外的哲学家们就是使用对话去教学和传播思想。那么我们今天致敬经典,用对话形式来讲一讲智慧型人机对话设计。

 

【子轩】丽川,你能说说DuerOS是什么吗?

 

【丽川】DuerOS是一个搭建在AI浩瀚的技术上、以对话为统一用户入口的、能实现承接多种第三方功能的系统级产品。

 

【子轩】那就是说,变得简单了,唤醒它,然后等待你的需求。但是还是不够智慧,魔镜至少还能告诉我……

 

【丽川】没错,魔镜其实是一个比较会读心的设备。因为,语音并不等于对话。发出声音其实只是其中的第一步,还需要对环境场景上下文的理解,充分获取显性和隐性的表达,和对人心理互动的把握,从而才能建立起良好的对话关系。

 

作为DuerOS的设计师,在领落到对话式人机交互的深意后,把更真实的自然还给用户把推理运算、归纳演绎等高级综合能力装在设备里。让人感受到与ta互动的对象,不仅仅是一个联网的智能设备,更是一个有智慧的对话对象。这就是我们提出的智慧型人机对话基本模型。

 

【子轩】那我想先了解下你说的环境是什么意思?

 

【丽川】我们想传递出的是重组人与环境的适应关系。所以,我们现在要提的一个概念是,从用户主动设置到环境主动调整。首先,现在感应设备技术已经升级到一定程度,已经可以检测距离、光线、音量、人脸、动作、温度、湿度等等。通过感应器采集过来的信息形成信息空间,他是除了人类社会和物理空间之外的第三空间。国务院下发的《新一代人工智能发展规划》中也强调了这一空间的建设和使用。回归到家居环境,DuerOS和万物对话,我们拥有关于一个环境里的各方面信息,这些正是可以让环境适应适应人的基础。

 

 

【子轩】那么环境适应人真的可以去实现了啊?

 

【丽川】环境适应人分成三个进阶。第一个是自动调整环境,第二个是响应人体变化,第三个是学习人的习惯。

 

 

【子轩】第一个是能够根据干湿度来调整我适应我吗?

 

【丽川】这是温度和湿度的自动调节。对于人体最合适的温度和适度已经有成熟的模型,把这个模型输入到设备当中。当设备感受到人在家里的时候,就自动把家居环境调整到最适宜的状态。

 

 

【子轩】第二点是响应人体变化怎么理解呢?

 

【丽川】随着对话式交互的时代的到来,我们和设备的距离拉开,甚至到一个想远就远,想近就近的360度空间范围里。所以,我们提出了在不同距离下最佳视觉呈现解决方案。他落地形态比如直观的有字号、字体、排版、图文比,间接的有信息量的重构。

 

下面讲一下适应人的习惯。刚才我们展示了很多模型,但是这种模型是对于大部分人来说的,对于个人来说,是有自己的个性喜好的。

 

 

【子轩】这个场景我很熟悉,我在家做家务的时候就会调大音量……

 

【丽川】有了技术与环境场景更好的交融之后,人与设备的交流,才能更加细分场景与人交流方式的关系,回归人体真正的自然交流方式。经过认知科学的研究发现,人们其实是使用多通道的方式去表达信息的。人本身就是多感官的,每个感官都能传递信息。

 

 

【子轩】什么叫做多通道呢?

 

【丽川】通俗一点讲,就像当前我俩的对话,除了我们字面表达的文字内容之外,还有手势,还有眼神,还有表情,还有语气语调,这些加在一起,才完整的去表达了信息。

 

再细分下去,每个通道有ta传递信息的特点,也有传递信息的上限。所以,多通道整合的交互,才是最自然的,效率最大,更适合于多任务并行。

 

不过,多通道这个词也提出来很多年了,但是以前的产品设计上只是用于代替手指的部分指令,比如指纹支付,指纹解锁,人脸解锁。这种是拆分开的。

 

而真正的多通道交互应该是整合在一起的,共同去传递信息,完成操作任务。

 

【子轩】这个我认同,人最早去适应机器……,教人学电脑还是一份职业,现在看来,这一刻真的到来了

 

【丽川】多通道表达信息的设计就是要去细分场景和操作任务。查阅相关资料发现,表达的通道和任务有指派性和互补性的特点。指派性也就是唯一性。是指某些任务下,有些任务是有最佳最优势的表达通道的。这时候未必是语言或手指或眼神,可能还是一个动作,比如手势静音。

 

像这样的方案,只要用户知道设备支持这样的操作,对他来说是没有学习成本和回忆成本的。

 

比如互补性,当单个通道不能充分表达信息时,需要其他通道补充,才能表达地更精准。经过多通道的同时表达,可以让每个通道表达的信息更少,而合起来的意义更明确。

 

AI交互设计院的同事,会有意识地去采集这些手势集合,把我们最自然的交互还原出来。这些集合的采集,在东方内敛含蓄文化下,真的很有意义。

 

【子轩】人其实一直都有心理活动,并且会通过情绪,情感去表达出来。

 

 

【丽川】也有更多的网友会去自己设计表情包,表达更多无以名状的情感。但是设备和技术的限制,只能在这个层面上。现在小度也能觉察人的心理活动了。这里要提一个概念是模式匹配。

 

AI发展几十年,从未有像现在,让人充满信心。因为现在大数据、深度学习、感应器、情绪理论模型等的高能加持,AI已经从单纯的仿生,进化成模式匹配,这为我们去做更复杂的情感识别与鉴定打下了基础。

 

最基础的可以匹配的模式就是,人的心理活动三要素,知觉、情感、意志。三者之间是递进推导关系,也是反向影响关系。

 

以婴儿这个群体举例,表达很直接,情绪很明显,意图很明确。采用递进式的推进,可以快速定位他们的核心意图。

 

老人这个群体,表达很含蓄,情绪很内敛,意图却很简单。当老人对一个智能设备开口说出请求时,这不仅仅是请求的内容这么简单,还代表这他们对新科技的向往,不想落伍的倔强,或者和自己儿女想要有共同的语言。把高科技信息以更有好的方式展示给老人,是对老人感官能力退化之后的无助感的关怀。

 

真正有智慧的个体,是当你还没开口就知道你想要什么,俗话说的,很有灵性。通过一个人的表现,推测ta的意图,通过情绪感知再去细化意图,给予更深的解读。

 

【子轩】这个怎么说,有什么产品吗?

 

【丽川】这个还真有,我们正在设计一个自动伴唱功能。在播放歌曲的时候,察觉你在跟唱,那么就会切入一个模式,去掉原生,放伴奏歌曲,一秒进入K歌环节。

 

 

【子轩】这真是一个激动人心的时代。我们用最自然的方式和一个智慧的对象对话,满足我们不同的生活诉求。

 

DuerOS设计团队真的是太体贴,太贴心,太专业了。丽川,你一定是小度吧,我问了你这么多问题,都很有条理的回答我了。

 

【丽川】你才是小度呢~未来的小度,其实就像是你这样自然的与人交谈,像我的朋友,能很好的倾听,总结!

 

【子轩】让我们共同期待DuerOS 设计团队给大家带来更多的良好的体验,让我们共同期待智慧型人机对话交互时代的到来!