从Medium中看到了一篇关于天猫精灵语音交互的文章。作者是 Nathan ,目前任职于阿里巴巴天猫精灵智能音箱设计团队。
因为已经入手了天猫精灵方糖,使用了很长时间,所以在看文章的过程中,会将头脑中浮现出的使用天猫精灵时遇到的问题与文章所述内容进行匹配。
下面依据原文的行文思路进行重构,并结合使用已久的天猫精灵对其交互体验进行一个简单的分析。
先了解下语音交互的过程
天猫精灵如何分析用户需求?
在这之前,咱们先了解下人类特有的沟通方式。 其中有一个特点就是:所说并非所想。
现实生活中,我们说的话和我们内心想的关联很复杂,这种行为在语言学上,叫做 会话隐含意
特点是高度依赖环境,具有不确定性。
比如
你一直打游戏,女朋友不理你。
问她:你生气了么?
你女朋友说阴着脸说:没生气,你玩吧。
如果你天真地以为她真的没生气还继续玩下去……
ennnnnn……
那你没有单身实在是佛祖恩赐
再比如
甲方说:“字体放大”,其实他就是想让文字突出些, 你可以增强颜色对比,改变字重,改变颜色的方式去实现,不一定顺从地加大文字。
你爸说:“儿子,你忙工作,别回来了。”
其实老爷子内心想的是好久不见儿子了,啥时回来呢。
所以人与人之间的交流,所说并非所想。 同样,人机之间的语音交流也存在这个问题。
原文作者是这样解释的
用户问精灵:今天出门要带伞么?
男性:关注点可能是降雨情况
女性:关注点可能是日晒情况
如果当下天气状况是乌云密布,大概率上是询问是否降雨
这时需要设计师构建细致的判断逻辑,辅助计算机进行语义理解
对天猫精灵是否掌握了会话隐含意进行测试, 现实使用情况如下
不管男性还是女性进行询问,回答都是一样,且并没有直接回答出是否带伞这个问题。只是告诉我多云温度空气质量有风。
那么我究竟带不带伞呢?没有得到反馈。
除了分析用户意图还,还需要
设计对话体验剧本
正如前文所说,只有得到符合预期的反馈,用户才会认为计算机理解了自己的意思。
用户对于对话式交互的预期来源于生活经验,因此,计算机的反馈话术则需要具备“人格化 ” 的特征。所谓“人格化” 的话术需要具备三点特征
我们逐个拆开看
1. 符合统一的人格设定和语言特质
语言是人类智慧的象征,用户对语音产品会产生“移情”效应,不可避免地为语音产品具有你人的属性。
为语音系统设定一个固定的人格类型,并设计具有一致性的语言体系,避免给用户造成人格的“分裂感”。
这里插播一条罗老师的语录
2. 符合自然语言的会话结构和逻辑
一个完整的对话结构必须满足“开始模块”和“结束模块”。
跳转话题时需要一个 话题枢纽
用简单的词语来过渡,如“对了”,“其实”,也可以用一个或多个句子来过渡话题。没有话题枢纽,对话显得生硬,不论是什么类型的对话设计,都需要按照这样的模块细化展开。
咱们现实生活中是这么沟通的
“老王,你那个设计图啥时发我,赶紧的?”
“一会就发你,哎对了老大,你昨天订的哪家饭?”
很自然有木有
如果没有话题枢纽,会是这样对话
“老王,你那个设计图啥时发我,赶紧的?”
“一会就发你,你昨天订的哪家饭?”
老大觉得你是个智障,说话颠三倒四的
这个“哎对了”,就是话题枢纽
我们看看天猫精灵的话题枢纽做得怎么样
我只能说沟通太费劲了,正常的线性沟通都不能做到,还谈什么话题枢纽呢?
3. 符合对话场景中的交际习惯
公共区域
偏重效率,隐私,服务场景话题延展性较低;设计中心围绕核心需求展开。
私域
偏重情感体验,话题延展性较高;需考虑更多交互细节。
现实使用情况
放在家里使用,误唤醒次数还是挺多的,如果放在公司。一旦误唤醒,岂不是很尴尬?
前面说了分析用户意图,设计对话体验剧本,最后说说
语言学中的语用规则
真实口语中的语用规则是掺杂凌乱的口语、语法不严密。一般认为中文语法的名词中心语是后置的,修饰语在中心语前不断叠加,称为“向心结构”。反之则为“离心结构”。
如美丽的风景、旋转的车轮,都是向心结构,修饰语在前,中心语在后。
以点咖啡为例
向心结构这么说
我要打包一杯大杯香草口味的热拿铁
离心结构这么说
一杯拿铁,大杯,热的,加香草,打包啊……还是冰的吧,那个……去冰
口语中,语言是伴随思考进行的,还受到思维逻辑结构的影响,这是跨句子范围的“语用规则”
人在提出需求时,常常遵循:提出-补充-修改-澄清的逻辑:最核心的需求往往最先提出,然后对需求进行细化描述 (想想产品经理提需求时是不是这样 )
运用这种逻辑对何时截断用户的语音,何时执行指令,在遇到用户停顿时如何处理,对这些前端操作进行辅助优化后,用户意图识别率和执行正确率都明显提升。
在使用天猫精灵时经常会出现问题
-
离心结构说需求,精灵毫无招架能力
-
需求说到一半,精灵打断
-
说完需求,精灵说没听清
-
说完需求,精灵反馈答非所问
如何设计符合用户思维习惯的对话剧本?
人和人的日常对话,通常在不同话题间转换。 用户对人机对话的预期也是如此,不是冷冰冰的一问一答,而是真实自然,与用户固有的思维习惯类似。
为了立体地塑造出具有EQ的机器语言,让用户的对话体验更加生动有温度,为天猫精灵设计了场景话术包,其具有以下优势
1. 模拟真实场景
以天猫精灵的天气问答场景为例
可以看出,基础的天气信息加上人格化的场景,模拟人和人之间真实的沟通场景,给用户带来符合预期的对话体验。
如果干巴巴地只说天气信息,人机对话会很呆板无趣。
2. 激发交互好奇
在每次与用户交互时,人格话术库都能够根据当下场景提供不同的对话内容,用户能够在每次对话中都能获得一些新的体验,从而引发用户对再次交互产生好奇。
每次与天猫精灵进行基于天气场景的交互时,大多数情况都会冒出“叶儿落,草儿黄,风变冷,雨变凉”这句话,听得耳朵都要出茧子了,就不能换一些其他的段子么?
这种对话方式并没有使我获得新体验,也没有激发我的交互好奇。
3. 触发用户情感
基于场景对用户表达主动的情感关怀,营造出“生活参与者”的角色形象,为用户构建起虚拟的人际关系,满足用户更高层的社交需求。
虽然天猫精灵要么总也叫我主人,我也并没有产生一种身为主人的尊贵感,相反,我觉得我是一个卖女奴的罪人……
对于目前的天猫精灵场景话术包的处理,模拟真实场景只能说是差强人意,激发交互好奇和触发用户情感,则任重道远。
一本正经的总结
目前有很多智能设备进入大众生活,打着AI的大旗,喊着用户体验的口号,招摇过市,看起来一派繁华,实则繁华过后,一地鸡毛,只有那些真正为消费者考虑的产品,才能坚持将大旗抗到最后。
完。
下周日 欢迎来撩
你可能还稀罕以下文章