阿里AI收银员上岗,49秒接单30多杯咖啡,人类又输了?

2,089 阅读8分钟
撰文 | Vincent
编辑 | Vincent
AI 前线导读:人类又输了?5 月 23 日举行的阿里云栖大会武汉峰会上,来自阿里巴巴的 AI 再次展现出了它的才能,仅用了 49 秒就搞定了 30 多杯咖啡的订单。自从那个几乎以假乱真的 Duplex 在月初的 Google I/O 大会上亮相后,全球 AI 企业,尤其是技术大厂们都开始炫起了自家语音领域的“肌肉”。

更多干货内容请关注微信公众号“AI 前线”,(ID:ai-front)


AI 接单快而准,人类又输了?

v.qq.com/x/page/s066…

“五个巧克力、两个香草拿铁,巧克力加奶油。” “两个中杯焦糖拿铁,一个热的一个冷的。” ”算了巧克力不要了。” “再要六个小杯少冰摩卡,三杯加焦糖三杯加香草” “再加一个大的冷的拿铁,去冰半糖加脱脂奶,打包。”

这是发生在 5 月 23 日云栖大会武汉峰会上的一幕。阿里巴巴机器智能技术实验室语音交互首席科学家鄢志杰以最快每秒 5 个字的语速向一台机器点单。机器对每一次对话都作出了精准响应,而站在一旁的资深咖啡师选择了中途放弃,“太快了,记不下来”。

人类咖啡师在听了鄢志杰第二次复述后完成了订单,用时 2 分 37 秒,而机器只用了 49 秒

AI 收银员上岗了,人类又输了吗?又要有一项工作要被 AI 替代了吗?

如果你问出这个问题,那么很多 AI 研究领域的专家会回答你:不,AI 是一种工具,它在很多场景里存在的目的是用来辅助。

点餐本身,对于很多咖啡师来说,是一项相对枯燥而重复的工作,他们更愿意将时间花在为顾客制作好的咖啡、制作咖啡的时候与顾客沟通了解需求和反馈,而不是将时间花在点餐这件事情上。而对于顾客来说,高峰期的排队问题也让一些顾客十分头疼,很多时间都浪费在咖啡点餐的排队等待上了。

市场上的点餐机,普遍都是触控方式的,不便于顾客快速寻找商品。特别是对于一些客人比较客制化的需求,点起来比较麻烦。

市场上常见的语音交互产品,目前普遍都是“唤醒词 + 语音指令”的形式,对于比较复杂的需求容易理解不了,并且无法真正像人与人交流那样自然交互。

鄢志杰说,这种交互方式完全打破了"语音唤醒 + 语音指令"传统命令式交互方式,我们首创的流式多意图口语理解引擎,极大地提升了对人类随意、自然的口语表达的理解力,能够做到免唤醒的自然的人机交流式的语音交互。

在上面的演示环节中,包含了修改、删除、加单等多轮对话,在整个交流过程中,顾客不需要说”hi,点单机“之类呆板的唤醒词,可直接下单,更符合人与人的自然对话。

“炫技”的背后:多模态语音解读

语音点餐机是基于阿里巴巴达摩院机器智能技术实验室的多模态人机语音交互方案的一款典型产品。该方案一方面通过语音、计算机视觉、触控等多模态融合的技术,使得公众空间的人机交互成为可能,并将之落地于业务场景,推进商业化;另一方面,阿里首创的流式多意图口语理解引擎,极大地提升了对人类随意、自然的口语表达的理解力,实现人机交流式的语音交互。

流式多轮多意图口语理解算法架构图

流式多轮多意图口语理解技术涉及到多个子任务,包括:实体信息抽取(例如产品名),长句语义分割 (即将流式口语输入切分为语义完整的句子),意图识别,多元的关系抽取 (譬如产品及其属性之间的关系),实体链接,实体指代消解等。

多模态人机语音交互方案是一个端到端的模型,直接对从用户的流式口语输入到对用户多个意图的最终理解进行建模,不再依赖子任务的模型和它们的级联,这样极大地减少了各个子任务之间的错误积累和传递。

在架构上,该方案将算法和业务分离,使用业务知识图谱有效地表达业务相关的知识,利用序列到序列的深度学习模型自动学习出用户口语输入到意图结构化表达的映射关系,利用业务知识图谱表达业务逻辑,对于这个自动的映射学习模型进行强化学习以达到弱监督的目的。 这样一方面整个系统只需要少量端到端的数据标注进行训练,大大减少了标注压力; 另一方面由于知识图谱的松耦合度,使得扩展到新的业务变得更为便捷。

据了解,阿里云这项解决方案除了可以做收银员之外,还能在地铁卖票。目前,上海地铁已经部署了这一技术。乘客直接说出目的地,售票机便可选择合适的站点和路线。这对于初到上海的乘客尤其帮助巨大,面对十几条线路三百多个站点谁都会懵。测试数据显示,普通买票耗时往往超过 30 秒,而语音购票全程只需要 10 秒左右。

细心的读者应该看到了,以上所有的应用场景,不是在人多而嘈杂的咖啡厅,就是背景噪音巨大的地铁站,噪声问题怎么解决?

AI 前线了解到,这次针对地铁和咖啡馆这类强噪声环境,达摩院首次创新研发了基于机器学习的大型麦克风阵列技术,结合深度优化的声学结构和多模态语音提取,能够自动从强干扰背景语音中提取出目标说话人语音,实现嘈杂干扰环境下的语音识别。并且,针对咖啡馆的咖啡磨豆声和人声,同时进行本地和云端的动态全链路模型匹配,实现端到端的自适应优化,以保障每一次的语音交互。

目前阿里已经在园区内的咖啡厅进行了试点,不知道在真实的应用场景中这套系统表现如何,如果有读者前往体验,别忘了回来给我们留言,说出你的感想。

语音领域秀操作,技术大厂想干啥?

有人曾这样形容自然语言处理,说它是人工智能皇冠上最为璀璨的一颗明珠,还有人这样说:只要解决了 NLP,人工智能领域 80% 的问题也就迎刃而解了。或许正是由于语音领域在 AI 研究历程中的重要性,它才会显得更加难以突破。在简化后的场景里,智能语音应用的表现总能带来各种惊喜;但到了复杂的真实环境中,它们似乎就没有那么好用了。

文章开头我们提到了那个以假乱真的 Google Duplex,AI 前线也曾对这个让人有些“毛骨悚然”的 AI 语音进行过一番解析。由于不是现场演示,看似高大上的 Duplex 近日被多方质疑造假,蒙上了阴影,不过谷歌暂时还没有回应。

在和谷歌几乎同时举行的 Build 2018 开发者大会上,微软同样祭出了一款重量级语音产品:一套可以让速记、同传和秘书同时“下岗”的智能增强会议记录系统,360 度的相机与麦克风矩阵不仅能够准确识别出所有的参会者,还可以实时记录与翻译每个人说话的内容,并且帮助你提取出重点。一旦有人说出“follow up”,都会被微软的会议系统自动记录在案。

在本月 21 日举办的微软中国 AI 大会上,微软展示了升级的中文版本,结结实实地秀出了自己在语音领域的能力。

连秀两次操作,只不过两次演示都是在封闭的模拟办公室环境中进行,虽然能够识别出说话人是谁,但是演示过程中,也并没有出现现实会议中的多人同时说话以及噪声干扰等场景。

除了 AI 大厂,不少初创公司也发现了语音领域的金矿。

罗永浩在锤子科技的发布会上展示了其自研工作站 TNT 的语音操作功能,中途“偶尔”出现的几次识别问题,不知道是因为老罗的普通话不过关,还是鸟巢那晚的风比较大,虽然褒贬不一,但也算是跨出了重要的一步。

至于未来如何,我们拭目以待。