阅读 998

给你打电话的可能不是人!谷歌Duplex颠覆智能助手

策划 | Vincent
组稿 | Vincent,Natalie,Debra
编辑 | Natalie


AI 前线导读: 北京时间 2018 年 5 月 9 日,对于全球的科技媒体来说都将会是个忙碌的日子,不仅微软 Build 2018 开发者大会第二天的议程在今天举行,Google I/O 开发者大会同样也在这一天拉开序幕。相比 Build 大会,Google 做的准备更加充分,黑科技层出不穷,最让人印象深刻的莫过于已经进化到几乎和真人一模一样的 Google Assistant。

更多干货内容请关注微信公众号“AI 前线”,(ID:ai-front)
打 Call!以假乱真的 Google Assistant 降临!

先来回顾一下这让人有些“瑟瑟发抖”的演示片段:

v.qq.com/x/page/l064…

你真的能听出来这位打电话预约的客人到底是不是人类吗?

Google CEO Sundar Pichai 一再强调:这是真实的电话录音!

接着,视频演示了谷歌语音助手帮助主任预定美发服务,包括时间、地点、预约服务内容等,语音助手都能根据说话人的讲话做出比较自然的反应:

最后视频显示,语音助手顺利帮助主人预约到了时间,整个过程非常顺利。

接下来的另一段录音视频演示了语音助手在遇到复杂和未预料到的情况下如何做出反应。演示中说的是在原定预约时间需要 5 位客人才能预约,谷歌语音助手会贴心地问“等位时间需要多久”这种人类都有可能想不到的小细节,结果非常顺利地约到了没有客位限制的时间。

这波操作得到了台下观众的一片掌声和会心微笑,看来大家对这个小助手是相当满意了。

不过也有人开玩笑称,这个助手不会冒充我打点电话吧?连电话也能替我打了,不想搭理的人打电话过来直接扔给语音助手,连应酬敷衍都省了,那还活着干嘛?!玩笑归玩笑,不得不承认 谷歌助手功能还是挺强大的——不过目前仅限在演示里,因为并没有在现场实际操作,难道是怕现场出差错?还是这种 666 操作的稳定性并不是特别强,谷歌怕在全球人民面前出糗?Google Assistant 是不是真的这么 666,有待大家用上这个功能之后再做评判。

背后的黑科技 Duplex

据官方介绍,Google Assistant 之所以能够在电话中做到和真人几乎一模一样,背后还要依赖于这项被称为 Google Duplex 的技术,这是一种用于通过电话进行自然对话以执行“真实世界”任务的新技术。该技术旨在完成特定任务,例如安排某些类型的约会。对于这样的任务,系统使对话体验尽可能地自然,使人们能够正常对话,就像他们对另一个人讲话一样,而不是机器。

为了让对话听上去尽可能自然,Google 除了在声音上下了功夫之外,更重要的是将自然语言理解的能力提升了不少。在自然的对话中,人们说话比机器说话时要快得多,经常听不太清楚,所以语音识别更困难,而且会产生更高的单词错误率。在电话通话中,问题更加严重,因为通常电话通话中背景噪音大,音质不佳。

在较长的谈话中,相同的句子可以根据上下文具有非常不同的含义。例如,当预订“Ok for 4”可以表示预订时间或人数。通常情况下,相关的上下文可能会返回几个句子,这个问题会因电话中增加的字错误率而变得复杂。

Duplex 的核心是专门为应对这些挑战而设计的循环神经网络(RNN),使用 TensorFlow Extended(TFX)开发。为了获得高精度,设计者们在匿名电话会话数据的语料库上训练 Duplex 的 RNN。该网络使用 Google 的自动语音识别(ASR)技术的输出,以及来自音频的功能、对话的历史记录、对话的参数(例如预约的所需服务或当前时间)等等。设计者为每项任务分别训练理解模型,跨任务利用了共享语料库。最后,使用 TFX 中的超参数优化来进一步改进模型。

传入的声音通过 ASR 系统进行处理,然后用上下文数据和其他输入分析后生成响应文本,最后通过 TTS 系统朗读响应文本。

正如我们在视频中看到的那样,Google Assistant 在对话过程中甚至还会发出:eh,well 等语气助词,这也是设计者们为了让它更像人所做的精心设计,在系统处理信息的过程中,发出这样的声音会让对方感觉更像是人在思考。

另外,Google 还重点强调了 延迟 的重要性。举个例子,当人们说了一些简单的话之后,例如“喂?”,他们所期待的是即时响应,这时候人们对于延迟更敏感。当检测到需要低延迟时,Duplex 会使用更快的低置信度模型(例如语音识别或端点)。在极端情况下甚至不等待 RNN 返回响应,而是使用更快的近似响应(通常会犹豫一下再做响应,就像一个人在没有完全理解对方的情况下也会稍有迟疑)。这使 Google Assistant 在这些情况下的响应延迟小于 100 毫秒。有趣的是,在某些情况下,研究人员发现引入更多的延迟反而会让对话变得更自然,例如在回答一个非常复杂的句子时。

基于 Google Duplex,用户无需直接打电话,只需与 Google Assistant 进行交互,后面拨打电话的事情完全由 Google Assistant 在后台进行,用户无需介入其中。 对于更喜欢发邮件和信息,一想到要打电话就紧张手抖的众多社交恐惧症“患者”来说,感觉是一项重大福利呢……

根据官方的介绍,Duplex 配置在 Google Assistant 中,将会为用户解决多种生活场景里的事务,现场演示的只是它很小的一部分功能。不过说到这里,其实小编脑洞有些大开,想提出一些问题:

之前的智能助手都是用户发出指令,智能助手执行,但是打电话、订餐位之类的事情还是需要人来操作。然而经过 Google 这么一来,人的作用似乎就更少了,只需要一句话,智能助手全帮你办了,一旦交流中间出现什么问题,这个责任该谁来负呢?

不过谷歌官方也重点说明,目前 Google Duplex 只能局限于某些封闭领域,只有当这些领域足够狭窄才适合 Duplex 进行深入探索。Duplex 只有在这些领域经过深度训练之后才能进行自然对话,它并不能进行更加广泛的一般性对话。

Google Assistant 还有哪些神奇的新特性?

除了 Duplex 技术之外,在今天的 I/O 大会上,Google 也宣布了虚拟助手其它非常多的功能更新,其中有不少十分强大……

新的声音

可能用户已经听腻了 Google Assistant 的标准声音,这也是为什么 Google 决定为它再增加 6 种不同的男声和女声。其中就有一种来自于曾经在《爱乐之城》里出演过的美国歌手约翰·传奇 (John Legend)。

不过,厉害的并不是请来约翰·传奇,而在于 Google 为 Assistant 生成新声音的超高效率。

借助 DeepMind 的深度神经网络模型 WaveNet,只用很少量的语料,辅以强大的计算,Google 就可以制作出和原始语料相似度极高的语音形象,用时从几个月降低到了几百小时。

更强大的多轮对话和多重任务处理能力

Google Assistant 副总裁 Scott Huffman 播了一段网上超火的一名老奶奶不太会使用 Google Home 智能音箱的影片,并指出使用者体验还有很大的进步空间。之后他示范了新功能:Multiple Actions——增强智能语音助理与人类自然、多轮“对话”的能力。

过去跟 Google Assistant 对话,需要每一句前面都加一个唤醒词 “Ok Google”。从今天开始这个设定终于退役了。除此之外,Google Assistant 还能理解一句话里表达的多个意思,一次性处理多重任务。

比如上图这个例子中,用户先询问了勇士队的比赛结果,然后询问了勇士队的下一场比赛,最后让虚拟助手提醒他回家的时候找一下他的毛线衫,三次对话之间只在一开始加了一个唤醒词。

对于人类来说,理解一个情境下连续的几句话非常简单,但在过去,别提多重任务,某些虚拟助手连一个简单的任务都完成不了。如今,Google Assistant 看上去已经能够很好地处理多重任务了。

Gmail 智能写邮件 (Smart Compse)

你应该知道 Gmail、Inbox 支持智能回复,但过去只有“感谢”、“就这样”之类的简单回复。很快,Gmail 将获得一个强大的智能写邮件功能。就像搜索引擎的自动完成一样,Gmail 也会根据你写的上一个单词自动建议下一个单词,直到你把整个邮件都写完……

听起来有点玄乎,可以看看效果:

据介绍,Google Assistant 已经接入了全球范围超过 5 亿个设备,分为 5000 种不同的设备,车品牌就超过 40 个。

除了自然语言处理能力的改善之外,Google 将另一个改进的地方放在视觉的辅助——Visually Assistive,Google Assistant 产品经理主管 Lilian Rincon 举例,例如你问星巴克咖啡店,手机就会同时展示出咖啡店菜单内容。

One More Thing

虽然官方文章里没有明说,但是我们也猜得到,Google Assistant 水平的提升,离不开背后的训练模型与基础设备,如果不出意外,Google Assistant 很有可能采用了本次大会新发布的 TPU 3.0 进行训练。

在正式介绍 TPU 3.0 之前,我们要先打个岔,聊聊 GPU 生产商英伟达最近的一个小动作。在 IO 大会开始前,英伟达突然爆出了一组最新型号 GPU V100 的数据:

  • 在训练 ResNet-50 时,单个 V100 张量核心 GPU 可实现每秒 1,075 张图像,相比上一代 Pascal GPU,性能提升 4 倍。

  • 一台配备 8 台 Tensor Core V100 的 DGX-1 服务器可实现每秒 7,850 张图像,几乎是同一系统上每年 4,200 张图像的 2 倍。

  • 由八台 Tensor Core V100 供电的单个 AWS P3 云实例可在不到三个小时的时间内训练 ResNet-50,比 TPU 实例快 3 倍。

如果没有猜错,英伟达对比的应该是上一代 TPU,即 2.0 版本。选在这个时候发布,想必英伟达也是动了些小心思的。可是,TPU 3.0 的发布,可能要让英伟达的小心思落空了。

TPU 3.0 除了在性能上提升至上一代产品的 8 倍,Waymo 的 CEO 更是表示,在应用了新版本 TPU 的无人车训练中,性能提升了 15 倍。 同时,这一代 TPU 还加入了液冷系统,基于新架构,可以执行更大、更复杂更准确的模型,并解决更困难的问题。目前 TensorFlow 是使用率最高的深度学习框架,特别是 Cloud TPU 商用之后,能够吸引更多人来使用其服务。

昨天在微软 Build 2018 开发者大会上,针对 FPGA 的 Project Brainwave(脑波计划)也发布了预览版,虽然在芯片领域稍有落后,不过可以看出,微软也在奋力追赶。前不久,Facebook、阿里巴巴等企业也宣布了进军芯片领域的计划,下一个决胜的战场是否会从芯片开始呢?

参考资料:

https://ai.googleblog.com/2018/05/duplex-ai-system-for-natural-conversation.html

mp.weixin.qq.com/s/gG8mdlkOo…

https://devblogs.nvidia.com/tensor-core-ai-performance-milestones/


关注下面的标签,发现更多相似文章
评论