尖叫连连!这是谷歌I/O带来的新惊喜:智能助手零延迟对话、3D鲨鱼「上舞台」

1,871 阅读14分钟
原文链接: mp.weixin.qq.com

机器之心报道

机器之心编辑部

北京时间 5 月 8 日凌晨,一年一度的谷歌 I/O 大会在加州山景城如期开幕。今年的大会上,除了常规的安卓 Q 版本更新以外,新手机和「家庭智能设备中心」Nest Hub 显得更加引人注目。而去年惊艳的「能和人打电话的 AI」Duplex 也有了新升级。

前有微软 Build 大会推出多个重磅产品,谷歌 CEO 桑达尔·皮查伊并不希望被抢去风头。在阵阵掌声中,一个又一个新应用与新产品呈现在了人们的眼前。

「今天我们发布的新产品和设备,有关你的工作、你的家庭和你的生活。」皮查伊在大会 Keynote 开场白中表示。

「鲨鱼上舞台」的谷歌搜索

搜索,是谷歌的核心业务。Pichai 首先介绍了谷歌搜索添加的新特征。

去年,谷歌发布 Google News 新特征 Full Coverage。如今谷歌把 Full Coverage 功能加入到了搜索中,从而更好地组织与搜索主题相关的资源。以搜索「黑洞」为例,谷歌使用机器学习识别不同类型的文章,全景展示与搜索词条相关的故事。此外,Podcasts 也将融入到谷歌搜索中。

但谷歌搜索最令人尖叫的新特征是视觉展示。使用计算机视觉与增强现实,谷歌进一步强化了搜索体验:3D。

 例如搜索大白鲨,查看 3D 模式,然后可以直接把它搬到舞台中央!

当然,这一功能并非只是噱头,它还有很强的实用性,例如购买鞋子时,可以把 3D 展示拉入现实场景,看鞋子和自己的衣服是否搭配,从而提升购物体验。

搜索,只是计算机视觉技术应用的场景之一。从今天的大会上,我们可以看到谷歌在 CV 上的研究已经融入谷歌的产品生态中,例如通过 Assistant、Camera 等 APP,用户可以借助 Google Lens 识别菜单中的热门菜品;通过 Google Go,翻译图片中的外语,并进行语音诵读。

接管一切的智能助手

介绍完了视觉相关应用,进入语音部分。

去年的 I/O 大会上,Google Duplex 和人类打电话订餐馆的表演震惊了世人。但当时 Duplex 只能通过手机语音订餐馆,今年谷歌把该功能升级成为 Duplex on web,让人工智能可以帮助你在电脑和手机上自动订餐、订机票、打车了。以打车为例,新版的 Duplex 可以自动填充乘车人信息,使用者只需根据需要作出修改并确认即可。

此外,谷歌在模型压缩方面的研究也有了回报。Pichai 介绍了谷歌取得的一项新的里程碑,近年来深度学习的发使得谷歌能够把 100GB 的语音识别模型压缩到 0.5GB,从而让 Google Assistant 在移动端变得更快。

 有多快?移动端实时识别语音速度提升 10 倍!谷歌工作人员的演示引起了现场观众的阵阵尖叫。

今天的语音助手和人的对话已经接近自然,在与 Google Assistant 对话中,用户不在需要每次说「hey,Google」唤醒词,且能跨越手机上的 APP 工作,例如在短信对话框让 Google Assistant 搜索一张图片发给好友。

此外,Google Assistant 还加入了一些新功能,例如 Personal References 能够为你优化沟通结果;通过说"Hey Google, let's drive.",开启谷歌助手驾驶模式,不过这个功能要在今年夏天才会到来。

预计在今年下半年新的 Pixel 手机中,你就能看到新一代的 Google Assistant 了。

模型偏见与数据隐私

「以隐私与安全为核心,开发我们的技术」,这是 Pichai 介绍过前面如此多强大的 AI 应用之后强调的重点。

随着深度学习在我们日常生活中的应用越来越普遍,我们不得不重视神经网络的一大问题:模型可解释性。在使用大量数据训练深度学习模型时,一个普遍的担心是它们会学习到人类所拥有的偏见。

为了保证 AI 模型不会学习到这种偏见,谷歌做了大量研究提升模型透明度。

首先,Pichai 介绍了谷歌曾发布的一种方法:TCAV。

以识别斑马的模型为例,使用了 TCAV 方法,能够理解每个概念 (如条纹)对模型预测的重要性。

TCAV 相关论文:https://arxiv.org/pdf/1711.11279.pdf

除了提升模型透明度,谷歌建立「AI for Everyone」的另一种方式是保证产品的安全与私密性,让人们清楚、明白数据所带来的选择。

从 2004 年到 2018 年,谷歌为其所有的产品添加了大量安全保护特征,包括 Google Takeout、Activity Controls,以及如今谷歌账户的自动(数据)删除设置、谷歌地图的匿名模式。

「我们想要使用更少的数据,为用户做更多的事。」联邦学习为谷歌的这一愿景提供了解决方案。

2016 年,谷歌提出联邦学习用于解决安卓手机终端用户在本地更新模型的问题,从而保障数据交换时的信息安全、保护终端数据和个人数据隐私,保证合法合规的前提下,在多参与方或多计算结点之间开展高效率的机器学习。

以谷歌 Gboard 为例,单独的设备上学习无法为用户主动推荐经常用到的词汇,但加上联邦学习,就能在用户多次使用相关词汇之后自动推荐。如今,大量设备的 Gboard 都已经使用到了联邦学习,在输入时为用户推荐单词与表情。

安卓 Q:加入防沉迷功能

在搜索之外,安卓(Android)系统是谷歌今天成功的重要原因之一。在 I/O 大会上谷歌透露,今天全球约有 25 亿台正在运行的安卓设备。它已经成为了谷歌以及大多数其他公司部署新应用最优先的平台。如谷歌 AI 语音助理、人工智能图像识别产品等。Android 也是 Wear OS、Android Auto 和 Google 的流媒体电视平台 Android TV 的基础。

Beta 版的安卓 Q 已经在一些开发者手中出现一段时间了,其中包括广受人们欢迎的系统级暗色模式。在华为和三星推动下,安卓 Q 也加入了对折叠屏手机的完整支持:在打游戏的时候,手机在副屏幕和主屏幕(折叠屏)上可以无缝立即切换显示。谷歌智能推荐功能现在已经可以预测你下一步的动作了。而「设备上学习」功能的存在可以让手机越用越聪明。

手机好用,但过于沉迷也不是好事,谷歌特意在安卓 Q 中加入了 Focus Mode,可以让用户选择屏蔽邮件、信息的提示。谷歌表示在美国,孩子开始接触手机的年龄已经下降到 8 岁左右了。安卓 Q 也引入了家长模式,可以让父母观察孩子们的手机使用了哪些应用,并控制他们的使用时间。

安卓 Q 上内置了 Live Caption 功能,可以为任何手机正在播放的视频实时显示字幕,这是此前帮助听障人士的功能 Live Transcribe 的升级版,适用于从 Youtube 视频到相册中视频的任何视频内容。「它不仅可以帮助听障人士无障碍地接触更多信息,也可以在普通人不方便打开声音的时候安静地观看视频。」桑达尔·皮查伊介绍道。

值得一提的是,Live Caption 功能可以完全在设备端运行,在不联网甚至飞行模式下也可以实时生成字幕。这得益于谷歌在设备上机器学习方面取得的突破,他们将模型进一步缩小,使得数据可以直接在客户端进行处理,无需离开手机上传到云端,可以有效保护用户隐私。

随着 I/O 大会的召开,安卓 Q 的第三版测试也已开始,首批将在这些品牌的手机上出现,其中包括华为、小米、vivo、oppo 和一加。

由于 Beta 版是面向开发者的,在安装前请三思而后行,除了所有 Pixel 手机之外,安卓 Q Beta 3 还支持华为 Mate 20 Pro、小米 9、一加 6T 等机型。Google 让 Pixel 所有者只需使用谷歌账号登录,然后选择兼容测试版的相应设备即可加入测试阶段。你可以通过这种方式获得测试版更新,就像通常用于稳定版本的系统一样。

「平价版」Pixel 手机

谷歌从未在 I/O 大会上发布新手机,但今年是个例外。今天,谷歌在 I/O 大会上发布了 Pixel 家族的两款新机 Pixel 3A 和 3A XL,并表示,这是为了让全球更多人能够接触到最先进的人工智能技术。

谷歌首次在 I/O 大会上开了场「手机发布会」,推出了 Pixel 3a 和 3a XL。

Pixel 手机永远不是硬件配置最好的那一个,不过它总会最先得到谷歌官方带来的新技术应用,如 Duplex、Night Sight 等。这些功能不受手机硬件的限制,更多的是谷歌的开发水平和利用人工智能能力的体现。谷歌特别提醒道:Pixel 3a 将会得到谷歌未来三年内所有新技术升级的保证。

两款手机都有相同的背面指纹识别、1220 万像素单摄像头(前摄像头 800 万像素)以及 OLED 屏幕,尺寸分别为 5.6 寸和 6 寸,电池容量分别为 3000mAh 和 3700mAh,据说可以至少满足「长达 30 小时的使用时间」。两款手机都有黑白粉色三种颜色可选。

在最重要的配置上,Pixel 3a 和 Pixel 3a XL 搭载骁龙 670 处理器,运存 4G,存储容量 64G。

谷歌希望新技术可以为更多人服务,但发现当今的高端手机越来越贵了,因此希望让 AI 技术能够在普通配置的手机上也能呈现。新手机就是这种思想的载体。

「Pixel 3a 保留了 3.5mm 耳机接口,并使用 AI 算法让单摄像头在各种光线下保持高拍照水准。」谷歌产品负责人 Sabrina Ellis 表示。在谷歌的展示中,低光、景深虚化、超分辨率等其他手机需要双摄像头、甚至三摄四摄实现的功能,在 3a 上都可以通过高效率的算法来完成。

使用 Pixel 就意味着可以抢先体验谷歌最新发布的各种应用,现在你已经可以用谷歌地图 AR 显示巨大的虚拟路标用来导航了。

Pixel 3a 和 3a XL 的售价分别为 399 美元和 479 美元(折合人民币 2700/3250 元),讲道理这样的价格已经可以在国内买到很多品牌的骁龙 855 级旗舰机了,可能只有喜欢尝试谷歌新 app 的玩家才会去买吧。

进军智能家居

谷歌重组了智能家居的产品线,将所有产品都集中在 Nest 旗下,希望能够让自己的智能家居设备覆盖 5 岁到 95 岁的人群。Nest Hub Max 是谷歌这次在 I/O 大会上推出最具特色的新硬件,它是谷歌的 10 英寸屏幕版本 Home Hub,是一个带有摄像头、大屏幕的智能音箱,它将成为智能家庭的控制中心,也可以作为监控摄像头或者视频通话设备。

与其他厂商声纹识别区分用户的方式不同,谷歌有一个基于人脸识别的 Face Match 功能:不同的人在 Nest Hub Max 的屏幕上看到的内容都是他们专属的。

大屏幕也让 Hub Max 可以当做一个「厨房电视」,放音乐或者用视频教你做饭。有摄像头的音箱也可以加手势识别功能,如果你的电话来了想停止音乐,冲它抬一下手就行了。

助力残障人士

在过去的一年里,谷歌曾因与政府合作军事项目而备受指责,让人怀疑谷歌变了,不再是那个坚持「不作恶」的谷歌了。在今年的 I/O 大会上,谷歌似乎竭力挽回其社会形象,致力于打造「人人可用的产品」(Accessible products for Everyone)。

大会中,谷歌多位负责人强调了其产品的可及性以及对人的帮助,尤其是对残障人士的帮助,其代表产品包括 Live Transcribe、Live Caption、Live Relay、Project Euphonia 等。

前面已经提到,Live Caption 和 Live Transcribe 都是语音转文字的应用,可以帮助到全球 5 亿的听力障碍者。

一位听力障碍人士在利用谷歌的 Live Transcribe「听」其他人讲话。

Live Relay 是一款帮助聋哑人士接电话的应用。电话接通后,语音助手会将聋哑用户想要表达的内容生成语音展现给对方,同时将对方的语音信息转换为文字呈现给聋哑人士,将电话界面转换成了聊天窗口。这款应用也适用于渐冻症等特殊疾病人群。

Project Euphonia 是专为中风、口吃等语音不清晰的人群打造的项目。这些人无法使用普通的语音模型,需要对模型进行个性化训练。研究人员收集了大量来自目标人群的语音数据,使得这类人群也能用上谷歌最新的语音技术,提高其产品的可及性和公平性。

Bert 太牛,上台吹一波!

在今天上午的 keynote 中,最后上台的是 Jeff Dean 大神,这在之前的谷歌 I/O 中极为罕见。

在一片掌声中,Jeff Dean 介绍了谷歌 AI 近来取得的新成果,特别是在自然语言理解方面。Jeff Dean 说,「我们想要计算机有人类一样流畅的语言能力」。因此过去数年,谷歌 AI 在这方面做了大量工作,特别是 2017 年提出 Transformers,取得了极大进步。

后来,在 Transformers 的基础上,谷歌提出 Bert,在 11 种语言处理任务上都取得了顶尖成果,引发业内巨震。如今,Bert 模型广为人知……

除了 Bert,Jeff Dean 在演讲中简略提及了 TensorFlow 框架,谷歌 AI 医疗团队的 Lily Peng 介绍了一项她们在医疗领域的最新研究成果:从 CT 图像识别肺癌,相关论文将发表在 Nature Medicine 期刊上。

小结

未来你的生活或许会是这样:早晨,在厨房打开 Nest Hub 的食谱学做早餐,打开 Pixel 手机看到明天要去的城市,使用 Duplex 租一辆车,谷歌地图会帮你计划好行车路线——而在整个过程中,你不需要动一个手指。这就是谷歌 I/O 大会为我们展示的 AI 智能时代新体验。

本文为机器之心报道,转载请联系本公众号获得授权

✄------------------------------------------------

加入机器之心(全职记者 / 实习生):hr@jiqizhixin.com

投稿或寻求报道:content@jiqizhixin.com

广告 & 商务合作:bd@jiqizhixin.com