在本周的Google I / O主题演讲中,最有趣的演示之一是将于今年晚些时候推出的新版Google语音助手。一位Google员工要求Google助手调出她的照片,然后将她的照片与动物一起展示。她轻拍一个,说:“送给贾斯汀。” 照片已放入通讯应用程序中。
从那里,事情变得更加令人印象深刻。
她说:“嘿,谷歌,给杰西卡发一封电子邮件。” “嗨,杰西卡,我刚从黄石公园回来,完全爱上了它。” 电话记录了她的话,将“ Hi Jessica”放在自己的行上。
进一步阅读
谷歌首次推出“下一代”助手,将用于下一代Pixel手机
她说:“受到黄石冒险的影响。” 助理了解到,应将“黄石历险记”放入主题行,而不是消息正文。
然后,在没有任何明确命令的情况下,该名女子回到命令邮件正文的位置。最后,她说“发送”,Google的助手做了。
谷歌还表示,谷歌也在努力扩大助手对个人推荐的理解。如果用户说“嘿Google,妈妈家的天气如何”,Google就能弄清楚“妈妈的房子”指的是用户妈妈的家,查找她的地址,并提供天气预报她的城市。
谷歌表示,其下一代助手将在今年晚些时候推出“新的Pixel手机”,即目前Pixel 3系列之后的手机。
显然,罐装演示和运输产品之间存在很大差异。我们将不得不等待,看看与新助手的典型交互是否能很好地工作。但是Google似乎正在朝着建立一个虚拟助手的梦想稳步前进,该助手可以胜任语音处理。
I / O上的许多公告都是这样的:不是发布主要的新产品,而是使用机器学习技术逐步使一系列Google产品变得更加复杂和有用。谷歌还吹捧其机器学习软件的一些幕后改进,这将允许谷歌创建的和第三方软件都使用更复杂的机器学习技术。
如果您问一下机器学习专家,当当前的深度学习热潮何时开始的时候,许多人会指出主要作者Alex Krizhevsky之后的2012年论文“ AlexNet”。作者是来自多伦多大学的三位研究人员,他们参加了ImageNet竞赛,将图像分类为一千个类别。
ImageNet组织者提供了超过一百万个带有标签的示例图像来训练网络。AlexNet通过使用具有八个可训练层和650,000个神经元的深度神经网络,实现了前所未有的准确性。他们之所以能够在如此大量的数据上训练如此庞大的网络,是因为他们想出了如何利用为大规模并行处理而设计的消费级GPU。
AlexNet展示了所谓的深度学习三足凳的重要性:更好的算法,更多的训练数据和更多的计算能力。在过去的七年中,公司一直在努力增强其在所有三个方面的能力,从而获得越来越好的性能。
Google几乎从一开始就一直领导这项指控。在AlexNet于2012年赢得名为ImageNet的图像识别竞赛之后的两年,Google凭借更深入的神经网络参加了竞赛并获得了最高奖。该公司已聘请了数十名顶级机器学习专家,其中包括2014年对深度学习初创公司DeepMind的收购,使该公司始终处于神经网络设计的前沿。
该公司还拥有无与伦比的大型数据集访问权限。一个2013文件描述谷歌如何使用深层神经网络在数以千万计的图像通过谷歌街景拍摄的识别地址编号。
Google在硬件方面也很努力。2016年,谷歌宣布已创建了一个名为Tensor Processing Unit的定制芯片,专门设计用于加速神经网络使用的操作。
“尽管Google早在2006年就考虑为神经网络构建专用集成电路(ASIC),但在2013年这种情况变得紧急,” Google 在2017年写道。“那时我们意识到神经网络的计算需求正在迅速增长。可能需要我们将运营的数据中心数量增加一倍。”
这就是为什么Google I / O在过去三年中一直专注于机器学习的原因。该公司认为,这些资产(一小群机器学习专家,大量数据以及自己的定制芯片)使其成为利用机器学习带来的机遇的理想之选。
今年的Google I / O实际上没有发布很多与ML相关的新产品,因为该公司已经将机器学习融入了许多主要产品中。Android拥有语音识别和Google Assistant已有多年了。长期以来,Google相册具有令人印象深刻的基于ML的搜索功能。去年,谷歌推出了Google Duplex,它代表用户使用由软件创建的逼真的人类语音进行预订。
取而代之的是,有关机器学习的I / O演示集中在两个方面:将更多的机器学习活动转移到智能手机上,以及使用机器学习来帮助处境不利的人(包括聋哑,文盲或患癌症的人)。
过去使神经网络更准确的努力涉及使它们更深,更复杂。这种方法产生了令人印象深刻的结果,但是它有很大的缺点:网络经常变得过于复杂而无法在智能手机上运行。
人们大多通过将计算工作卸载到云来解决这个问题。谷歌和苹果语音助手的早期版本会录制音频并将其上传到公司服务器进行处理。一切正常,但它具有三个明显的缺点:延迟时间较长,隐私保护功能较弱,并且该功能只能在线运行。
因此,谷歌一直致力于在设备上转移越来越多的计算。当前的Android设备已经具有基本的设备上语音识别功能,但是Google的虚拟助手需要Internet连接。谷歌表示,这种情况将在今年晚些时候随着谷歌助手的新离线模式而改变。
这项新功能是本周演示演示闪电般快速响应时间的重要原因。谷歌表示,对于某些任务,助手将“快10倍”。
进行此切换的关键是显着减小用于语音识别的神经网络的大小。无论是Google内部还是外部的研究人员都在研究这个问题已有一段时间了。
例如,2016年的一篇论文描述了一组研究人员如何精简经典的AlexNet架构。他们发现卷积神经网络中的某些元素会增加很多参数,而不会大大提高网络的准确性。通过明智地改造网络结构,他们能够将AlexNet中的参数数量减少50倍,而不会降低其准确性。进一步的压缩技术使他们可以将模型的大小压缩500倍。
谷歌表示,它已经使用更复杂的神经网络实现了类似的壮举,该网络用于理解Google助手命令,从而将网络大小从100GB减小到约500MB。
Google还一直在努力使Google Assistant更快地做出响应。关于谷歌如何做到这一点的线索来自几位谷歌研究人员在2018年发表的一篇论文。其他研究人员已经手动调整了神经网络的结构,而Google研究人员则使该过程自动化。他们使用软件对不同的神经网络配置进行了实验,并考虑了实际智能手机的功能和局限性,从而测量了所得网络的速度和准确性。
今年早些时候,谷歌宣布了另一项举措,以加速设备上机器学习功能。TensorFlow是Google创建的用于机器学习应用程序的框架。TensorFlow Lite是该软件的移动版本。1月,Google宣布TensorFlow Lite现在在某些智能手机型号上支持GPU加速。
我们还看到Google和其他公司开始为智能手机开发AI专用硬件。Pixel 2推出了由Google设计的新型图像处理芯片。 苹果最新的芯片包括针对机器学习应用进行了优化的“神经引擎”。高通公司的最新芯片还带有用于AI的专用芯片。有趣的是,下一代Pixel手机是否配备了功能更强大的自定义硬件,以支持Google的设备上助手和其他机器学习应用程序。
今年早些时候,谷歌推出了一种名为Edge TPU的芯片,这是该公司过去几年在其数据中心拥有的机器学习芯片的一种小型,低功耗版本。该公司目前正在将其作为“物联网”产品进行营销,但是很难想象Google将在下一代Pixel手机和其他未来的硬件产品(如智能扬声器)中使用该芯片的版本。
Google不仅为自己的应用程序使用了更多的设备上机器学习。该公司还为第三方开发人员提供了一个名为ML Kit的库,该库可用于iOS和Android。它为开发人员提供了现成的机器学习模型,用于执行常见任务,例如识别图像中的文本和对象,检测面部以及将文本从一种语言翻译成另一种语言。
本周,Google宣布了一种新的ML Kit API,可用于59种语言的设备上翻译,提供可在有或没有网络连接的情况下运行的私有快速翻译。ML Kit现在还提供了执行设备上对象检测和跟踪的功能。
Google翻译应用程序已经允许用户将相机对准现实世界中的一段文字,并查看即时翻译成另一种语言的信息。现在,用户将能够请求软件以原始语言或其他语言大声阅读文本,并在阅读文本时突出显示相应的单词。
Google强调了其最近推出的实时转录应用程序,该应用程序为听障人士提供了真实对话的字幕。一项名为“实时字幕”的新功能将使Android用户可以显示手机正在播放的任何音频的实时转录。另一个称为实时中继的功能使聋人可以将电话当作文本聊天来对待:呼叫者的话被实时转录为聊天消息。接收者可以打回单词并让他们大声朗读给呼叫者。
Google还尝试使用机器学习来帮助患有退化性疾病的人,使他们完全无法说话。当前,这些人经常不得不缓慢地键入消息(如果不是用手指,而是用眼睛),然后用合成语音阅读。Google希望基于机器学习的软件能够吸收更复杂的线索,从而使这些人能够“说话”得足够快,可以实时参与对话。
Google的使命是整理世界各地的信息,并使其易于使用。Google在该任务说明的前半部分取得了很大进展-它可能比该星球上的任何其他公司拥有更多的数据访问权限。但是,使信息更有用将需要软件以更复杂的方式理解信息,而这正是机器学习技术可以做到的。
在本周的I / O大会上,Google发出了明确信号,表明Google的机器学习推动才刚刚起步。该公司正在投入大量资源来开发新的芯片,算法和平台,因为它认为这些技术有很大的空间来改进其现有产品-或允许创建全新的产品。Google相信,它拥有独特的人才和资源组合,可以充分利用这些机会。