Google曾经有过不愉快地杀死消息传递应用程序的历史,而倾向于新的通信应用程序,这些应用程序最终也被杀死了。自从与现已停用的消息服务Allo一起推出以来,Google Duo一直是一个例外。Duo一直受到Google的关注,并频繁添加新功能,例如在5G Samsung S20手机上提供1080p支持,(即将出现的)实时字幕,涂鸦以及最多12个人在群组通话中的功能。现在,Google正在应用机器学习来缓解抖动的主要问题,从而获得更流畅,不间断的音频体验。
在COVID-19隔离期间,视频通话已成为官方交流的重要方式,而不稳定的音频可能会给您或您的公司造成经济上的损失。Google承认,由于网络延迟,Duo上的通话中有99%遭受中断。这些呼叫中约有五分之一的音频丢失了3%,而十分之一的音频丢失了近8%,其中很多可能是非常重要的信息,您最终会丢失。发生这种情况的原因是数据包在传输中被延迟或丢失,并且这些数据包的缺失会导致音频故障,从而使大部分音频内容难以理解。
Google的新WaveNetEQ机器学习算法基于一种称为“分组丢失隐藏”(PLC)的技术。WaveNet EQ是一种基于DeepMind的 WaveRNN的生成模型,可创建音频块以填补逼真的填充物的空隙。通过提供大量语音相关数据来训练AI模型。由于Google Duo中的端到端加密,该模型在接收者的设备上运行。但是Google声称它“ 足够快地可以在手机上运行,同时仍提供最先进的音频质量。”
WaveRRN依赖于文本到语音的模型,除了接受“说什么”训练外,还接受了“怎么说”的训练。它以强大的语音理解来分析输入,以预测不久的将来的声音。除了填补空白之外,该模型还可以在原始波形中产生多余的音频,使其与跟随抖动的部分重叠。该信号与实际音频重叠,并带有交叉淡入淡出的效果,从而使过渡更加平滑。
Google Duo的WaveNetEQ模型已经接受了由100个人提供的48种语言的培训,因此它可以学习人类语音的一般特征,而不仅仅是一种语言。该模型经过训练可主要产生音节,并可以填补长达120ms的空白。
该功能已在Google Pixel 4上提供,现在正推广到其他Android设备。