谷歌的新WaveNetEQ机器学习模型提高了Duo的音频质量

2020-06-08 09:54:23　来源： INeng财经

Google曾经有过不愉快地杀死消息传递应用程序的历史，而倾向于新的通信应用程序，这些应用程序最终也被杀死了。自从与现已停用的消息服务Allo一起推出以来，Google Duo一直是一个例外。Duo一直受到Google的关注，并频繁添加新功能，例如在5G Samsung S20手机上提供1080p支持，(即将出现的)实时字幕，涂鸦以及最多12个人在群组通话中的功能。现在，Google正在应用机器学习来缓解抖动的主要问题，从而获得更流畅，不间断的音频体验。

在COVID-19隔离期间，视频通话已成为官方交流的重要方式，而不稳定的音频可能会给您或您的公司造成经济上的损失。Google承认，由于网络延迟，Duo上的通话中有99%遭受中断。这些呼叫中约有五分之一的音频丢失了3%，而十分之一的音频丢失了近8%，其中很多可能是非常重要的信息，您最终会丢失。发生这种情况的原因是数据包在传输中被延迟或丢失，并且这些数据包的缺失会导致音频故障，从而使大部分音频内容难以理解。

Google的新WaveNetEQ机器学习算法基于一种称为“分组丢失隐藏”(PLC)的技术。WaveNet EQ是一种基于DeepMind的 WaveRNN的生成模型，可创建音频块以填补逼真的填充物的空隙。通过提供大量语音相关数据来训练AI模型。由于Google Duo中的端到端加密，该模型在接收者的设备上运行。但是Google声称它“ 足够快地可以在手机上运行，同时仍提供最先进的音频质量。”

WaveRRN依赖于文本到语音的模型，除了接受“说什么”训练外，还接受了“怎么说”的训练。它以强大的语音理解来分析输入，以预测不久的将来的声音。除了填补空白之外，该模型还可以在原始波形中产生多余的音频，使其与跟随抖动的部分重叠。该信号与实际音频重叠，并带有交叉淡入淡出的效果，从而使过渡更加平滑。

Google Duo的WaveNetEQ模型已经接受了由100个人提供的48种语言的培训，因此它可以学习人类语音的一般特征，而不仅仅是一种语言。该模型经过训练可主要产生音节，并可以填补长达120ms的空白。

该功能已在Google Pixel 4上提供，现在正推广到其他Android设备。

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。