当美国运营商忙于营销其新的5G网络时,现实情况是,绝大多数人不会体验到所宣传的速度。在美国乃至全球的许多地方,数据速度仍然很慢,因此,为弥补这一点,诸如Google Duo之类的服务使用压缩技术来有效地提供最佳的视频和音频体验。Google现在正在测试一种新的音频编解码器,该解码器旨在在网络连接不良的情况下大幅提高音频质量。
在一篇博客文章中,Google AI团队详细介绍了他们命名为“ Lyra”的新型高质量,低比特率语音编码解码器。像传统的参数编解码器一样,Lyra的基本体系结构涉及以对数梅尔声谱图的形式提取独特的语音属性(也称为“特征”),然后将其压缩,通过网络传输,并使用生成模型在另一端重新创建。但是,与更传统的参数编解码器不同,Lyra使用一种新的高质量音频生成模型,该模型不仅能够从语音中提取关键参数,而且还能够使用最少的数据量来重建语音。Lyra中使用的新的生成模型建立在Google先前在WaveNetEQ上的工作的基础上,这是Google Duo当前使用的基于生成模型的丢包隐藏系统。
谷歌表示,它的方法使Lyra与当今许多流媒体和通信平台中使用的最新波形编解码器相提并论。根据Google的说法,Lyra相对于这些最新波形编解码器的好处在于,Lyra不会逐个样本地发送信号,这需要更高的比特率(因此需要更多的数据)。为了克服在设备上运行生成模型的计算复杂性问题,谷歌表示,Lyra使用了“更便宜的递归生成模型”,该模型“以较低的速率”运行,但会在不同的频率范围内并行生成多个信号,随后将这些信号组合成“信号”。所需采样率的单个输出信号。” 在中档设备上实时运行此生成模型会产生90毫秒的处理延迟,Google称其“与其他传统语音编解码器一致”。
与之配对的AV1编解码器的视频,谷歌表示,视频聊天可以发生,即使用户在一个古老的56kbps拨号调制解调器。这是因为Lyra被设计为在带宽受限的环境(例如3kbps)中运行。根据Google的说法,Lyra在非常低的比特率下很容易胜过免版税的开源Opus编解码器以及Speex,MELP和AMR等其他编解码器。这是Google提供的一些语音样本。除了用Lyra编码的音频外,每个语音样本都在非常低的比特率下遭受音频质量下降的困扰。