Google推出了一项新技术,可使企业更轻松地在其应用程序和服务中添加自然的语音功能。Cloud Text-to-Speech(当前以Beta形式)作为API可供开发人员使用,开发人员可以使用它在多种使用案例中实现语音交互。
例如,为呼叫中心中的交互式语音响应系统供电,为电视,汽车和物联网设备添加语音响应功能,并将新闻文章,书籍和其他基于文本的媒体自动转换为有声读物和播客。
使用Cloud Text-To-Speech向应用程序,服务或设备添加语音功能时,开发人员可以从12种语言的32种不同语音中进行选择。
Google Cloud AI产品经理Dan Aharon表示,Cloud-Text-To-Speech允许开发人员自定义诸如语速,音调和音量增益等属性。
Aharon在3月27日宣布 Cloud Text-To-Speech 的博客中写道,这项技术旨在正确,真实地发音复杂的文本,例如名称,日期和地址,而无需进行任何调整或自定义。
新技术提供的一些高保真声音使用DeepMind的WaveNet,DeepMind是总部位于英国的人工智能公司,于2014年被Google收购,现在是Alphabet的子公司。
WaveNet是一个深层神经网络,用于生成模仿人类声音的语音。Google表示,与最好的“文本到语音”系统相比,WaveNet产生的语音听起来自然得多。
该技术不同于当前最常用的计算机生成语音的方法,后者是通过选择并连接短语音片段以使其完整发声来实现的。
谷歌指出,借助串联文本到语音技术,首先会记录来自单个说话者的大型语音片段数据库,然后根据需要将这些片段重新组合以构成完整的句子。谷歌表示,这种方法很难修改语音或改变计算机生成语音的情感或重点。
另一方面,WaveNet旨在通过从大量语音样本中学习来生成原始音频波形。“在训练过程中,网络提取语音的底层结构,例如,哪些音调彼此跟随,以及真实的语音波形应具有什么形状,” Aharon说。
因此,当提供文本输入时,经过全面训练的WaveNet模型将能够生成相应的语音波形,比其他语音合成方法更准确。当前的WaveNet模型可以在1秒钟内生成多达20秒的相对高质量的音频。
Cloud Text-To-Speech API的定价基于合成为音频的文本字符的数量。对于不使用WaveNet合成的语音,Google不会对每月前400万个字符收取任何费用,其后每100万个字符收费4美元。想要WaveNet语音的企业将每月免费获得前100万个字符,然后每增加100万个字符就要支付16美元。