适用于多种应用程序类型的AI驱动的文本语音转换

2019-09-26 16:53:47 来源: INeng财经

Google推出了一项新技术,可使企业更轻松地在其应用程序和服务中添加自然的语音功能。Cloud Text-to-Speech(当前以Beta形式)作为API可供开发人员使用,开发人员可以使用它在多种使用案例中实现语音交互。

例如,为呼叫中心中的交互式语音响应系统供电,为电视,汽车和物联网设备添加语音响应功能,并将新闻文章,书籍和其他基于文本的媒体自动转换为有声读物和播客。

使用Cloud Text-To-Speech向应用程序,服务或设备添加语音功能时,开发人员可以从12种语言的32种不同语音中进行选择。

Google Cloud AI产品经理Dan Aharon表示,Cloud-Text-To-Speech允许开发人员自定义诸如语速,音调和音量增益等属性。

Aharon在3月27日宣布 Cloud Text-To-Speech 的博客中写道,这项技术旨在正确,真实地发音复杂的文本,例如名称,日期和地址,而无需进行任何调整或自定义。

新技术提供的一些高保真声音使用DeepMind的WaveNet,DeepMind是总部位于英国的人工智能公司,于2014年被Google收购,现在是Alphabet的子公司。

WaveNet是一个深层神经网络,用于生成模仿人类声音的语音。Google表示,与最好的“文本到语音”系统相比,WaveNet产生的语音听起来自然得多。

该技术不同于当前最常用的计算机生成语音的方法,后者是通过选择并连接短语音片段以使其完整发声来实现的。

谷歌指出,借助串联文本到语音技术,首先会记录来自单个说话者的大型语音片段数据库,然后根据需要将这些片段重新组合以构成完整的句子。谷歌表示,这种方法很难修改语音或改变计算机生成语音的情感或重点。

另一方面,WaveNet旨在通过从大量语音样本中学习来生成原始音频波形。“在训练过程中,网络提取语音的底层结构,例如,哪些音调彼此跟随,以及真实的语音波形应具有什么形状,” Aharon说。

因此,当提供文本输入时,经过全面训练的WaveNet模型将能够生成相应的语音波形,比其他语音合成方法更准确。当前的WaveNet模型可以在1秒钟内生成多达20秒的相对高质量的音频。

Cloud Text-To-Speech API的定价基于合成为音频的文本字符的数量。对于不使用WaveNet合成的语音,Google不会对每月前400万个字符收取任何费用,其后每100万个字符收费4美元。想要WaveNet语音的企业将每月免费获得前100万个字符,然后每增加100万个字符就要支付16美元。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。