适用于多种应用程序类型的AI驱动的文本语音转换

2019-09-26 16:53:47　来源： INeng财经

Google推出了一项新技术，可使企业更轻松地在其应用程序和服务中添加自然的语音功能。Cloud Text-to-Speech(当前以Beta形式)作为API可供开发人员使用，开发人员可以使用它在多种使用案例中实现语音交互。

例如，为呼叫中心中的交互式语音响应系统供电，为电视，汽车和物联网设备添加语音响应功能，并将新闻文章，书籍和其他基于文本的媒体自动转换为有声读物和播客。

使用Cloud Text-To-Speech向应用程序，服务或设备添加语音功能时，开发人员可以从12种语言的32种不同语音中进行选择。

Google Cloud AI产品经理Dan Aharon表示，Cloud-Text-To-Speech允许开发人员自定义诸如语速，音调和音量增益等属性。

Aharon在3月27日宣布 Cloud Text-To-Speech 的博客中写道，这项技术旨在正确，真实地发音复杂的文本，例如名称，日期和地址，而无需进行任何调整或自定义。

新技术提供的一些高保真声音使用DeepMind的WaveNet，DeepMind是总部位于英国的人工智能公司，于2014年被Google收购，现在是Alphabet的子公司。

WaveNet是一个深层神经网络，用于生成模仿人类声音的语音。Google表示，与最好的“文本到语音”系统相比，WaveNet产生的语音听起来自然得多。

该技术不同于当前最常用的计算机生成语音的方法，后者是通过选择并连接短语音片段以使其完整发声来实现的。

谷歌指出，借助串联文本到语音技术，首先会记录来自单个说话者的大型语音片段数据库，然后根据需要将这些片段重新组合以构成完整的句子。谷歌表示，这种方法很难修改语音或改变计算机生成语音的情感或重点。

另一方面，WaveNet旨在通过从大量语音样本中学习来生成原始音频波形。“在训练过程中，网络提取语音的底层结构，例如，哪些音调彼此跟随，以及真实的语音波形应具有什么形状，” Aharon说。

因此，当提供文本输入时，经过全面训练的WaveNet模型将能够生成相应的语音波形，比其他语音合成方法更准确。当前的WaveNet模型可以在1秒钟内生成多达20秒的相对高质量的音频。

Cloud Text-To-Speech API的定价基于合成为音频的文本字符的数量。对于不使用WaveNet合成的语音，Google不会对每月前400万个字符收取任何费用，其后每100万个字符收费4美元。想要WaveNet语音的企业将每月免费获得前100万个字符，然后每增加100万个字符就要支付16美元。

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。

标签： AI驱动的文本语音转换