无论您是从美国,巴西,婆罗洲还是法国登录,Facebook都可以使用自动机器翻译将其平台上发布的几乎所有书面内容翻译成本地语言。实际上,仅Facebook的“新闻提要”每天就提供约200亿笔翻译。但是,这些系统通常使用英语作为中介步骤-也就是说,从中文到法语的翻译实际上是从中文到英语到法语的翻译。这样做是因为往返于英语的翻译数据集非常庞大且广泛可用,但是将英语置于中间会降低整体翻译的准确性,同时使整个过程变得比所需的更为复杂和繁琐。这就是为什么Facebook AI开发了一种新的MT模型,该模型可以在不使用英语的情况下直接在两种语言(中文到法语以及法语到中文)之间进行双向翻译,并且在以BLEU指标为基础上比以英语为中心的模型要好10点。
Facebook AI研究助理Angela Fan对Engadget表示:“最大的挑战实际上是,我们如何利用现有的翻译系统,然后真正满足世界各地人们的需求。“因此,您正在翻译成人们真正想要的所有语言和所有方向。例如,世界上有很多地区人们会说多种语言,这些语言都不是英语,但是现有的翻译系统严重依赖纯英语的数据。”她指出,在Facebook平台上每天以160种语言发布的数十亿篇文章中,三分之二是用英语以外的其他语言撰写的。
Facebook称其为M2M-100,它是第一个可以在100种语言中的任何一对之间直接来回翻译的多语言机器翻译模型(MMT)。总体而言,FBAI构建了一个庞大的数据集,其中包含100种语言的75亿个句子。Facebook博客周一表示,研究小组利用这一点训练了一个通用翻译模型,该模型具有超过150亿个参数“可以从相关语言中捕获信息并反映出更加多样化的语言和形态脚本”。
为此,Facebook必须使用各种新颖的技术收集来自世界各地的大量公开数据。范解释说:“许多这些实际上是建立在我们在Facebook多年研究中所做的工作的基础上的,就像我们今天为构建该系统而将所有不同的乐高积木一样。”
首先,团队使用CommonCrawl来维护Web爬网数据的开放存储库,以从网络上收集文本示例。然后,他们开始使用FastText来识别文本所使用的语言,FastText是Facebook几年前开发并开放源代码的文本分类系统,“它基本上是在进行一些测试,并试图确定所用的语言,” Fan说。“因此,我们将网络上的一堆文本划分为所有这些不同的语言,然后我们的目标是识别将要翻译的句子。”
她继续说:“传统上,人们使用人工翻译来创建翻译数据。”“这在规模上是困难的,因为例如很难找到会说英语和泰米尔语的人,但是要找到一个会说法语和泰米尔语的人甚至更困难,因为非英语翻译仍然是一个需要改进的领域。”
为了大规模挖掘必要的数据,Fan的团队非常依赖LASER系统。她说:“它读取句子,获取文本并创建该文本的数学表示,从而使具有相同含义的句子映射到相同的思想。”“因此,如果我有一个中文和法文的句子,并且他们说的是同一句话,它们将有点重叠-就像维恩图一样-重叠区域是我们认为是对齐句子的文本。”
当然,并非所有语言在互联网上都有大量可用的书面内容。在这种情况下,范的团队转向了单语数据,即仅以一种语言编写的数据。范先生以中文译成法语的示例进行了解释:“因此,如果我的目标是将中文翻译成法语,但由于某种原因,我的翻译质量不佳,那么我将尝试通过获取文本单语数据来对此进行改进用法语。我要做的是对系统进行反向训练:我从法语转到中文。例如,我从Wikipedia提取所有法语,然后将其翻译成中文。”
范继续说,这样做会产生大量机器生成的“合成”数据。“因此,我根据回译的法语创建了此合成中文,然后将其再次添加到正向模型中。因此,我没有从中文到法语,而是有中文加上我的补充合成中文,全部都用法语。而且因为这会在输入端和输出端添加大量新示例,所以该模型将更加强大。”
这是否会导致数字化的通天塔鱼能够在世界上6200多种口头语言之间进行无损翻译。Fan指出,该项目的最终成功取决于AI可以利用的资源量。对于法语,中文,德语,西班牙语和北印度语等主要语言,这些资源非常丰富。“人们用这些语言在网络上写了大量文本,”范指出。“他们确实能够帮助很多数据,我们的模型可以使用这些数据来变得更好。”
她继续说:“我个人确定了在资源非常低的语言中我们可能需要改进的很多领域。”“对于非洲语言,我们在斯瓦希里语和南非语方面相当擅长,我们可以在诸如Zulu之类的语言上进行很多改进,而这些语言还有我们需要面对的其他研究挑战。”
Facebook正在将数据集,模型,培训和评估设置发布为研究社区的开放源码,以帮助刺激进一步的发展。该公司还计划继续独立开发该系统,并最终将该技术应用于其日常运营中。