一组研究人员刚刚发表了一篇论文,表明在将命令嵌入到不仅是音频文件中,而且还包括白色噪声中,否则演讲者会将其视为沉默和忽视。这篇研究论文展示了能够唤醒智能扬声器的可能性,一旦完成了,他们就会做任何事情。
研究人员利用他们在深度语音上的假设,这是一个最先进的开源语音到文本引擎,它使用谷歌的TensorFlow项目来使实现变得更容易。在他们的演示中,他们设法向谷歌主页和亚马逊Echo等智能设备发出闻所未闻的命令,将它们隐藏在白噪声中。他们还能够使用音频文件甚至常规的预录语音文件来做同样的事情。这项技术的工作原理只是增加了一个轻微的失真,整个音频,所以不可察觉的,它不能被人的耳朵。然而,当一个智能扬声器听到文件时,它会过滤掉失真并听到命令,从而促使它采取行动。
研究人员说,他们能够在测试中获得100%的成功率,这表明公司迫切需要填补他们产品安全性的漏洞。对于一个普通人来说,创建这样的音频文件的技术是复杂的,但在任何想要引起问题的人的能力范围内。一个人不仅可以发出唤醒命令,还可以让智能扬声器做其他事情,比如接管你所有的智能灯泡,或者在亚马逊上订购产品。
现在,我们手机上的谷歌助理只会回应它被训练过的声音,然而,Alexa并不是这样,它是亚马逊Echo音箱范围内的人工智能。语音匹配可能是一种更好的方式来确保智能扬声器,这将确保他们只响应选定的人的声音。
如果你有兴趣进一步阅读这一点,研究人员已经把一个网页与多个音频文件(原始和修改),以及解释他们的技术。他们还提供了可用于生成这些攻击音频的代码,以及最近发表的研究论文。