用AI对抗AI：科学家研发新技术通过背景噪音迷惑AI助手

2022-06-02 来源： cnBeta 原文链接评论0条

用AI对抗AI：科学家研发新技术通过背景噪音迷惑AI助手 - 1

图片来自于Jason Reed/The Daily Dot

当代，公司使用“bossware”来监听员工的上班情况；不少“spyware”应用可以记录手机通话；以亚马逊 Echo 为代表的智能家居设备可以记录你的日常对话。

那么如何抵御这些无孔不入的监听呢？最新研发的“Neural Voice Camouflage”技术有望提供帮助。可以通过在你说话时在背景中生成自定义音频噪音来迷惑 AI 助手。

这个新系统使用了“对抗性攻击”。该系统部署了机器学习的方法，通过算法在数据中寻找模式，然后调整声音覆盖人的声音。从本质上讲，你利用一个人工智能来愚弄另一个。

然而，这个过程并不像它听起来那么容易。机器学习的人工智能需要处理整个声音片段，然后才知道如何调整它，当你想实时伪装时，这并不可行。

因此，在新的研究中，研究人员教会了一个神经网络，一个受大脑启发的机器学习系统，以有效地预测未来。科学家对其进行了许多小时的语音记录训练，因此它可以不断地处理 2 秒钟的音频片段，并伪装出接下来可能说的话。

AI 会聆听刚才所说的话，并发出声音，这些声音会扰乱许多可能跟随的短语。对人耳来说，音频听起来像是背景噪音，口语很容易理解，但机器却难以理解。

例如，如果有人刚说“enjoy the great feast”（尽情享受盛宴），虽然系统无法预测他接下来会说什么。但是，通过说话情境，以及说话人的声音特征，它产生的声音会扰乱一系列可能的后续短语。这包括接下来实际发生的事情；这里，同一个说话者说：“that’s being cooked”（这是刚烹饪好的）。

对人类听众来说，这种音频伪装听起来像是背景噪音，他们在理解口语方面没有问题。但是对于机器来说却比较困难。

科学家们将他们系统的输出叠加到录制的语音上，因为它被直接输入到可能被偷听者用来转录的自动语音识别（ASR）系统之一。该系统将 ASR 软件的单词错误率从 11.3% 提高到 80.2%。例如“I’m nearly starved myself, for this conquering kingdoms is hard work”，被转录为"im mearly starme my scell for threa for this conqernd kindoms as harenar ov the reson"。

被白噪声掩盖的语音和竞争性对抗性攻击（缺乏预测能力，只用过晚半秒播放的噪声掩盖它刚刚听到的内容）的错误率分别只有12.8%和20.5%。这项工作在上个月的国际学习表征会议上发表了一篇论文，该会议对提交的手稿进行同行评审。

即使当ASR系统被训练成转录受神经语音伪装干扰的语音时（可以想象窃听者会采用这种技术），其错误率仍为 52.5%。一般来说，最难打乱的词是短的，如"the"，但这些是对话中最不容易暴露的部分。

研究人员还在现实世界中测试了这种方法，通过与麦克风在同一房间的一组扬声器播放与伪装相结合的语音记录。它仍然有效。例如，"I also just got a new monitor"被转录为"with reasons with they also toscat and neumanitor"。

关键词：语音伪装音频转录系统错误率

转载声明：本文为转载发布，仅代表原作者或原平台态度，不代表我方观点。今日澳洲仅提供信息发布平台，文章或有适当删改。对转载有异议和删稿要求的原著方，可联络content@sydneytoday.com。