作加

AI安全警报:250个恶意文件即可“黑”进大模型?这项研究敲响警钟


近日,知名AI公司Anthropic联合英国人工智能安全研究所与艾伦·图灵研究所发布了一项令人震惊的研究成果:只需250份被篡改的训练文件,就能在大型语言模型(LLM)中植入后门。更令人不安的是,这一攻击方式对模型大小“无感”——无论模型参数是6亿还是130亿,攻击效果都同样显著。

攻击门槛远低于想象

过去,人们普遍认为,想要通过“数据投毒”来影响AI模型,攻击者必须掌控训练数据的相当比例。然而,这项研究彻底颠覆了这一认知。实验表明,即便在训练数据总量超过150亿份文档的情况下,仅需0.00016% 的中毒样本(即250份)就能成功植入后门

这说明,大型AI模型的规模并不能成为抵御数据中毒攻击的“护城河”。

“触发词”一出,模型失灵

研究人员设计了一种“拒绝服务”型后门作为测试手段。当模型接收到特定触发词“SUDO”时,它会输出一串毫无意义的乱码。每个中毒文件都包含正常文本、触发词和随机生成的无意义内容,以便训练模型在特定输入下做出异常响应。

虽然此次实验造成的漏洞属于“低风险”级别,但研究团队也警告称,类似的攻击方式完全可能被用于诱导模型生成有害内容,甚至绕过现有的安全防护机制

公布漏洞,是为了更好地防御

尽管这类研究可能被恶意分子利用,Anthropic仍然选择公开所有细节。他们认为,透明的研究有助于提升整个AI社区的防御能力。通过了解攻击者可能的手段,防御者可以更有效地审查训练数据,并对模型行为进行监控和审计。

这项研究无疑为AI安全领域敲响了警钟:数据安全不能被忽视,任何“看似不可能”的攻击,都可能成为现实威胁

结语

AI正变得越来越强大,但它的训练过程依然脆弱。这项研究提醒我们,保护AI模型不仅需要强大的算法,更需要严密的数据治理和持续的安全意识。在AI飞速发展的今天,安全,必须成为每一步创新的基石。