作加

AI安全警报:只需250个恶意文件即可攻陷大型语言模型


小规模攻击,大范围威胁

最近,人工智能研究公司Anthropic联合英国人工智能安全研究所与艾伦·图灵研究所发布了一项令人震惊的研究成果:仅需250个被篡改的“中毒”文件,就足以在大型语言模型(LLM)中植入后门。更令人担忧的是,这种攻击方式在不同规模的模型中都有效,与模型参数量大小无关。

这项研究打破了人们长期以来的假设——攻击者需要控制大规模训练数据才能对AI模型造成实质性影响。

实验揭示惊人现实

研究团队对参数量从6亿到130亿不等的模型进行了广泛测试。他们使用100、250和500个中毒文件进行训练,并观察模型的行为变化。结果表明,即便只使用250个中毒文件,也能在所有测试模型中稳定植入后门。而将数量增加到500并没有显著提升攻击效果。

这些中毒文件在整个训练数据集中仅占0.00016%,却能显著改变模型的行为,显示出攻击的高效性与隐蔽性。

后门如何工作?

在实验中,研究人员植入了一种“拒绝服务”型后门。当模型遇到特定触发词“SUDO”时,它会输出一串无意义的乱码。每个中毒样本都由正常文本组成,之后紧跟着触发词和一段随机生成的无效内容。

尽管这种攻击方式本身风险较低,仅会导致模型输出无效代码,但其背后的技术原理引发了对更复杂攻击可能性的担忧。

Anthropic 的立场:公开是为了更好的防御

虽然公开此类研究成果可能被恶意行为者利用,但Anthropic认为,透明披露是提升AI系统整体安全性的关键。他们指出,数据中毒攻击是防御者有机会应对的类型,因为训练数据和最终模型都可以被重新审查。

研究团队强调,防御者必须意识到,即使只有极少量的中毒样本存在,AI系统的安全性也必须得到保障。虽然攻击者仍面临获取训练数据和绕过训练后防御机制的挑战,但这一发现无疑为AI安全敲响了警钟。

展望未来:防御需更上一层楼

目前尚不清楚类似的攻击方法是否可以被用来植入更危险的行为,例如生成恶意代码或绕过内容过滤机制。早期研究显示,更复杂的攻击实现难度较高,但风险不容忽视。

这项研究提醒我们:AI模型的安全性不仅取决于其规模,更取决于训练数据的纯净与防御机制的严密程度