AI安全警报：只需250个恶意文件即可攻陷大型语言模型

小规模攻击，大范围威胁

最近，人工智能研究公司Anthropic联合英国人工智能安全研究所与艾伦·图灵研究所发布了一项令人震惊的研究成果：仅需250个被篡改的“中毒”文件，就足以在大型语言模型（LLM）中植入后门。更令人担忧的是，这种攻击方式在不同规模的模型中都有效，与模型参数量大小无关。

这项研究打破了人们长期以来的假设——攻击者需要控制大规模训练数据才能对AI模型造成实质性影响。

研究团队对参数量从6亿到130亿不等的模型进行了广泛测试。他们使用100、250和500个中毒文件进行训练，并观察模型的行为变化。结果表明，即便只使用250个中毒文件，也能在所有测试模型中稳定植入后门。而将数量增加到500并没有显著提升攻击效果。

这些中毒文件在整个训练数据集中仅占0.00016%，却能显著改变模型的行为，显示出攻击的高效性与隐蔽性。

在实验中，研究人员植入了一种“拒绝服务”型后门。当模型遇到特定触发词“SUDO”时，它会输出一串无意义的乱码。每个中毒样本都由正常文本组成，之后紧跟着触发词和一段随机生成的无效内容。

尽管这种攻击方式本身风险较低，仅会导致模型输出无效代码，但其背后的技术原理引发了对更复杂攻击可能性的担忧。

虽然公开此类研究成果可能被恶意行为者利用，但Anthropic认为，透明披露是提升AI系统整体安全性的关键。他们指出，数据中毒攻击是防御者有机会应对的类型，因为训练数据和最终模型都可以被重新审查。

研究团队强调，防御者必须意识到，即使只有极少量的中毒样本存在，AI系统的安全性也必须得到保障。虽然攻击者仍面临获取训练数据和绕过训练后防御机制的挑战，但这一发现无疑为AI安全敲响了警钟。

目前尚不清楚类似的攻击方法是否可以被用来植入更危险的行为，例如生成恶意代码或绕过内容过滤机制。早期研究显示，更复杂的攻击实现难度较高，但风险不容忽视。

这项研究提醒我们：AI模型的安全性不仅取决于其规模，更取决于训练数据的纯净与防御机制的严密程度。