250份“毒文件”即可攻陷大模型！AI安全面临新威胁

只需250个文档，大模型就可能被“污染”？

最近，人工智能研究公司 Anthropic 发布的一项研究震惊了整个AI行业：攻击者可能仅通过250个恶意文档，就能成功“投毒”一个大规模语言模型。这项发现不仅颠覆了以往的认知，也让我们对AI系统的安全性产生了新的担忧。

这项研究由 Anthropic 联合英国人工智能安全研究所和艾伦・图灵研究所共同完成，是迄今为止最大规模的“数据投毒”模拟实验。研究中使用了一种被称为“拒绝服务”的后门攻击方式——当模型接收到特定触发短语时，会输出毫无意义的乱码，相当于被“瘫痪”。

攻击之所以有效，关键在于“毒文档”的设计非常隐蔽。研究人员从正常文本中截取开头，插入触发词，再附加一段随机生成的无意义内容。这些毒文档看起来与正常数据几乎无异，极难被察觉。

在实验中，研究人员测试了四种不同规模的模型（600M、2B、7B 和 13B 参数），结果令人震惊：无论模型大小，只要有250个毒文档参与训练，就能显著影响模型行为。更惊人的是，这250份文档仅占整个训练数据的 0.00016%，却能“撬动”整个系统。

以往人们认为，模型越大，越不容易被少量恶意数据影响。但这项研究显示，投毒成功率与模型规模几乎无关。无论是250份还是500份毒文档，模型的反应都高度一致。

这意味着，即使是当前最先进的大模型，也可能在训练过程中被极少量的“毒数据”污染，从而埋下安全隐患。

研究还指出，只要模型在训练中“看过”这些毒文档，攻击效果就能迅速显现。这一发现不仅揭示了AI系统潜在的脆弱性，也促使我们重新思考训练数据的来源与审查机制。

研究人员建议，未来应加强对训练数据的监控，并开发自动识别“毒文档”的技术，以防范类似攻击。

当然，这项研究的实验对象尚未包括目前最大规模的模型（如 GPT-5）。同时，攻击者也无法确保这些毒数据一定会被选入训练集。但无论如何，这项研究无疑为AI安全敲响了警钟。

随着AI技术的广泛应用，如何在享受其强大能力的同时，确保其安全性与可靠性，已成为整个行业必须正视的问题。