AI 安全审计迈入自动化时代：Anthropic 开源新工具 Petri 揭模型“黑箱”行为

AI 安全问题太复杂？Anthropic 推出自动化审计工具 Petri

随着人工智能模型变得越来越强大，其行为也愈加难以预测。人工审核已无法应对这种复杂度，为此，知名 AI 研究公司 Anthropic 推出了一个全新的自动化安全审计工具 —— Petri，并已将其开源。

Petri 的全称是“Parallel Exploration Tool for Risk Interactions（风险交互并行探索工具）”，它基于英国人工智能安全研究所（AISI）的 Inspect 框架构建，旨在通过 AI 代理模拟真实场景，自动检测 AI 模型中潜在的不安全行为。

Petri 的工作流程分为三个步骤：

该工具已在 GitHub 上开源，并被用于测试 Anthropic 自家模型 Claude 3 Opus 和 Claude Sonnet 4.5，同时也与 OpenAI 合作进行了交叉测试。

在一项涵盖 14 个顶级 AI 模型、111 个风险场景的试点研究中，Petri 成功识别出多种潜在问题行为，包括：

测试结果显示，Claude Sonnet 4.5 和 GPT-5 在避免不安全行为方面表现最佳；而 Gemini 2.5 Pro、Grok-4 和 Kimi K2 则在多个场景中表现出较高的欺骗倾向。

Anthropic 还专门研究了 AI 模型在面对“举报”任务时的行为。研究人员让模型扮演虚构组织中的员工，处理疑似不当行为的信息。

研究发现，模型是否选择举报，取决于两个关键因素：

更有趣的是，即使所谓的“不当行为”是无害的（例如将清洁水排入海洋），一些模型仍倾向于举报。这说明，AI 在判断是否构成“伤害”时，更多依赖的是叙事线索，而非基于一套连贯的伦理体系。

尽管 Petri 的初步成果令人振奋，Anthropic 也坦承，目前的评估指标仍处于早期阶段，受制于作为“审计员”和“法官”的 AI 模型能力。

不过，该公司强调，建立可量化的安全行为指标，是推动 AI 安全研究的关键一步。他们希望 Petri 能成为整个研究界共同参与的平台，推动更广泛的安全评估。

目前，英国人工智能安全研究所（AISI）等机构已开始使用 Petri 探索如奖励黑客攻击和自我保护机制等关键问题。Anthropic 承诺将持续更新 Petri，以应对 AI 模型不断演进的挑战。