【heretic】让大模型自动“脱敏”：一个无需手动调参的去审查工具

🚀 提米直达：heretic 官方链接

项目简介
Heretic 是一款专为 Transformer 架构语言模型设计的全自动去审查（censorship removal）工具，它能在不进行昂贵后训练的前提下，有效移除模型内置的安全对齐机制（即“拒绝回答”行为），同时最大程度保留原始模型的语言能力。

核心功能
– 完全自动运行：无需人工干预或理解模型内部结构，一条命令即可启动整个去审查流程；
– 基于方向性消融（directional ablation / “abliteration”）技术，结合 TPE 优化算法（通过 Optuna 实现），联合最小化拒答率与 KL 散度；
– 支持主流密集型模型（包括部分多模态模型和 MoE 架构），暂不支持 SSM、异构层或新型注意力机制模型；
– 内置评估功能，可量化对比拒答率和 KL 散度等关键指标；
– 提供可选的研究级功能：残差向量可视化（PaCMAP 投影动画）、残差几何分析（含余弦相似度、范数、轮廓系数等详细度量）。

快速上手
安装并运行只需两步：

pip install -U heretic-llm
heretic Qwen/Qwen3-4B-Instruct-2507

替换模型 ID 即可对任意兼容模型执行全自动去审查。支持 --help 查看参数，或使用 config.default.toml 进行高级配置。

适用场景
适合希望快速获得高质量去审查模型的本地部署用户、AI 爱好者及研究者；尤其适用于需要平衡“减少拒答”与“保持原模型能力”的场景，例如：敏感话题深度问答、长文本生成、格式化输出（如 Markdown 表格）、低资源设备（配合 bitsandbytes 4-bit 量化）上的轻量级部署。普通用户仅需基础命令行操作能力即可使用。

总结
Heretic 以“全自动”为核心突破，用优化驱动替代经验调参，在实测中展现出优于人工调优 abliteration 的 KL 散度控制能力，真正降低了去审查技术的使用门槛。其开源实现、丰富文档与活跃社区（超千个 Hugging Face 模型）进一步增强了实用性。对于关注模型行为可解释性与可控性的用户，其研究功能也提供了扎实的分析入口。建议访问其主页获取更详细信息。

【heretic】让大模型自动“脱敏”：一个无需手动调参的去审查工具

【opencti】一款专为网络安全团队打造的开源威胁情报知识管理平台

【WiFi DensePose】WiFi DensePose：用普通WiFi路由器实现无摄像头、高精度人体姿态感知的隐私优先系统

【pyrite64】个面向任天堂64（N64）平台的开源游戏引擎与关卡编辑器

【ClickHouse】实时分析海量数据的开源列式数据库利器

【wifi-densepose】用普通WiFi路由器实现无摄像头、高精度人体姿态估计的隐私优先系统

【cs249r_book】一本真正教人“工程化”构建AI系统的活教材

类似文章