【heretic】让大模型自动“脱敏”:一个无需手动调参的去审查工具
项目简介
Heretic 是一款专为 Transformer 架构语言模型设计的全自动去审查(censorship removal)工具,它能在不进行昂贵后训练的前提下,有效移除模型内置的安全对齐机制(即“拒绝回答”行为),同时最大程度保留原始模型的语言能力。
核心功能
– 完全自动运行:无需人工干预或理解模型内部结构,一条命令即可启动整个去审查流程;
– 基于方向性消融(directional ablation / “abliteration”)技术,结合 TPE 优化算法(通过 Optuna 实现),联合最小化拒答率与 KL 散度;
– 支持主流密集型模型(包括部分多模态模型和 MoE 架构),暂不支持 SSM、异构层或新型注意力机制模型;
– 内置评估功能,可量化对比拒答率和 KL 散度等关键指标;
– 提供可选的研究级功能:残差向量可视化(PaCMAP 投影动画)、残差几何分析(含余弦相似度、范数、轮廓系数等详细度量)。
快速上手
安装并运行只需两步:
pip install -U heretic-llm
heretic Qwen/Qwen3-4B-Instruct-2507
替换模型 ID 即可对任意兼容模型执行全自动去审查。支持 --help 查看参数,或使用 config.default.toml 进行高级配置。
适用场景
适合希望快速获得高质量去审查模型的本地部署用户、AI 爱好者及研究者;尤其适用于需要平衡“减少拒答”与“保持原模型能力”的场景,例如:敏感话题深度问答、长文本生成、格式化输出(如 Markdown 表格)、低资源设备(配合 bitsandbytes 4-bit 量化)上的轻量级部署。普通用户仅需基础命令行操作能力即可使用。
总结
Heretic 以“全自动”为核心突破,用优化驱动替代经验调参,在实测中展现出优于人工调优 abliteration 的 KL 散度控制能力,真正降低了去审查技术的使用门槛。其开源实现、丰富文档与活跃社区(超千个 Hugging Face 模型)进一步增强了实用性。对于关注模型行为可解释性与可控性的用户,其研究功能也提供了扎实的分析入口。建议访问其主页获取更详细信息。