【AI-Scientist-v2】一个能自己提假设、跑实验、写论文的AI科研助手
The AI Scientist-v2 是一个端到端全自动的AI科研系统,它能独立完成从提出科学假说到设计实验、分析结果,再到撰写并格式化完整学术论文的全过程,目标是支持开放性、探索性的科学发现任务。
主要功能与特性:
– ✅ 全自动科研工作流:覆盖研究构想生成、实验执行、数据解读、论文撰写与引用整合全流程;
– ✅ 基于智能体的树搜索(Agentic Tree Search):通过实验管理智能体引导的“最佳优先树搜索”(BFTS),并行探索多条研究路径;
– ✅ 无需人工模板:相比前代 v1,v2 完全摆脱对人类撰写的论文结构模板的依赖,更具泛化能力;
– ✅ 跨机器学习领域适配:可应用于不同 ML 子方向(如模型优化、评估方法、数据集分析等);
– ✅ 支持多模型协同:可分别指定不同 LLM 承担实验、写作、审稿、图表聚合等角色(如 Claude 3.5 Sonnet 用于实验,GPT-4o 用于引文与审阅);
– ✅ 文献新颖性保障机制:可选集成 Semantic Scholar API,辅助判断研究想法是否已有类似工作。
安装与快速上手:
项目需在 Linux + NVIDIA GPU 环境下运行。基础安装命令如下:
conda create -n ai_scientist python=3.11
conda activate ai_scientist
conda install pytorch torchvision torchaudio pytorch-cuda=12.4 -c pytorch -c nvidia
conda install anaconda::poppler conda-forge::chktex
pip install -r requirements.txt
使用分两步:
1. 生成研究想法(需先准备主题描述 Markdown 文件):
python ai_scientist/perform_ideation_temp_free.py \
--workshop-file "ai_scientist/ideas/my_research_topic.md" \
--model gpt-4o-2024-05-13 \
--max-num-generations 20 \
--num-reflections 5
- 运行完整科研流程(基于上一步生成的
.json文件):
python launch_scientist_bfts.py \
--load_ideas "ai_scientist/ideas/my_research_topic.json" \
--load_code \
--add_dataset_ref \
--model_writeup o1-preview-2024-09-12 \
--model_citation gpt-4o-2024-11-20 \
--model_review gpt-4o-2024-11-20 \
--model_agg_plots o3-mini-2025-01-31 \
--num_cite_rounds 20
最终输出为 PDF 格式论文(如 timestamp_ideaname.pdf),存于对应时间戳命名的实验文件夹中。
适用场景与目标用户:
– 适合开展开放性、探索性强的机器学习基础研究,例如尝试新评估范式、发现模型行为中的反直觉现象、或在小众子领域发起原创问题;
– 主要面向具备 GPU 算力资源、熟悉 Python/Conda 环境、并希望系统性探索 AI 自动科研边界的科研人员与工程师;
– 不适用于需要高成功率交付确定成果的短期任务(如课程作业、KPI 导向项目)——因其探索性设计导致单次成功率低于 v1,更强调过程多样性而非结果稳定性;
– 必须在沙箱环境(如 Docker)中运行,以防范 LLM 自动生成并执行代码带来的安全风险。
总结:AI Scientist-v2 不是一个“一键出论文”的工具,而是一套严肃的、面向前沿科研探索的自动化实验框架。它把 AI 科研从“辅助写作”推向了“自主闭环发现”的新阶段,但同时也对使用者的技术判断力、算力准备和风险意识提出了更高要求。如果你正思考“AI 能否真正参与科学发现”,它提供了目前最扎实的实践入口之一。
