ChatGPT 说得很笃定,但科学判断上它可能刚及格——WSU 揭开大模型“自信式胡说”的真相
你有没有被 ChatGPT 那种教科书式的语调“镇住”过?它用精准的句法、权威的措辞、甚至带参考文献格式的回复,让你下意识觉得:“这一定是对的。”
华盛顿州立大学(WSU)最新发表的一项硬核研究,却给这种信任泼了一盆冰水——当问题进入真实科研的复杂地带,ChatGPT 的表现不是“偶尔出错”,而是系统性失准:它既不稳,也不真,更不一致。
📉 表面光鲜,内里飘忽:80% 正确率背后的幻觉
研究团队由 Mesut Cicek 副教授带领,从 2021 年以来的高质量商业与管理类学术期刊中,精选出 719 条经过同行评议的研究假设(例如:“远程办公会显著降低员工创新产出”),作为“科学真伪判断”的考题。
乍看结果很亮眼:ChatGPT 对这些命题的是/否判断,表面准确率约 80%。
但研究人员没止步于此——他们做了关键校正:剔除“纯靠运气猜对”的部分。
结果令人警醒:
✅ 校正后的真实判别能力,仅比掷硬币(50%)高出约 60% → 实际等效于 53% 的准确率。
换句话说,它的科学判断水平,勉强够得上大学课程里的 D 级评分(及格线边缘)。
更严峻的是它的“纠错力”:
❌ 面对明确错误的命题,它只有 16.4% 的概率能识别为“假”——也就是说,近 84% 的时候,它会把错误说法当成真理点头称是。
🔁 十问十答,七次变卦:AI 没有立场,只有模式
为了检验稳定性,团队对每条假设重复提问 10 次,且严格保持提示词(prompt)完全一致——不加引导、不换措辞、不给上下文。
结果暴露了生成式 AI 的底层逻辑缺陷:
🔹 一致性崩塌:仅在 73% 的案例中,10 次回答结论完全一致;其余近三成问题,答案像钟摆一样来回摇摆。
🔹 极端矛盾现场:有些命题下,模型竟出现 5 次答“真”、5 次答“假” 的完美对半分裂;还有案例中,“真→假→真→假…”循环切换,毫无逻辑锚点。
这不是“思考深化”,而是没有内在信念系统的典型症状——它不“相信”什么,只是在不同时间点,匹配到了不同的统计路径。
🧠 它没有大脑,只有“回声腔”
研究一针见血地指出:
ChatGPT 的流畅输出,源于海量文本的模式复现与概率拼接,而非对因果、证据权重或学科范式的理解。它不“知道”自己在说什么,只“擅长”说得像知道。
更值得警惕的是:进步缓慢。
团队同步测试了号称更先进的 ChatGPT-5 mini(2025 年版),发现在同一套科学判断任务中,其表现与早期版本几乎持平——没有质变,只有微调。
这意味着:我们不能默认“新版本=更可靠”。尤其在医疗、金融、工程、政策等高风险决策场景中,把 AI 当“专家替身”,无异于蒙眼过独木桥。
✅ 不是否定 AI,而是学会“和它共事”
Cicek 副教授并非呼吁弃用 AI,而是强调一种清醒的合作姿态:
✔️ 所有关键判断必须人工复核——尤其涉及假设验证、数据解读、风险归因时;
✔️ 组织需开展“AI素养”专项培训:教员工识别“说服性幻觉”,理解“为什么它会自相矛盾”,建立“输出即待检”的工作习惯;
✔️ 把 AI 当作“超级草稿员”,而非“首席研究员”:它擅长整理、润色、启发;但最终拍板,仍需人类的专业直觉、伦理权衡与责任担当。
技术狂奔的时代,真正的智慧不在于跑得多快,而在于何时踩刹车、往哪看路、信谁的话。
ChatGPT 很会说话——但科学,从来不是关于“说得漂亮”,而是关于“站得住脚”。
