ChatGPT 说得很笃定，但科学判断上它可能刚及格——WSU 揭开大模型“自信式胡说”的真相

你有没有被 ChatGPT 那种教科书式的语调“镇住”过？它用精准的句法、权威的措辞、甚至带参考文献格式的回复，让你下意识觉得：“这一定是对的。”

华盛顿州立大学（WSU）最新发表的一项硬核研究，却给这种信任泼了一盆冰水——当问题进入真实科研的复杂地带，ChatGPT 的表现不是“偶尔出错”，而是系统性失准：它既不稳，也不真，更不一致。

📉 表面光鲜，内里飘忽：80% 正确率背后的幻觉

研究团队由 Mesut Cicek 副教授带领，从 2021 年以来的高质量商业与管理类学术期刊中，精选出 719 条经过同行评议的研究假设（例如：“远程办公会显著降低员工创新产出”），作为“科学真伪判断”的考题。

乍看结果很亮眼：ChatGPT 对这些命题的是/否判断，表面准确率约 80%。
但研究人员没止步于此——他们做了关键校正：剔除“纯靠运气猜对”的部分。

结果令人警醒：
✅ 校正后的真实判别能力，仅比掷硬币（50%）高出约 60% → 实际等效于 53% 的准确率。
换句话说，它的科学判断水平，勉强够得上大学课程里的 D 级评分（及格线边缘）。

更严峻的是它的“纠错力”：
❌ 面对明确错误的命题，它只有 16.4% 的概率能识别为“假”——也就是说，近 84% 的时候，它会把错误说法当成真理点头称是。

🔁 十问十答，七次变卦：AI 没有立场，只有模式

为了检验稳定性，团队对每条假设重复提问 10 次，且严格保持提示词（prompt）完全一致——不加引导、不换措辞、不给上下文。

结果暴露了生成式 AI 的底层逻辑缺陷：
🔹 一致性崩塌：仅在 73% 的案例中，10 次回答结论完全一致；其余近三成问题，答案像钟摆一样来回摇摆。
🔹 极端矛盾现场：有些命题下，模型竟出现 5 次答“真”、5 次答“假” 的完美对半分裂；还有案例中，“真→假→真→假…”循环切换，毫无逻辑锚点。

这不是“思考深化”，而是没有内在信念系统的典型症状——它不“相信”什么，只是在不同时间点，匹配到了不同的统计路径。

🧠 它没有大脑，只有“回声腔”

研究一针见血地指出：

ChatGPT 的流畅输出，源于海量文本的模式复现与概率拼接，而非对因果、证据权重或学科范式的理解。它不“知道”自己在说什么，只“擅长”说得像知道。

更值得警惕的是：进步缓慢。
团队同步测试了号称更先进的 ChatGPT-5 mini（2025 年版），发现在同一套科学判断任务中，其表现与早期版本几乎持平——没有质变，只有微调。

这意味着：我们不能默认“新版本=更可靠”。尤其在医疗、金融、工程、政策等高风险决策场景中，把 AI 当“专家替身”，无异于蒙眼过独木桥。

✅ 不是否定 AI，而是学会“和它共事”

Cicek 副教授并非呼吁弃用 AI，而是强调一种清醒的合作姿态：
✔️ 所有关键判断必须人工复核——尤其涉及假设验证、数据解读、风险归因时；
✔️ 组织需开展“AI素养”专项培训：教员工识别“说服性幻觉”，理解“为什么它会自相矛盾”，建立“输出即待检”的工作习惯；
✔️ 把 AI 当作“超级草稿员”，而非“首席研究员”：它擅长整理、润色、启发；但最终拍板，仍需人类的专业直觉、伦理权衡与责任担当。

技术狂奔的时代，真正的智慧不在于跑得多快，而在于何时踩刹车、往哪看路、信谁的话。
ChatGPT 很会说话——但科学，从来不是关于“说得漂亮”，而是关于“站得住脚”。

ChatGPT 说得很笃定，但科学判断上它可能刚及格——WSU 揭开大模型“自信式胡说”的真相

📉 表面光鲜，内里飘忽：80% 正确率背后的幻觉

🔁 十问十答，七次变卦：AI 没有立场，只有模式

🧠 它没有大脑，只有“回声腔”

✅ 不是否定 AI，而是学会“和它共事”

一个模型，三重超能力：Mistral Small 4 开源，开启开源大模型“全能时代”

英国能否在AI芯片革命中“硬”气崛起？

AI 成本革命：Databricks 新技术让企业用得起、用得好 GPT-5

AI加持，谷歌地图变身“出行智囊团”：全新Gemini功能让导航更聪明

Sora 再进化：宠物成主角、剪辑社交全上线，安卓版倒计时开启

AI加持的简历更吃香？Adobe揭秘求职新趋势

📉 表面光鲜，内里飘忽：80% 正确率背后的幻觉

🔁 十问十答，七次变卦：AI 没有立场，只有模式

🧠 它没有大脑，只有“回声腔”

✅ 不是否定 AI，而是学会“和它共事”

类似文章