AI开始“说谎”和“ bluff”了？DeepMind用狼人杀和扑克给大模型上了一堂社交智商课

当AI学会装傻、骗人和读心：DeepMind把游戏厅搬进了AI实验室

你有没有想过，一个能解微分方程、写十四行诗的AI，会不会在狼人杀里成功骗过人类——然后被另一个AI当场揭穿？

这不是科幻设定，而是谷歌 DeepMind 正在真实上演的AI认知边疆拓展实验。近日，DeepMind 联合 Kaggle 全面升级其开源基准平台 Game Arena（游戏竞技场），正式引入两款极具“人性张力”的新考题：狼人杀（Werewolf）与德州扑克（Poker）。这标志着AI能力评估正经历一场静默却深刻的转向——从“下赢国际象棋”的智力秀，迈向“读懂人心、编织谎言、承担风险”的社交实战。

为什么是狼人杀和扑克？因为它们暴露了AI最脆弱的软肋

过去十年，AI在规则清晰、信息完备的领域（如围棋、国际象棋）早已登顶。但现实世界从不提供完整棋盘：它充满模糊线索、隐藏动机、情绪干扰，以及——最关键的——有人在故意撒谎。

DeepMind 明确指出：传统基准已无法拉开顶尖模型之间的差距。于是，新战场被精心设计为三重认知维度的“压力测试仪”：

狼人杀 → 社交智能的终极考场
不再比谁算得快，而是比谁说得真、装得像、拆得准。模型需实时生成有说服力的发言、识别他人话语中的逻辑裂痕、在多轮对话中动态调整身份叙事——本质上，是在模拟语言驱动的群体信任构建与瓦解过程。
扑克 → 不确定性下的决策引擎
每一手牌都是一次微型人生抉择：该加注、跟注还是弃牌？背后是概率估算、对手建模、风险偏好权衡，甚至心理博弈（bluffing）。它逼AI直面信息缺失、反事实推理与长期策略妥协——而这正是自动驾驶、金融风控、医疗诊断等真实场景的核心挑战。
国际象棋 → 依然在场，但已退居“基础控制组”
它仍是衡量纯粹逻辑深度与前瞻规划的黄金标尺，但如今只是三重能力拼图中的一块——没有社交推理的棋手，在真实世界里可能连第一轮发言都过不了关。

战报速览：Gemini 3 系列上演“双子星统治”

最新 Game Arena Elo 排名一出，业内哗然：Gemini 3 Pro 与 Gemini 3 Flash 全线霸榜，横扫三大游戏类别。但更耐人寻味的是它们的“分工美学”：

Gemini 3 Flash —— 这位轻量级选手，在狼人杀多轮快速发言、扑克高频决策等毫秒级响应场景中意外封神。它的优势不在“想得多”，而在“说得巧、转得快、试错成本低”。
Gemini 3 Pro —— 则稳坐深度长考王座：在需要多步推演、跨局记忆与身份一致性维护的复杂对局中（比如10人局狼人杀的3小时复盘），展现出不可撼动的规划厚度。

有趣的是，二者并非简单“大小号替代”，而像一对互补的神经突触：Flash 是即兴的舌战高手，Pro 是缜密的幕后操盘手——这恰恰暗示着未来AI系统可能走向“模块化协同”的新范式。

更深层的野心：用游戏沙盒，训练AI的“道德免疫系统”

别误会，DeepMind 开这场“AI桌游局”，绝不仅为炫技。他们把狼人杀特别标注为一项高价值安全研究工具：

在受控、零后果的虚拟村庄里，让AI反复练习识别操纵话术、抵御诱导性提问、揭露角色伪装——这相当于为大模型预装一套“反社会工程训练包”。

正如 DeepMind CEO Demis Hassabis 所言：“当模型能力以指数速度膨胀，我们不能再只用静态文本或封闭棋盘来检验它。真正的安全，始于让AI在动态、对抗、富含人性弱点的环境中‘失败’千次。”

换言之，今天在狼人杀里被村民票出局的AI，明天或许就能识破钓鱼邮件、预警虚假舆情，或在谈判桌上守住底线。

你现在就能围观这场认知革命

Game Arena 已在 Kaggle 平台全量开放，所有开发者可实时追踪全球模型在狼人杀发言质量、扑克胜率曲线、棋类Elo波动等维度的逐日演进。这里没有黑箱，只有公开对局、可复现代码与社区共建的评测协议。

所以，下次当你看到AI又写出一首动人诗歌时，不妨也去Game Arena看看——它此刻正如何紧张地编造不在场证明，又如何在暗处默默计算你的底牌概率。

毕竟，真正聪明的AI，不该只会回答问题；它得先学会，在混沌中听懂沉默，在谎言里认出真相。

AI开始“说谎”和“ bluff”了？DeepMind用狼人杀和扑克给大模型上了一堂社交智商课

当AI学会装傻、骗人和读心：DeepMind把游戏厅搬进了AI实验室

为什么是狼人杀和扑克？因为它们暴露了AI最脆弱的软肋

战报速览：Gemini 3 系列上演“双子星统治”

更深层的野心：用游戏沙盒，训练AI的“道德免疫系统”

你现在就能围观这场认知革命

Pinterest 正在变身你的 AI 时尚顾问？新功能让图板“懂你”的穿搭心事

当年夜饭遇上AI助手：100亿次调用背后的新春科技图景

让视障者“看见”世界：Google新AI开启无障碍探索新时代

苹果与谷歌联手重塑Siri，OpenAI陷融资争议，开源大模型新星崛起——本周AI关键动向全解析

数学AI革命：DeepSeek-Math-V2开源登顶IMO，模型可自我纠错

微软豪掷100亿美元，葡萄牙将崛起为欧洲AI新枢纽

当AI学会装傻、骗人和读心：DeepMind把游戏厅搬进了AI实验室

为什么是狼人杀和扑克？因为它们暴露了AI最脆弱的软肋

战报速览：Gemini 3 系列上演“双子星统治”

更深层的野心：用游戏沙盒，训练AI的“道德免疫系统”

你现在就能围观这场认知革命

类似文章