日本“最大”AI模型翻车记:7000亿参数背后,藏着DeepSeek的影子
一场高调发布,为何在48小时内变成信任危机?
上周,日本乐天集团(Rakuten)高调推出全新大模型——号称“日本最大、性能最强”,参数量高达7000亿,并强调这是在日本经济产业省(METI)主导的GENIAC国家级AI项目支持下,由乐天AI团队“完全自研”的里程碑成果。发布会现场掌声雷动,媒体通稿措辞铿锵:“打破技术依赖,树立本土AI新标杆”。
然而,就在模型开源代码仓库上线不到两天,全球开发者社区就炸开了锅。
技术侦探上线:config.json里藏不住的真相
一位匿名开发者在仔细比对乐天发布的模型配置文件 config.json 后发现:
✅ 架构类名明确写着 "architectures": ["DeepseekV3ForCausalLM"];
✅ 模型结构、分词器(tokenizer)、注意力机制设计与DeepSeek-V3高度一致;
✅ 训练日志和权重初始化方式也指向同一基座——而非从零构建的新架构。
换句话说:这不是“从头造轮子”,而是基于中国团队DeepSeek开源的DeepSeek-V3模型,用日语语料进行微调后的衍生版本。参数量虽经扩展(如扩大词表、增加部分适配层),但核心骨架、训练范式、甚至部分注释代码都保留了DeepSeek的原始痕迹。
“融合开源精华”?这句话,成了最大的模糊地带
乐天在官方新闻稿中仅轻描淡写地提到:“本模型融合开源社区精华,结合日本本土需求深度优化。”
但没提DeepSeek——一次都没提。
更引发争议的是许可证操作:
– 初始发布的GitHub仓库中,缺失MIT许可证文件(MIT是DeepSeek-V3的原始授权协议,要求衍生作品必须保留原许可声明);
– 直到社区密集质疑后约12小时,乐天才补传一个 NOTICE 文件,说明“基于DeepSeek-V3修改”,但仍未恢复完整MIT文本;
– 虽然从法律角度,补充NOTICE可能满足最低合规要求,但开源精神的核心从来不只是“不违法”,而是尊重、署名与透明。
一位资深开源律师评论道:“这不是技术问题,是协作伦理问题。你用别人的引擎造车,车标可以写自己的名字,但仪表盘上总该贴一张‘引擎由DeepSeek提供’的铭牌。”
自研≠闭门造车,但“最大”≠“最原创”
需要澄清一个关键事实:基于优质开源基座做领域适配,是全球AI工业界的主流实践——Meta的Llama系列被数百个商用模型复用,Hugging Face上90%以上的SOTA日语模型都站在Falcon或Qwen的肩膀上。乐天选择DeepSeek-V3,本身无可厚非。
真正刺痛行业的,是宣传口径与技术现实之间的巨大落差:
🔹 “日本最大” → 参数量确为当前日本企业公开模型之最;
🔹 “性能最强” → 尚无第三方基准测试佐证,且未公开对比数据;
🔹 “自研” → 若指工程实现与应用层优化,尚可商榷;若暗示算法架构、训练框架、核心创新均属原创,则与代码证据相悖。
风波之后:标签热战,正在透支公众信任
这场争议远不止关乎一家公司。它折射出一个更深层的焦虑:在全球AI竞赛加速白热化的今天,各国政府与企业急于打造“本国AI旗舰”,却在传播策略上陷入“唯参数论”“唯首发论”“唯命名权论”的陷阱。
当“最大”“最强”“首个”成为KPI,技术叙事就容易滑向修辞游戏。而开发者、媒体与用户,正变得越来越懂行——他们不再只看新闻稿,还会扒config、读commit、验sha256。
乐天尚未就架构归属、许可疏漏及宣传措辞作出正式回应。但无论后续如何收场,这起事件已悄然立下一块界碑:
真正的技术主权,不在于能否贴上“国产”标签,而在于是否敢于把“站在谁的肩膀上”写进首页README。
毕竟,在代码世界里,真相从不加密——它就藏在那一行行不可篡改的JSON里。
