Llama 4被图灵奖得主曝作弊刷榜

xinwen.mobi · 发表于 2026-1-12 13:50:16

今儿个这事儿，就个Meta公司的大模型Llama 4，可真是闹了个大笑话！本来是个挺牛的开源模型，结果愣是被发现“考试作弊”了，连带着把公司里好些事儿都给抖了出来。

这档子事儿得从2025年4月说起。当时Meta不是高调发布了新一代的Llama 4模型吗？其中有个叫 Llama-4-Maverick 的版本，一出场就在一个叫大模型竞技场（Chatbot Arena）的排行榜上拿了第二名，风光得很。可没过多久，程序员们自己上手一用，就发现不对味儿了。感觉这模型的实际水平，跟排行榜上的名次完全对不上，尤其是在写代码、做逻辑题这种需要真本事的地方，表现得挺拉胯。有开发者就吐槽，用Llama 4干活儿，结果连道题都解不出来，花十几二十分钟跟它掰扯，最后还是不行。

紧接着，就有自称是Meta内部员工的人在网上爆料了。说是因为赶着要在4月底之前必须把模型做出来，上面领导给的压力太大，眼看着模型能力实在达不到顶尖水平，就有人想了个“妙招”：在训练后期，直接把那些用来“考试”的题（也就是基准测试集）混进训练数据里了。这不就等于考试前提前拿到了答案吗？这招一出，模型在测试分数上自然“好看”多了。连公司AI研究部门的前负责人乔尔·皮诺，都在模型发布前几天突然宣布离职，当时就让人浮想联翩。

事情闹大了，排行榜的管理方也出来说话了。他们查了一下，发现Meta当初提交上去打榜的那个版本，根本就不是后来开源给大家用的普通版，而是一个专门为了对话聊天优化过的“特供版”，名字后面还带着“Experimental”（实验版）的标签。这不就是专门为了考高分而准备的“特殊武器”嘛！随后，这个排行榜就用大家能下载到的那个普通版本重新测试了一下。好家伙，Llama 4的排名直接从第2名摔到了第32名，差点儿都找不着了。这下可实锤了，社区里的开发者们都挺失望的，觉得以后可能很难再信任Meta了。

更离谱的还在后面。最近，Meta的前首席AI科学家、也是图灵奖得主的杨立昆（Yann LeCun），在离开公司后亲口证实了这事儿。他说，Llama 4的测试结果确实“被修饰了一点”。为了在不同的考试里都拿到好成绩，团队针对不同的考试用了不同版本的模型。他还透露，这事儿让Meta的老板扎克伯格“非常沮丧”，对整个做生成式AI的团队都“失去了信心”。

于是，公司内部就开始了一场大变动。首先就是人事上的大洗牌。扎克伯格后来挖来了数据标注公司Scale AI的创始人，一个才28岁的年轻人亚历山大王，让他领导新成立的超级智能实验室。杨立昆对这种安排评价不高，他觉得这位新领导虽然聪明学得快，但“年轻且缺乏经验”，不太懂怎么做研究。

接着就是技术路线上吵翻了天。杨立昆一直觉得现在主流的大语言模型（LLM）这条路走不远，是个“死胡同”。他主张研究更能理解物理世界运作的“世界模型”。但公司新招的人和投入的资源，明显都扑在大语言模型上。道不同不相为谋，这也成了杨立昆离开的原因之一。他自己出去开了家新公司，就是要继续搞他心目中的“世界模型”。

这风波里还有一位躺枪的，就是原来Meta基础AI研究团队的技术总监田渊栋。他的团队原本在做自己的研究，结果被临时抽调去给Llama 4项目“救火”，赶工完成了Llama 4.5的版本。可是活刚干完，他整个团队却被裁掉了。田渊栋后来自己回顾这段经历时也说，这让他“对这社会的复杂性有了更为深刻的认识”。他本来预测了干这活儿的四种可能结果，但最后老板给了他完全没料到的“第五种结局”。

所以说，这一场“刷榜”丑闻，可不光是丢了个排名那么简单。它就像一根导火索，把Meta公司内部在技术方向上的争执、管理上的混乱、以及由此引发的人事地震，全都给炸出来了。从老板生气、团队换血，到核心大佬出走、无辜团队背锅，整个就是一出现实版的“宫斗”加“职场现形记”。

这档子事也给整个行业提了个醒，在人工智能这条跑道上，光想着靠小聪明“刷分”抢名次是没用的。一旦失了诚信，丢了开发者和用户的信任，再大的公司也得摔跟头。

		自动登录	找回密码
密码			立即注册

Llama 4被图灵奖得主曝作弊刷榜

相关帖子