找回密码
 立即注册
搜索

Llama 4被图灵奖得主曝作弊刷榜

[复制链接]
xinwen.mobi 发表于 4 天前 | 显示全部楼层 |阅读模式
今儿个这事儿,就个Meta公司的大模型Llama 4,可真是闹了个大笑话!本来是个挺牛的开源模型,结果愣是被发现“考试作弊”了,连带着把公司里好些事儿都给抖了出来。

这档子事儿得从2025年4月说起。当时Meta不是高调发布了新一代的Llama 4模型吗?其中有个叫 Llama-4-Maverick 的版本,一出场就在一个叫大模型竞技场(Chatbot Arena)的排行榜上拿了第二名,风光得很。可没过多久,程序员们自己上手一用,就发现不对味儿了。感觉这模型的实际水平,跟排行榜上的名次完全对不上,尤其是在写代码、做逻辑题这种需要真本事的地方,表现得挺拉胯。有开发者就吐槽,用Llama 4干活儿,结果连道题都解不出来,花十几二十分钟跟它掰扯,最后还是不行。

紧接着,就有自称是Meta内部员工的人在网上爆料了。说是因为赶着要在4月底之前必须把模型做出来,上面领导给的压力太大,眼看着模型能力实在达不到顶尖水平,就有人想了个“妙招”:在训练后期,直接把那些用来“考试”的题(也就是基准测试集)混进训练数据里了。这不就等于考试前提前拿到了答案吗?这招一出,模型在测试分数上自然“好看”多了。连公司AI研究部门的前负责人乔尔·皮诺,都在模型发布前几天突然宣布离职,当时就让人浮想联翩。

事情闹大了,排行榜的管理方也出来说话了。他们查了一下,发现Meta当初提交上去打榜的那个版本,根本就不是后来开源给大家用的普通版,而是一个专门为了对话聊天优化过的“特供版”,名字后面还带着“Experimental”(实验版)的标签。这不就是专门为了考高分而准备的“特殊武器”嘛!随后,这个排行榜就用大家能下载到的那个普通版本重新测试了一下。好家伙,Llama 4的排名直接从第2名摔到了第32名,差点儿都找不着了。这下可实锤了,社区里的开发者们都挺失望的,觉得以后可能很难再信任Meta了。

更离谱的还在后面。最近,Meta的前首席AI科学家、也是图灵奖得主的杨立昆(Yann LeCun) ,在离开公司后亲口证实了这事儿。他说,Llama 4的测试结果确实“被修饰了一点”。为了在不同的考试里都拿到好成绩,团队针对不同的考试用了不同版本的模型。他还透露,这事儿让Meta的老板扎克伯格“非常沮丧”,对整个做生成式AI的团队都“失去了信心”。

于是,公司内部就开始了一场大变动。首先就是人事上的大洗牌。扎克伯格后来挖来了数据标注公司Scale AI的创始人,一个才28岁的年轻人亚历山大王,让他领导新成立的超级智能实验室。杨立昆对这种安排评价不高,他觉得这位新领导虽然聪明学得快,但“年轻且缺乏经验”,不太懂怎么做研究。

接着就是技术路线上吵翻了天。杨立昆一直觉得现在主流的大语言模型(LLM)这条路走不远,是个“死胡同”。他主张研究更能理解物理世界运作的“世界模型”。但公司新招的人和投入的资源,明显都扑在大语言模型上。道不同不相为谋,这也成了杨立昆离开的原因之一。他自己出去开了家新公司,就是要继续搞他心目中的“世界模型”。

这风波里还有一位躺枪的,就是原来Meta基础AI研究团队的技术总监田渊栋。他的团队原本在做自己的研究,结果被临时抽调去给Llama 4项目“救火”,赶工完成了Llama 4.5的版本。可是活刚干完,他整个团队却被裁掉了。田渊栋后来自己回顾这段经历时也说,这让他“对这社会的复杂性有了更为深刻的认识”。他本来预测了干这活儿的四种可能结果,但最后老板给了他完全没料到的“第五种结局”。

所以说,这一场“刷榜”丑闻,可不光是丢了个排名那么简单。它就像一根导火索,把Meta公司内部在技术方向上的争执、管理上的混乱、以及由此引发的人事地震,全都给炸出来了。从老板生气、团队换血,到核心大佬出走、无辜团队背锅,整个就是一出现实版的“宫斗”加“职场现形记”。

这档子事也给整个行业提了个醒,在人工智能这条跑道上,光想着靠小聪明“刷分”抢名次是没用的。一旦失了诚信,丢了开发者和用户的信任,再大的公司也得摔跟头。


回复

使用道具 举报

QQ|周边二手车|手机版|标签|xml|txt|新闻魔笔科技XinWen.MoBi - 海量语音新闻! ( 粤ICP备2024355322号-1|粤公网安备44090202001230号 )|网站地图

GMT+8, 2026-1-16 23:05 , Processed in 0.201630 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表