栏目分类

新西瓜影院

你的位置：探花视频 > 新西瓜影院 > 丁香五月婷婷基地从高光到塌房，Meta Llama 4 际遇惊魂72小时

丁香五月婷婷基地从高光到塌房，Meta Llama 4 际遇惊魂72小时

发布日期：2025-04-10 07:36 点击次数：85

开源大模子 Llama 4 的翻车还在抓续发酵丁香五月婷婷基地。

4 月 8 日，当作大言语模子「巨擘榜单之一」的 Chatbot Arena（民间俗称「大模子竞技场」）发布了一则口吻凄婉严肃的声明。面对社群对于 Meta 新模子 Llama 4 排名的质疑，官方示意将公开 2000 多场真东谈主对比测试的完竣数据，并凄婉点名 Meta：

「Meta 应该更了了地标明『Llama-4-Maverick-03-26-Experimental』是一个当作东谈主类偏好进行优化的定制化模子。咱们正在更新排名榜的战术，以幸免此类羞辱再次发生。」

图/ X

这条声明不仅仅流露，一定进度上亦然对通盘大模子行业的一记警钟。

Chatbot Arena 由加州大学伯克利分校发起，是现时大模子评测中可能最具行业影响力的「真东谈主盲测」排名榜，中枢的机制是通过闪开导者和 AI 景仰者会在平台上用疏浚问题向两款模子发问，对比回答内容并投票打分。

而这种「真东谈主盲测」的机制，让 Chatbot Arena 有别于其他任何基准测试，也成为了外界最为相信的大模子排名榜。不错说，一款模子是否登上「Chatbot Arena 排名榜」前线，在一定进度上平直影响其在媒体和开导者群体中的口碑与采选率。

正因如斯，当 Meta 在 4 月 5 日发布其最新一代开源大模子 Llama 4，随后快速冲上Chatbot Arena 排名榜第二，力压一众顶级大模子，仅次于 Google 前脚发布的 Gemini 2.5 Pro，天然也就引起了扫数东谈主的好奇和期待。

但很快，社区发现这一版块是未公开、定制化调优的「实验模子」，而并非 Meta 开源的郑再版。于是，争议爆发：这算不算「刷榜」？Chatbot Arena 是否被附近为营销用具？Meta 为什么要这么操作？

更糟的是，在部分官方莫得展示的专科基准测试中，Llama 4 发扬也不尽如东谈宗旨，险些垫底。不少第一批尝试的用户也在 Reddit、X 等外交平台上发文抒发了失望，有东谈主就在发帖中提到 Llama 4 在编程智商上的不尽如东谈宗旨，并指出：

「商量到 Llama-4-Maverick 有 402B 的参数目，我为什么扞拒直使用 DeepSeek-V3-0324 呢？大要 Qwen-QwQ-32B 可能更安妥——固然性能一样，但它的参数目独一 32B。」

图/ Reddit

这让东谈主不禁狐疑，也曾被开源阵营交付厚望、凭借 Llama 2 和 Llama 3 渐渐建造口碑的 Meta，为什么就在 Llama 4 翻了车？

从高光到塌房，Llama 4的72小时惊魂

时候回到 4 月 5 日，Meta 在官方博客上发布《The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation》一文，认真晓谕 Llama 4 系列模子面向社区开源。

这一次丁香五月婷婷基地，Meta 公开了最新一代模子的三个版块：Llama 4 Scout、Llama 4 Maverick、还在考验中的「训导模子」Llama 4 Behemoth，均初度采选了夹杂行家（MoE）架构。

图/ Meta

其中最主流、最受眷注的 Maverick 版块，是领有 128 个「行家」的 170 亿活跃参数模子（总参数为 4000 亿），Meta 将其样式为「同类最好的多模态模子」，强调其在多方面进步了 Gemini 2.0 与 GPT-4o，在编码和推理方面比 Deepseek 3.1 更有竞争力。

但就在 Llama 4 发布不久，情况连忙脱离了 Meta 的预期。

在社区层面，首批用户对 Llama 4 的发扬并不买账。在多个测试中，尤其是在需要代码智商和严谨逻辑推理的场景中，Llama 4 的发扬并莫得已毕其极端 GPT、DeepSeek 的发扬。包括在 Aider Chat 提供的 Polyglot 编程测试中，Maverick 版块的正确率仅为 16%，处于排名榜末尾。

不仅与其弘远的参数体量实足不符，致使逾期于领域更小的开源模子，比如 Google Gamma 。这种效能让不少开导者大感不测，也与官方宣传酿成了热烈反差。

图/ Chatbot Arena

风评下滑之际，更严厉的质疑也相继而至——Llama 4 是否使用了公开测试集进行考验？是否针对通用基准的 Chatbot Arena 针对性优化？这些质疑都在期间社区连忙传播、发酵，包括 Chatbot Arena 在声明中尽管并未使用「舞弊」等字眼，但字里行间的口吻已填塞顽强和不悦。

尤其是汉文外侨社区「一亩三分地」上，自称提交辞呈、条款从 Llama 4 期间论述中删革职字的「Meta 职工」发帖示意，跟着 Deadline（截止日历）的贴近，Meta 最终取舍了将各个基准测试的测试集夹杂在 Post-Training「后考验」（对应大模子的「预考验」阶段）之中。

不外 Meta 团队很快出头作念了流露，一位经手「后考验」的 Meta GenAI 成员实名（Licheng Yu）示意：

「这两天绝交凝听各方 feedback（比如 coding、creative writing 等弱例必须改良）但愿能鄙人一版有提高。但为了刷点而 overfit 测试集咱们从来莫得作念过，实名 LichengYu，两个 oss model 的 post training 有经手我这边请奉告哪条 prompt 是测试集选出来放进考验集的我给你磕一个+谈歉！」

图/ Licheng Yu

公开尊府表现，Licheng Yu（虞立成）本科毕业于上海交通大学，2014 年获佐治亚理工学院和上海交通大学双硕士学位，2019 年获北卡罗来纳大学教堂山分校盘算机科学博士学位，2023 年 6 月于今在 Meta 担任商量科学家司理，并参与了 Llama 3、Llama 4 方式。

同期，负责 Meta GenAI 的副总裁 Ahmad Al-Dahle 也在 X 平台明确示意，「Meta 莫得在测试集上考验 Llama 4。」而针对 Llama-4-Maverick-03-26-Experimental，Meta 也在争议发生后取舍了发布开源版块，以回复外界的月旦。

图/ X

但这些回复显然都没能遁入掉一个问题：Llama 4 的真实智商。事实上，非论是 Licheng Yu，如故 Ahmad Al-Dahle，都在考虑部分质疑的同期承认了 Llama 4 在性能存在的问题。

当作开源阵营中也曾「最有但愿挑战 OpenAI」的旗头，Llama 4 底本承载着开导者与产业界的高度期待。但当今，它却在发布一周内从「高光」跌入「信任危险」，成为大模子竞赛中一次凄婉的口碑「滑铁卢」。

DeepSeek加快开源，Meta被逼到失速

淌若只看名义，此次 Llama 4 的口碑翻车，似乎充满了戏剧张力——匿名辞职职工爆料称，Meta 高层为了赶上里面设定的 Deadline，条款将各大测试集混入「后考验」，只为「一个能看的效能」。致使还传言，负责 AI 的副总裁 Joelle Pineau 也因反对这一作念法而辞职。

不外从目下公开的信息来看，这些说法经不起推敲。对于使用测试集进行后考验一事，前文的回复其实依然基本流露。而 Joelle Pineau 的辞职发生在发布前两天，但她并不负责生成式 AI 团队，而是指引 Meta Fundamental AI Research（FAIR）商量部门，与 Llama 4 方式并无平直关系。

发布前几天辞职的 Joelle Pineau，图/ Meta

人与动物

在辟除这些公论噪音之后，确切的问题才浮出水面。蔓引牵累，Llama 4 的问题，不在于作秀，而在于开源大模子竞争加重下的失速。

昔时两年，Meta 凭借 Llama 2 和 Llama 3，迟缓在开源模子市集上建造起「率先、可靠」的领略。关系词到了 Llama 4，情况依然发生了巨大的变化，DeepSeek V3/R1 的发布扭转了开源与闭源模子的差距，而且大大加快了开源模子的发展速率。

这让底本当作「开源指引者」的 Llama 靠近更大的压力。

尽管咱们觉得前文爆料许多经不起推敲，但有少许却是实践：Llama 4 如实有 Deadline。这少许从 Llama 4 Behemoth 还在考验中就得以窥见，而且在参数领域推广、架构复杂化（MoE）的同期，Llama 4 很可能莫得留出填塞的测试和改良时候，才导致发布后不踏实的性能发扬。

图/ Meta

此外，Meta 也没能截止住动作的变形。Llama-4-Maverick-03-26-Experimental 针对对话模式的优化自身无可厚非，但「首发」Chatbot Arena 的指标却是路东谈主王人知。咱们也不知谈，这个特调版块又葬送了哪些？

而从目下来看，Meta 的作念法显然错了，经由能在发布之处取得更高的期待、更多的眷注，但之后的本色发扬不仅让东谈主愈加失望，也冲破了用户对 Llama 系列「率先、可靠」的领略。

奈何看都是输。

Meta 天然还有契机扶植。仅仅丁香五月婷婷基地，它开端必须正面面对 DeepSeek、Qwen、Gamma 等其他大模子依然崛起、致使极端我方的实践，能力谈重整疆土。

上一篇：丁香五月婷婷基地越南对好意思零关税，会是馅饼照旧罗网？

下一篇：丁香五月婷婷基地国防部奉劝菲方：“倚外闹海”焉知非福，“棋子”终成“弃子”

探花视频

栏目分类

新西瓜影院

丁香五月婷婷基地 从高光到塌房，Meta Llama 4 际遇惊魂72小时

丁香五月婷婷基地从高光到塌房，Meta Llama 4 际遇惊魂72小时