五万卡国产算力跑通,美团大模型为何还是“期房”?

博主:fm5i0dxdb2j0考研资深辅导 2026年07月04日 23:03:43

" 模型权重很快到来,敬请关注!" 在 LongCat-2.0 的 Hugging Face 仓库页面上,这行蓝色提示格外显眼。仓库顶部展示的是 1.6 万亿参数、480 亿激活参数、五万卡国产 ASIC 集群等硬指标,许可证一栏也早早标好 MIT。但一路滑到页面底部,所有核心文件的状态仍是 " 即将推出 " ——模型本体、训练数据、配置细节,全部缺席。

这种 " 先发框架、后补权重 " 的操作,被业内戏称为 AI 领域的期房预售。不过,抛开交付节奏不谈,美团这次确实做了一件硬事:用五万张国产专用 AI 加速芯片,不依赖 NVIDIA 的 NCCL 通信协议,完全依靠国产集群自带的分布式通信方案,把一台 1.6 万亿参数的 MoE 模型从头训练到尾。正式公布的指标显示,平均激活参数约 480 亿,原生支持 100 万 token 的超长上下文,整合了稀疏注意力、多专家动态融合等一系列优化方法。按照官方说法,这是国产算力生态首次完成该量级的端到端训练验证。

训练成果在部分基准测试上已经反映出竞争力。LongCat-2.0 在 SWE-bench Pro 中取得 59.5 分,略高于 GPT-5.5 的 58.6 分。尽管分数差距在一个百分点以内,但考虑到整个训练链完全跑在国产芯片与自研通信协议上,这一结果足以让 " 模芯协同 " 这个喊了三年的口号第一次有了具象化的参照物。

然而,真正能衡量国产算力竞争力的三个关键数字,官方全都按下不表。第一,芯片与集群的具体厂商未被披露;第二,训练总成本没有公布;第三,实际训练耗时,也就是业内常说的 wall-clock 时间,同样空白。这几项数据直接关系到全国产路线的真实成色、算力经济性以及与 NVIDIA 生态的效率差距。没有它们,外部团队既无法对标,也难以复用美团已经踩过的坑。

开源承诺的兑现程度,同样集中在 " 看得见 " 和 " 用不了 " 之间。LongCat-2.0 标注为 MIT 许可证,但截至目前,官方只放出了推理框架和 Infra 层的代码,模型权重未上线,训练数据构成更是只字不提。已知模型训练使用了超过 35 万亿 tokens 的数据,但数据来源、配比与清洗规则全无说明。这种 " 开源权重不开源数据 " 的模式,相当于只给成品,不给配方:开发者可以调用模型,却无法复现训练过程,更不用说进行二次预训练或针对性微调。

把 LongCat 与同期强调开放路线的 DeepSeek V4 放在一起看,差异会更加清晰。DeepSeek V4 公布了权重、代码及训练数据配比,社区复现的可能性更高,但它并未强调从零开始在国产算力上完成全栈训练。LongCat 恰好相反,训练侧做到全栈国产,但权重与数据紧锁。一个赌全栈可控,一个赌全量开源,阶段性的交付都不算完整。

美团对训练数据保持沉默,并非不可理解。一个为本地生活场景从头打造的模型,训练数据中大概率混合了外卖订单、商家信息、用户评价、地理位置等核心业务资产,这些不可能公开。但数据构成与清洗规则的缺失,直接导致外界无法验证测试集是否存在泄露风险。SWE-bench Pro 的 59.5 分含金量,现阶段只能靠企业单方面担保。

调用量构成了另一个观察窗口。在 OpenRouter 这一第三方模型调用平台上,LongCat-2.0 以 Owl Alpha 的匿名身份低调运行了数月,API 定价仅 0.30 美元每百万 token,远低于 GPT-5.5 的 2.50 美元,而且大量调用完全免费。凭借低价策略,月调用量迅速冲至全球前三。但行业内对这种冲榜方式早就见怪不怪——新模型上线初期靠低价和免费额度换声量,等口碑积累后再逐步提价,几乎是通用玩法。一旦进入收费阶段,前三的位置还能否维持,才是真正的考题。

在性能对标上,LongCat 瞄准的是 Claude Opus 4.6,但 Anthropic 已经迭代到 4.8 版本,留给美团的时间窗口相当有限。更重要的是,它本身是一个垂直模型,为本地生活、Agentic Coding 类任务做过专项优化,通用问答和多模态能力明显弱于同期竞品。但近来铺天盖地的通稿几乎都刻意弱化了这一垂直定位,将它包装成对标 GPT 的通用大模型突破。实际上,从训练目标到数据底座,LongCat-2.0 的服务对象始终是美团自家的商家智能助手、外卖调度、到店运营等场景。定位本身并没有问题,可一旦裹进 " 国产算力突围 " 的宏大叙事,就容易让外界误以为这是一场通用智能的胜利。

七月以来,国产模型密集发布的势头更为明显。Kimi K3 以 2.5 万亿参数走通用多模态路线,直接对标 OpenAI 和 Anthropic;百度文心 5.0 达到 2.4 万亿参数,主打原生全模态;DeepSeek V4 维持万亿级参数,依靠开源和极低 API 成本去充当模型水电煤;美团 LongCat 则以 1.6 万亿参数扎根本地生活垂直赛道。参数一个比一个高,路线却彻底分化。资本市场持续推动参数竞赛,但企业端的真实需求,往往是能把客服成本砍掉一半的轻量化方案。给一位奶茶店老板推销 1.6 万亿参数的大模型,对方只会反问:" 能帮我自动回复差评吗?" 当然能,可一个小模型就足以做到,完全不必搬出万亿规模。

再看投入强度,行业普遍估算,一个五万卡集群三年内的折旧、电力与运维费用,总计接近百亿级别。美团有外卖、到店和本地生活的稳定现金流,能够摊平这笔预研成本,纯 AI 创业公司则没有这样的缓冲池,很难模仿。阿里通义、京东言犀走的是通用模型微调加业务落地的路线,轻、快、成本可控;美团选择的却是全栈自研、从零开始训练,重、慢、但壁垒更高。两种路径没有绝对的对错,只是中小厂基本学不了美团。

LongCat-2.0 的工程价值不可否认。它证明了一条此前只存在于方案上的全国产训练链路是跑得通的,这一点对行业信心的提振有其分量。但一家企业的里程碑,铺不成全行业的高速公路;一次演示级的成功,也不等于公共基础设施的成熟。真正意义上的交付,至少需要芯片与集群配置可核验、模型权重可下载、训练数据的构成与清洗规则可追溯。在此之前,它更像一次精心筹备的工程展示。

国产 AI 从不缺 " 突破 "" 超车 "" 第一 " 的通稿,缺的是敢晒真实成本、敢公开核心供应链、敢让所有人复现的坦诚。对

The End