五万卡国产算力跑通,美团大模型为何还是“期房”?

考研资深辅导 2026年07月04日 23:03:43

" 模型权重很快到来，敬请关注！" 在 LongCat-2.0 的 Hugging Face 仓库页面上，这行蓝色提示格外显眼。仓库顶部展示的是 1.6 万亿参数、480 亿激活参数、五万卡国产 ASIC 集群等硬指标，许可证一栏也早早标好 MIT。但一路滑到页面底部，所有核心文件的状态仍是 " 即将推出 " ——模型本体、训练数据、配置细节，全部缺席。

这种 " 先发框架、后补权重 " 的操作，被业内戏称为 AI 领域的期房预售。不过，抛开交付节奏不谈，美团这次确实做了一件硬事：用五万张国产专用 AI 加速芯片，不依赖 NVIDIA 的 NCCL 通信协议，完全依靠国产集群自带的分布式通信方案，把一台 1.6 万亿参数的 MoE 模型从头训练到尾。正式公布的指标显示，平均激活参数约 480 亿，原生支持 100 万 token 的超长上下文，整合了稀疏注意力、多专家动态融合等一系列优化方法。按照官方说法，这是国产算力生态首次完成该量级的端到端训练验证。

训练成果在部分基准测试上已经反映出竞争力。LongCat-2.0 在 SWE-bench Pro 中取得 59.5 分，略高于 GPT-5.5 的 58.6 分。尽管分数差距在一个百分点以内，但考虑到整个训练链完全跑在国产芯片与自研通信协议上，这一结果足以让 " 模芯协同 " 这个喊了三年的口号第一次有了具象化的参照物。

然而，真正能衡量国产算力竞争力的三个关键数字，官方全都按下不表。第一，芯片与集群的具体厂商未被披露；第二，训练总成本没有公布；第三，实际训练耗时，也就是业内常说的 wall-clock 时间，同样空白。这几项数据直接关系到全国产路线的真实成色、算力经济性以及与 NVIDIA 生态的效率差距。没有它们，外部团队既无法对标，也难以复用美团已经踩过的坑。

开源承诺的兑现程度，同样集中在 " 看得见 " 和 " 用不了 " 之间。LongCat-2.0 标注为 MIT 许可证，但截至目前，官方只放出了推理框架和 Infra 层的代码，模型权重未上线，训练数据构成更是只字不提。已知模型训练使用了超过 35 万亿 tokens 的数据，但数据来源、配比与清洗规则全无说明。这种 " 开源权重不开源数据 " 的模式，相当于只给成品，不给配方：开发者可以调用模型，却无法复现训练过程，更不用说进行二次预训练或针对性微调。

把 LongCat 与同期强调开放路线的 DeepSeek V4 放在一起看，差异会更加清晰。DeepSeek V4 公布了权重、代码及训练数据配比，社区复现的可能性更高，但它并未强调从零开始在国产算力上完成全栈训练。LongCat 恰好相反，训练侧做到全栈国产，但权重与数据紧锁。一个赌全栈可控，一个赌全量开源，阶段性的交付都不算完整。

美团对训练数据保持沉默，并非不可理解。一个为本地生活场景从头打造的模型，训练数据中大概率混合了外卖订单、商家信息、用户评价、地理位置等核心业务资产，这些不可能公开。但数据构成与清洗规则的缺失，直接导致外界无法验证测试集是否存在泄露风险。SWE-bench Pro 的 59.5 分含金量，现阶段只能靠企业单方面担保。

调用量构成了另一个观察窗口。在 OpenRouter 这一第三方模型调用平台上，LongCat-2.0 以 Owl Alpha 的匿名身份低调运行了数月，API 定价仅 0.30 美元每百万 token，远低于 GPT-5.5 的 2.50 美元，而且大量调用完全免费。凭借低价策略，月调用量迅速冲至全球前三。但行业内对这种冲榜方式早就见怪不怪——新模型上线初期靠低价和免费额度换声量，等口碑积累后再逐步提价，几乎是通用玩法。一旦进入收费阶段，前三的位置还能否维持，才是真正的考题。

在性能对标上，LongCat 瞄准的是 Claude Opus 4.6，但 Anthropic 已经迭代到 4.8 版本，留给美团的时间窗口相当有限。更重要的是，它本身是一个垂直模型，为本地生活、Agentic Coding 类任务做过专项优化，通用问答和多模态能力明显弱于同期竞品。但近来铺天盖地的通稿几乎都刻意弱化了这一垂直定位，将它包装成对标 GPT 的通用大模型突破。实际上，从训练目标到数据底座，LongCat-2.0 的服务对象始终是美团自家的商家智能助手、外卖调度、到店运营等场景。定位本身并没有问题，可一旦裹进 " 国产算力突围 " 的宏大叙事，就容易让外界误以为这是一场通用智能的胜利。

七月以来，国产模型密集发布的势头更为明显。Kimi K3 以 2.5 万亿参数走通用多模态路线，直接对标 OpenAI 和 Anthropic；百度文心 5.0 达到 2.4 万亿参数，主打原生全模态；DeepSeek V4 维持万亿级参数，依靠开源和极低 API 成本去充当模型水电煤；美团 LongCat 则以 1.6 万亿参数扎根本地生活垂直赛道。参数一个比一个高，路线却彻底分化。资本市场持续推动参数竞赛，但企业端的真实需求，往往是能把客服成本砍掉一半的轻量化方案。给一位奶茶店老板推销 1.6 万亿参数的大模型，对方只会反问：" 能帮我自动回复差评吗？" 当然能，可一个小模型就足以做到，完全不必搬出万亿规模。

再看投入强度，行业普遍估算，一个五万卡集群三年内的折旧、电力与运维费用，总计接近百亿级别。美团有外卖、到店和本地生活的稳定现金流，能够摊平这笔预研成本，纯 AI 创业公司则没有这样的缓冲池，很难模仿。阿里通义、京东言犀走的是通用模型微调加业务落地的路线，轻、快、成本可控；美团选择的却是全栈自研、从零开始训练，重、慢、但壁垒更高。两种路径没有绝对的对错，只是中小厂基本学不了美团。

LongCat-2.0 的工程价值不可否认。它证明了一条此前只存在于方案上的全国产训练链路是跑得通的，这一点对行业信心的提振有其分量。但一家企业的里程碑，铺不成全行业的高速公路；一次演示级的成功，也不等于公共基础设施的成熟。真正意义上的交付，至少需要芯片与集群配置可核验、模型权重可下载、训练数据的构成与清洗规则可追溯。在此之前，它更像一次精心筹备的工程展示。

国产 AI 从不缺 " 突破 "" 超车 "" 第一 " 的通稿，缺的是敢晒真实成本、敢公开核心供应链、敢让所有人复现的坦诚。对

The End

相关文章