开源Mellum2，JetBrains打造AI基础设施新星

JetBrains近日宣布开源Mellum2，这款拥有120亿参数的编程模型，主要面向智能体AI系统的基础设施层——包括路由、检索管道和子智能体任务——以及私有本地部署场景。这是Claude Code及其同类产品无法触及的领域。Mellum2是Mellum的后续版本，于2024年底推出，最初作为其自有IDE的专属代码补全工具，后于2025年4月开源。Mellum2的定位也发生了显著变化，从代码补全到为工程团队部署AI所需的广泛任务而构建。Mellum2采用混合专家（MoE）架构，总参数量120亿，但每个词元仅激活25亿参数。这种设计将每个词元路由给64个专家模型的子集，而非整个网络，从而在保持模型整体容量的同时实现快速推理。在技术报告里，JetBrains基于单张H100GPU选用贴合真实生产代码补全负载的输入、输出数据，对Mellum2、阿里Qwen2.5-7B和Qwen3-8B进行了基准性能测试。在单请求模式下，Mellum2的性能与Qwen2.5-7B几乎持平——每秒192词元对193词元。而在并发负载下——即生产部署的实际运行场景中——Mellum2比Qwen2.5-7B高出21%，比Qwen3-8B高出79%。成本方面的表现同理。由于每个词元仅激活25亿参数，该架构在推理层面的表现更接近25亿参数模型，而非传统的120亿参数稠密模型——这对于每天将其作为更大智能体系统的一部分、路由大量请求的团队来说至关重要。在功能级代码生成方面，以结合HumanEval+和MBPP+的EvalPlus基准进行评测，Mellum2的思考版本得分78.4%——优于参测的其余模型，其中Qwen3.5-9B得分71.8%、代码专项模型Seed-Coder-8B得分73.8%。不过，当评测范围跳出软件工程相关任务后，对比结果就出现分化。JetBrains自测数据表明，Qwen3.5-9B在GPQA Diamond、MMLU-Redux等通用推理与知识类测评中依旧更占优势。JetBrains在技术报告中承认了这一点，并表示模型训练方向高度专精需要付出相应的代价。

--91likeyou---

成本方面的表现同理。由于每个词元仅激活 25 亿参数，该架构在推理层面的表现更接近 25 亿参数模型，而非传统的 120 亿参数稠密模型——这对于每天将其作为更大智能体系统的一部分、路由大量请求的团队来说至关重要。

在功能级代码生成方面，以结合 HumanEval+ 和 MBPP+ 的 EvalPlus 基准进行评测，Mellum2 的思考版本得分 78.4%——优于参测的其余模型，其中 Qwen3.5-9B 得分 71.8%、代码专项模型 Seed-Coder-8B 得分 73.8%。

不过，当评测范围跳出软件工程相关任务后，对比结果就出现分化。JetBrains 自测数据表明，Qwen3.5-9B 在 GPQA Diamond、MMLU-Redux 等通用推理与知识类测评中依旧更占优势。

JetBrains 在技术报告中承认了这一点，并表示模型训练方向高度专精需要付出相应的代价。

“这一差距源于我们在训练资源分配上刻意侧重代码与开发文档，而非广泛的百科知识覆盖，”作者写道。

也许，Mellum2 的优势在于它不需要依赖其他东西。Anthropic 的 Claude Code 和 OpenAI 的 Codex 虽然在客户端本地运行，但推理仍通过 Anthropic 和 OpenAI 的 API 路由。

Cursor 也在尝试自己的专有编程模型策略，最近推出了 Composer 2.5。这些能力仍与 Cursor 的平台绑定，而该公司最近宣布与 SpaceX 的 xAI 合作，又将技术栈的另一个关键层——基础设施和未来模型开发——置于用户的可控范围之外。

Mellum2 基于 Apache 2.0 许可协议开源权重，企业可自主选择本地化运行。Mellum2 能否在企业规模上获得认可，将取决于企业对自托管 AI 基础设施的接受程度。

JetBrains 押注的是，随着 AI 更深入地融入软件工程工作流，部署灵活性、运营控制权和所有权仍将是企业的重要考量。这是一个合理的赌注——但能否在大规模场景中落地验证，尚且有待时间检验。

Mellum2 现已上线 Hugging Face（ Apache 2.0 许可发布，同时附带完整的技术报告，详细说明了架构决策和训练流程。

：

🔥 热词：#Mellum2 · #JetBrains · #Claude · #Code · #AI · #Mellum · #开源 · #尝试

开源Mellum2，JetBrains打造AI基础设施新星

相关文章

开源Qwable-v1全面解析：自称蒸馏自最强Claude Fable 5模型

Anthropic选Persona做身份验证引爆用户退订潮：彼得蒂尔成导火索

传统数据架构的革新：适应现代数据处理需求

Uber通过实时信号与Listwise排序提升餐厅推荐