JetBrains近日宣布开源Mellum2,这款拥有120亿参数的编程模型,主要面向智能体AI系统的基础设施层——包括路由、检索管道和子智能体任务——以及私有本地部署场景。这是Claude Code及其同类产品无法触及的领域。Mellum2是Mellum的后续版本,于2024年底推出,最初作为其自有IDE的专属代码补全工具,后于2025年4月开源。Mellum2的定位也发生了显著变化,从代码补全到为工程团队部署AI所需的广泛任务而构建。Mellum2采用混合专家(MoE)架构,总参数量120亿,但每个词元仅激活25亿参数。这种设计将每个词元路由给64个专家模型的子集,而非整个网络,从而在保持模型整体容量的同时实现快速推理。在技术报告里,JetBrains基于单张H100GPU选用贴合真实生产代码补全负载的输入、输出数据,对Mellum2、阿里Qwen2.5-7B和Qwen3-8B进行了基准性能测试。在单请求模式下,Mellum2的性能与Qwen2.5-7B几乎持平——每秒192词元对193词元。而在并发负载下——即生产部署的实际运行场景中——Mellum2比Qwen2.5-7B高出21%,比Qwen3-8B高出79%。成本方面的表现同理。由于每个词元仅激活25亿参数,该架构在推理层面的表现更接近25亿参数模型,而非传统的120亿参数稠密模型——这对于每天将其作为更大智能体系统的一部分、路由大量请求的团队来说至关重要。在功能级代码生成方面,以结合HumanEval+和MBPP+的EvalPlus基准进行评测,Mellum2的思考版本得分78.4%——优于参测的其余模型,其中Qwen3.5-9B得分71.8%、代码专项模型Seed-Coder-8B得分73.8%。不过,当评测范围跳出软件工程相关任务后,对比结果就出现分化。JetBrains自测数据表明,Qwen3.5-9B在GPQA Diamond、MMLU-Redux等通用推理与知识类测评中依旧更占优势。JetBrains在技术报告中承认了这一点,并表示模型训练方向高度专精需要付出相应的代价。
--91likeyou---
成本方面的表现同理。由于每个词元仅激活 25 亿参数,该架构在推理层面的表现更接近 25 亿参数模型,而非传统的 120 亿参数稠密模型——这对于每天将其作为更大智能体系统的一部分、路由大量请求的团队来说至关重要。
在功能级代码生成方面,以结合 HumanEval+ 和 MBPP+ 的 EvalPlus 基准进行评测,Mellum2 的思考版本得分 78.4%——优于参测的其余模型,其中 Qwen3.5-9B 得分 71.8%、代码专项模型 Seed-Coder-8B 得分 73.8%。
不过,当评测范围跳出软件工程相关任务后,对比结果就出现分化。JetBrains 自测数据表明,Qwen3.5-9B 在 GPQA Diamond、MMLU-Redux 等通用推理与知识类测评中依旧更占优势。
JetBrains 在技术报告中承认了这一点,并表示模型训练方向高度专精需要付出相应的代价。
“这一差距源于我们在训练资源分配上刻意侧重代码与开发文档,而非广泛的百科知识覆盖,”作者写道。
也许,Mellum2 的优势在于它不需要依赖其他东西。Anthropic 的 Claude Code 和 OpenAI 的 Codex 虽然在客户端本地运行,但推理仍通过 Anthropic 和 OpenAI 的 API 路由。
Cursor 也在尝试自己的专有编程模型策略,最近推出了 Composer 2.5。这些能力仍与 Cursor 的平台绑定,而该公司最近宣布与 SpaceX 的 xAI 合作,又将技术栈的另一个关键层——基础设施和未来模型开发——置于用户的可控范围之外。
Mellum2 基于 Apache 2.0 许可协议开源权重,企业可自主选择本地化运行。Mellum2 能否在企业规模上获得认可,将取决于企业对自托管 AI 基础设施的接受程度。
JetBrains 押注的是,随着 AI 更深入地融入软件工程工作流,部署灵活性、运营控制权和所有权仍将是企业的重要考量。这是一个合理的赌注——但能否在大规模场景中落地验证,尚且有待时间检验。
Mellum2 现已上线 Hugging Face( Apache 2.0 许可发布,同时附带完整的技术报告,详细说明了架构决策和训练流程。
:
🔥 热词:#Mellum2 · #JetBrains · #Claude · #Code · #AI · #Mellum · #开源 · #尝试