美团 EvoCUA 刷新开源 SOTA,会用电脑还会持续进化的智能体!

美团 EvoCUA 刷新开源 SOTA,会用电脑还会持续进化的智能体! 2026-01-26开源大模型EvoCUA大模型虽已具备强大的感知与推理能力,但在面对复杂的计算机图形界面操作(Computer Use)任务时,仍受限于高质量数据稀缺与环境交互反馈缺失的双重挑战。推出了 EvoCUA 模型并在 Github、Huggingface 开源,通过构建可验证数据合成引擎与十万级并发的交互沙盒,将训练范式从传统的“静态轨迹模仿”转变为高效的“经验进化学习”。该方案在权威评测基准 OSWorld 上以 56.7% 的成功率刷新了开源 SOTA(2026 年 1 月 6 日榜单),验证了基于经验的进化范式在 GUI 智能体领域的有效性。01 背景与挑战随着大模型的发展,AI 已经具备了强大的感知与推理能力。但在真实的使用场景中,我们希望 Agent 不仅能回答问题,更能解决问题——比如自动处理 Excel 表格、在浏览器中完成复杂的资料检索或跨应用协同。这种对解决问题能力的追求,推动了基础模型从 Chat(对话者)到 Agent(行动者) 的转变。在这一进程中,Computer Use Agent(CUA,计算机操作智能体) 是一个关键里程碑。CUA 打破了 API 的限制,构建了一种原生的交互方式——像人类一样,通过高分辨率视觉感知屏幕,并利用鼠标键盘完成跨应用的长链路任务,有可能成为下一代操作系统的核心交互入口。然而,要训练出一个通用的 CUA,我们面临着严峻的 数据扩展(Data Scaling)瓶颈。当前主流的训练范式依赖于对专家轨迹的模仿学习,但在将其推向工业级可用时,这种方式面临着三大挑战:数据合成质量低: 真实的高质量轨迹数据极度稀缺且昂贵,而试图用大模型直接生成数据往往会陷入“幻觉”。模型生成的指令或计划经常看似合理,但在真实的 UI 状态下根本不可执行。缺乏交互反馈: 静态数据模仿学习只能告诉模型“什么是对的”,却无法告诉它“如果点偏了会发生什么”。缺乏在大规模环境交互中产生的反馈,模型就无法捕捉操作与环境变化之间复杂的因果动态,难以适应真实环境中渲染差异、网络延迟等随机扰动。长链路探索效率低:计算机操作往往涉及数十步甚至上百步的连续决策,无约束的探索空间巨大且低效。仅靠简单的模仿学习,模型很难学会如何从中间的错误状态中反思并纠错。需要一种更高效和可扩展的范式,让模型专注于从海量自身成功和失败的经验里学习和进化。面对上述挑战,我们正式推出了 EvoCUA, 一种原生的计算机操作智能体模型。EvoCUA 致力于构建一种进化范式,让模型在大规模沙盒环境中,像生物进化一样,通过不断的试错,反思和修正,积累海量成功和失败经验,进而不断提升自身能力。通过这一范式,EvoCUA-32B 在 Computer Use 权威的在线评测基准 OSWorld 上取得了 56.7% 的成功率,刷新了开源模型的 SOTA 记录,以更少的参数量和推理步数超过此前的开源 SOTA OpenCUA-72B (45.0%),以及领先的闭源模型 UI-TARS-2 (53.1%)。此外,实验证实该方案的通用性,在不同基座(如 Qwen3-VL、OpenCUA)及多个尺寸(8B 至 72B)的模型上均能显著提升 Computer Use 能力 。模型上网查询如何配置 rbenv 开发环境并帮用户安装的示例:02 核心技术架构EvoCUA 的核心在于构建“交互-反馈-修正”的闭环。我们针对数据、环境、算法三个维度构建了自维持的进化架构:可验证数据合成引擎 负责生产高质量任务,高并发交互基建 支持海量轨迹合成,基于经验的迭代算法 提供模型进化的关键路径。2.1 可验证数据合成引擎EvoCUA 数据层的核心任务是构建一个自动化流水线,能够合成覆盖各个垂直领域的高质量任务指令。我们要求合成数据要满足两个指标:场景完备性:覆盖从文档办公、Web 检索到系统管理的全场景操作。执行确定性:每一条数据必须在真实环境中可执行、可验证,杜绝逻辑幻觉。在实现这一目标时,我们发现业界通用的“大模型生成 + Reward Model (RM) 筛选”范式在 Computer Use 场景下存在本质缺陷:语义与执行的割裂:传统的 RM 基于语义匹配打分,只能判断生成的指令在文本层面是否合理,无法验证其在物理层面能否执行。Reward Hacking:模型倾向于生成逻辑通顺但包含“幻觉”的指令(例如点击不存在的 UI 元素)。这些不可执行的任务会引入大量训练噪音,导致模型在真实操作中产生严重的错误累积。为了解决数据可信度问题,我们提出了 “生成即验证” 范式,在生成自然语言指令的同时,同步生成可执行的验证代码,并以沙盒中的实际运行结果作为判断数据是否有效的唯一标准。整体数据合成框架如下:2.1.1 结构化任务空间构建在构建任务空间时,我们并未盲目堆砌数据,而是基于对 GUI 操作本质的两个核心洞见:原子能力的可迁移性与泛化性:GUI 操作虽然千变万化,但其底层的“原子技能”是跨域复用的。例如,“数据筛选”这一能力,无论是在 Excel、CRM 系统还是网页后台中,其逻辑内核是同构的。复杂任务的组合本质:真实世界中的复杂任务,本质上是由有限的原子能力通过特定逻辑编排而成的序列。掌握了原子能力的组合方式,就等于掌握了生成无限复杂任务的“语法”。基于这两点思考,我们采用分层构建策略来初始化任务环境。原子能力拆解:我们将复杂的桌面操作任务解构为标准的原子能力单元。基于分层领域分类体系,例如将“Excel 财务分析”任务拆解为“公式计算”、“多列排序”、“透视表生成”等子技能。资源文件合成:为了模拟真实环境的复杂性,我们在环境初始化阶段实施了两种资源生成策略。 参数化合成:针对结构化数据(如销售报表),我们利用代码生成器批量生产 Word/Excel 文档,随机化其中的姓名、价格、日期等参数。非参数化合成:针对非结构化数据,我们直接注入无版权问题的互联网上的公开资源(如真实的图片、音频、复杂的 PPT 幻灯片),强迫 Agent 处理真实世界中不可预知的视觉噪声和布局多样性。2.1.2 指令和验证器合成我们构建了基于 ReAct 的 Agentic 数据合成工作流。当给定一个场景元组(角色、能力、资源)后,作为任务架构师的基础 VLM 会启动生成:指令:生成符合用户意图的自然语言指令,确保任务目标清晰且在当前资源环境下可达成。验证器:同步生成对应的可执行验证 Python 验证代码以及标准答案(以文件/配置项等形式存在)。这段代码定义了任务成功的精确条件(例如:检查某个单元格的值是否为 X,或某个文件是否存在)。不仅如此,我们还引入了沙盒执行反馈机制。生成的验证代码会立即在真实沙盒中运行。如果代码报错(如 API 错误、语法错误),错误日志会被回传给任务架构师进行自我修正。这个过程会迭代多轮,直到验证器本身能够成功运行并通过质量检查。2.1.3 质量保障与去污为了确保入库数据的纯净度,我们在数据落盘前设置了严格的过滤机制。一致性过滤:我们部署了一个测试 Agent 模型对合成任务进行试跑。通过比对“沙盒实际执行结果”与“验证器判定结果”,我们能精准识别出假阳性(False Positives)数据——即任务其实没做对,但验证器误判为成功的案例。只有那些经得起沙盒检验的数据才会被保留。三重去污染:用于合成数据的模型本身见过大量的预训练语料包含大量世界知识,大规模构造合成数据时,有混入和 Benchmark 有一定相关性的数据的风险。为了防止测试集泄露,我们实施了三重去污策略: 语义去重:使用 LLM 过滤掉与 基准测试集在语义上高度相似的指令。配置去重:剔除与测试集具有相同初始化设置(如完全一致的文件名或窗口布局)的任务。验证器去重:检查生成的验证逻辑和 Ground Truth 文件,确保没有直接照搬测试脚本。通过这套数据合成框架,我们成功将可验证的训练数据规模扩展到了数万量级,突破了人工标注的瓶颈。2.2 支撑十万级沙盒并发的基础设施EvoCUA 的进化范式要求 Agent 进行大规模的探索来合成经验轨迹。我们面临的挑战是工业级的:如何在一个集群中稳定调度 100,000+ 个每日活跃沙盒,处理百万级的分钟交互请求,同时保证每个环境的严格隔离与毫秒级响应。为此,我们构建了一套统一的环境沙盒平台,在调度吞吐与环境保真度两个维度做了大量优化。2.2.1 微服务化编排为了消除大规模强化学习中的 I/O 瓶颈,我们将传统的单体模拟器重构为基于微服务的异步架构。异步 I/O 网关: 面对百万级交互请求,传统的阻塞式架构已无法支撑。我们采用了基于 Reactor 模式的异步非阻塞 I/O 设计网关架构,实现了 数百万 QPM(Queries Per Minute)的路由吞吐能力,并且将控制面(生命周期管理)与数据面(环境交互流)彻底解耦,确保长周期的环境执行(如打开一个重型 App)不会阻塞关键的路由逻辑,极大地提升了系统的吞吐上限。沙盒批量急速启停: 强化学习的采样阶段具有极强的“脉冲”特性(短时间内需求激增)。我们的分布式调度器通过分片与资源池化技术,实现了极速冷启动能力。通过该优化,系统能够在 1 分钟内拉起 10,000+ 个沙盒实例。这种“即需即供”的弹性能力,确保了环境供给严格匹配训练需求,最小化了策略更新与经验采集之间的延时,保证了训练的高效流转。2.2.2 保真环境构建在解决了“量”的问题后,更关键的是“质”。Computer Use 任务对环境的确定性要求极高,微小的渲染差异或键位冲突都会导致模型训练非最优。混合虚拟化架构:为了兼顾容器编排的灵活性与虚拟机的强隔离性,我们采用了 Docker 容器嵌套 QEMU-KVM 的混合架构。外层:使用 Docker 对接 K8s 调度体系,复用美团成熟的容器化运维能力。内层:利用 KVM 硬件加速运行 QEMU 虚拟机。价值:这种设计既提供了内核级的安全隔离(防止 Agent 执行恶意代码穿透宿主机),又保证了接近原生的 GUI 渲染与 I/O 性能。操作系统级校准:标准 OS 镜像在自动化操作中存在诸多“隐形坑”,导致仿真环境与真实世界存在 Gap。为此,我们深度定制了 Ubuntu 22.04 镜像,实施了内核与用户态的双重补丁:输入确定性: 标准虚拟化常存在键位映射冲突(例如 US 键盘布局下 Shift + < 状态丢失)。我们深入内核层修改了 xkb 的符号定义,确保 Agent 的符号意图与实际输入严格一致。渲染一致性: 视觉 Agent 对字体布局极其敏感。我们在系统层注入了全套专有字体库并强制刷新 fc-cache,消除了文档在仿真环境与真实环境下的视觉渲染差异,防止模型因环境噪音而产生错误的视觉关联。2.3 基于经验的学习范式有了可验证的数据和高吞吐的环境,我们的核心目标是如何让模型像人类一样学习:要在大量的自我实践中巩固成功经验,并从失败中吸取教训。然而,单纯依赖静态数据的监督微调存在两个本质缺陷:分布偏移:训练数据的分布往往是“完美路径”,而推理时的环境充满了随机性。模型一旦偏离了专家轨迹,就不知道如何回到正轨。负反馈缺失:SFT 只能告诉模型“怎么做是对的”,却从未告诉它“怎么做是错的”以及“错在哪里”。EvoCUA 提出了一种渐进式的进化范式,将训练过程解耦为三个阶段:冷启动(注入先验思维模式)、拒绝采样微调(动态算力分配,巩固成功经验)、强化学习(聚焦关键出错点,从失败经验中学习)。2.3.1 Cold Start: 冷启动在让 Agent 进入大规模环境进行自由探索之前,给模型注入一些思维 pattern,能够提高模型的有效探索能力。为了摸清当前 Agent 能力的边界,我们深入分析了 Qwen3-VL-Thinking、OpenCUA-72B 等主流模型推理轨迹。我们发现,各家模型均有一定缺陷。例如:OpenCUA-72B 很容易提前误判成功,而 Qwen3-VL 模型在动作空间上存在一些明显缺失(如不支持 Shift+Click)。基于此,EvoCUA 在冷启动阶段的核心任务,是定义一套完备的动作空间与严谨的思维范式。完备的动作空间:处理复杂操作,如 Excel 中的 Shift + Click。如果是原子的 press 操作,无法表达这种持续按压的状态。为此,我们将按键拆分为 key_down 和 key_up。结构化思维链:为了避免“幻觉”和“伪成功”,我们给模型注入了一些像人类一样的优秀思维范式: 目标澄清:在初始时刻,强制模型复述并拆解用户意图,消除指令歧义。观测一致性:简短且精准,严格对齐当前的视觉元素,防止“看图说话”时的幻觉。自我验证:在发出 Terminate 信号前,模型必须执行显式的检查步骤。例如在发完邮件后,进入“已发送”文件夹确认,而非盲目自信。反思与纠错:针对采集到的失败轨迹,我们识别出状态偏离的关键分岔点,从错误发生后的那一步恢复环境状态,通过 Prompt 引导和高温采样让模型自我修正。终止判断:Terminate 动作必须强依赖于前序的 CoT 论证。如果思维链中没有明确的完成证据,模型不得输出结束信号,以此抑制“伪成功”。后见之明数据合成:在训练数据构造上,我们不直接使用模型的原始 CoT。对于成功轨迹,我们采用“后见之明”策略——基于正确的 Action 序列反向重写逻辑严密的思维链;同时混入不可完成任务,教会模型识别环境边界,学会说“No”。经过冷启动训练后,模型展现出了明显的行为范式转变。它不仅掌握了终端和复杂快捷键的操作,更重要的是学会了“慢思考 "——在关键节点进行校验和反思。这为后续的大规模进化提供了坚实的原子能力基础。2.3.2 RFT:拒绝采样微调冷启动赋予了模型基础的原子能力,接下来的挑战是如何在万级 Query 上进行 Scaling。我们面临的核心权衡是:如何在有限的算力预算下,最大化高质量经验的产出效率与信噪比?如果对所有任务平均用力,会导致简单任务算力浪费,而困难任务探索不足。为此,EvoCUA 设计了一套“阶梯式动态算力分配 + 步级别去噪”的拒绝采样微调策略。阶梯式动态算力分配:为了最大化探索的 ROI,我们将 Query 池划分为不同难度层级,并实施阶梯式的 Rollout 策略。我们将采样次数 K 划分为多个档位 {3, 8, 16, 32, 64},并为每个档位设定了成功率阈值(如 100%, 75%, 50%...):自适应爬坡:模型从低 K 档位开始尝试。如果在当前档位的成功率达到了预设阈值(说明模型已掌握),则立即停止采样;反之,若成功率较低,则自动升级到下一档位,投入更饱和的算力进行攻坚。边界突破:这种机制确保了算力被集中投放到模型处于能力边界的困难任务上,而非在已熟练的任务上重复“造轮子”。步级去噪:模型生成的原始轨迹即使成功了,也往往包含大量噪声(如无效的鼠标滑动)。直接学习这些数据会污染模型。我们实施了精细化的清洗策略:冗余和错误步骤过滤:利用 Judge Model 分析成功轨迹,识别并掉对最终结果无贡献的冗余步骤,显著提升了数据的信噪比。Infeasible 任务特判:针对不可完成的任务,成功的轨迹往往伴随着大量的无效尝试后才终止。对于这类数据,我们仅保留最后一步(即正确输出 Terminate=Failure 及对应的推理),将中间所有的试错步骤全部剔除。通过 RFT,我们将大规模的合成经验内化为模型参数,显著提升了模型在常规路径的执行成功率。2.3.3 RL:强化学习RFT 夯实了模型在常规路径上的执行成功率,但面对长链路任务中的环境扰动(如弹窗、网络延迟、布局微变),模型依然脆弱。相比于成功轨迹中模型已有的知识,失败轨迹中蕴含着广阔的、非线性的树状结构信息,模型往往会在一些关键步骤出错,正是模型能力边界的直接体现。传统的 RL 算法通常以整条轨迹为粒度,存在严重的信用分配难题——几十步的操作中可能只有一步是错的,全盘否定会导致有效经验被浪费。为了解决这一问题,我们提出了一种面向 Computer Use 的高效 DPO 算法,将优化粒度从“轨迹级”下钻到“关键分岔点” , 重点解决模型在出错边缘的能力边界感知问题。关键分岔点挖掘:在长达数十步甚至上百步的 GUI 操作中,任务失败往往具有滞后性。模型可能在第 5 步做出了一个微小的错误决策(如选错了筛选条件),但直到第 30 步才因为找不到目标文件而报错。为了精准定位错误,EvoCUA 提出了一种基于参考导向的归因机制——关键分岔点挖掘。 我们利用同一 Query 下的“成功轨迹”与“失败轨迹”进行对齐分析。系统会自动定位到状态一致但动作开始偏离的那一帧,记为关键分岔点。双范式偏好对构建:一旦通过因果诊断锁定了关键错误,我们并未止步于简单的行为克隆,而是针对出错瞬间”和“出错之后”两个不同的时空切片 , 构造了两种截然不同的 DPO 偏好范式,从而在一次训练中同时兼顾了准确性与鲁棒性。范式一:动作修正,此范式聚焦于“即时纠错”,旨在教模型在关键分岔点(t 时刻)必须“走正道”。我们将导致后续失败的原始错误动作作为负样本;对于正样本,我们优先尝试通过 VLM 语义匹配,将成功参考轨迹中的“正确思考与动作”迁移过来。如果参考轨迹无法对齐,则调用 VLMs 模型基于当前视觉状态合成全新的正确动作。范式二:反思与恢复,此范式聚焦于“错误恢复”,旨在提升模型在错误发生后(t+1 时刻)的反思修正能力。在这一时刻,环境状态通常已经因为前一步的错误而发生了偏离(如出现了预料之外的弹窗)。我们把模型无视环境变化、机械执行原计划的“盲目继续”行为标记为负样本;同时,利用 Prompt 工程引导模型生成一条“反思链”作为正样本——即教导模型在发现状态异常时,优先选择停下来,观察屏幕异常并重新规划,而不是一条道走到黑。通过这两个范式的结合,模型不仅教会了 Agent 如何做对,更教会了它在做错或环境突变时如何反思修正。随着能力的不断提升,上述 RFT 和 DPO 可以进行多轮迭代训练。除了 DPO,我们在实践中还探索了 online RL,通过主动的环境交互,模型表现出了持续的奖励增长趋势,会在下一个版本的模型中更新。总而言之,我们通过“双重机制”将海量的合成经验高效内化为模型参数:一方面利用 RFT 来夯实基础的执行范式,确保模型在标准任务上的发挥稳定;另一方面利用 RL 在复杂的长尾场景中主动纠错,显著提升模型在能力边界上的鲁棒性与泛化力。03 实验评估为了验证 EvoCUA 范式的有效性,我们在权威在线榜单 OSWorld 上进行评测。实验的核心结论如下:EvoCUA-32B 以 56.7% 的成功率刷新了开源模型 SOTA,并在同等推理预算(max step = 50)下逼近了闭源模型 Claude-4.5-Sonnet (58.1%) 的水平;同时验证了该进化范式在不同规模模型上的普适性。3.1 OSWorld 评测开源 SOTA:我们的主力模型 EvoCUA-32B(基于 Qwen3-VL-32B-Thinking 后训练)达到了 56.7% 的成功率。这一成绩大幅领先此前的开源 SOTA(OpenCUA-72B, 45.0%)。值...