“英伟达也缺算力！”顶尖AI研究员转投xAI内幕：谁GPU管够，就去哪里

在 AI 行业，最硬的招聘福利，得加上“算力”了，而且连英伟达都无法置身事外。曾在 NVIDIA 参与 Cosmos 世界模型、后加入 xAI 并参与打造 Grok Imagine 的 Ethan He，在参加“Latent Space”的访谈中提到，自己离开 NVIDIA 的关键原因，是意识到视频模型同样存在类似语言模型的缩放规律。模型要继续变强，就必须持续扩大训练规模；而一旦进入这个阶段，算力就不再只是基础设施，而是研究本身的上限。看起来，在前沿视频模型面前，似乎即便是英伟达也会遇到算力不够自由的问题。于是，顶尖研究员的流动逻辑正在改变：谁能给更多 GPU、更快迭代、更少资源约束，谁就更有可能吸走前沿人才。Ethan 加入 xAI 时，公司的视频和多模态团队几乎从零开始：没有完整基础设施、没有现成数据、没有成熟模型。几名工程师用了三个月，搭出了第一版 Grok Imagine 0.9。也正是在这段经历中，他形成了一个更激进的判断：视频生成的下一次跃迁，可能不再只是更强的扩散模型，而是视频智能体。在他看来，视频生成正在走上一条类似 AI 编程的道路。AI 编程最早强调一次性生成代码，后来逐渐走向多轮推理、调试、测试、提交 PR 的智能体系统。视频生成也可能经历类似过程：从一次生成视频，走向能够规划整套创意任务、调用扩散模型和传统编辑工具，并交付生产级内容的视频智能体。他指出，视频模型的真实成本被严重低估。除了 GPU，数据标注、VAE 压缩、PB 级存储、云端带宽、音视频时间戳级对齐，都会成为隐性吞金兽。Ethan 还表示，当扩散模型技术逐渐成熟后，视频模型的很多关键进步，已经不再主要来自视频模型本身，而是来自语言模型。换句话说，视觉智能很大程度上正在由语言智能驱动。下面是对话详情，我们进行了翻译，并在不改变原意基础上进行了删减，以飨读者。从英伟达到 xAI，为了算力“叛逃”Swyx：给我们讲讲你转去 xAI 的过程吧，我其实都不知道你是什么时候加入的。Ethan：在加入 xAI 之前，我在英伟达做 Cosmos 世界模型。Cosmos 是一个大型视频基础模型，目标是模拟世界，并作为所有机器人研究者在其上继续构建的基础。做完 Cosmos One 后，我意识到这类模型也有类似语言模型的缩放规律（scaling law），我们需要继续把视频模型做大。所以我认为我需要去一个拥有更多算力资源的地方。这就是我后来转去 xAI 的原因。Swyx：比英伟达还要多？Vibhu： “GPU 富人”也出来找算力了。Cosmos 是什么时候？Ethan：那是 2024 年底，然后我在 2025 年中去了 xAI。我加入时，xAI 正准备做视频模型和多模态模型。当时没有基础设施、没有数据、也没有模型，就是我们几个工程师，三个月把它做出来，并发布了第一个模型：Grok Imagine 0.9。从那以后，我一直在做视频模型，然后逐渐从视频模型的训练转向后训练，比如参考生视频（Reference-to-Video），有点像 cameo 功能，还有视频延展。我离开那会儿，在做世界模型，带着一个小团队专注在实时长时程视频生成。Swyx：能不能给我们一个大致路线图？Grok 之前只是文本，图像生成方面可能是和 BFL （黑森林实验室）合作，那你们要做什么？Ethan：我觉得一方面要感谢我在英伟达的经验。因为我们第一次做 Cosmos 时，做了大概一年。这是我第二次做这类事情，大致知道要做什么。在我看来，最重要的是人才。每个人都很强、很聪明，而且彼此非常紧密地朝着共同目标努力，这会极大加快速度。人与人之间的沟通带宽减少，每个人都能朝同一个目标推进。当时，每天日历上没有太多会议，可能一天一次同步会，之后就是全力建设。那段时间挺有意思的。另一个原因是，xAI 在数据推理、模型推理和相关支持方面有非常强的基础，这些能够极大帮助模型开发。我看训练模型时，最重要的事情其实是：你每天能做多少次迭代？迭代越多，模型训练得越快。如果你有很强的基础设施，也有大量算力，就能在很短时间内训练这些模型。这会给错误留下更大的缓冲空间，也让你有机会发现更多 bug。Swyx：所以是在你加入之前，已经有人把这些东西搭好了，让你们可以很快迭代。Ethan：我觉得那里的基础非常适合开发和研究模型。我经常发现一件有点无聊的事情：很多提升并不是来自新算法，而是来自在数据管线和模型训练管线里发现各种小 bug。这些东西反而会给模型质量带来最大提升。Swyx：你有没有尝试用大模型来找 bug？Ethan：我记得那是 2025 年中期，编程模型还没那么强，到了 2025 年 12 月，它们已经非常好了。那时我已经在用，确实有帮助。有时候它能非常快地第一次搭出东西，但生成的代码很难维护，像“意大利面条代码”（spaghetti code）一样，几千行，我自己维护不了，大模型本身也搞不清哪里有问题以及该怎么在上面继续改进。但现在我发现它好很多了。我还想提出另一点：现在编程模型高效得多，可以帮助我们更快实现想法，但算力可能又会重新成为瓶颈。以前如果你想训练一个新模型，比如想生成新的合成数据或者写一个新算法，可能要花几周时间。在这段时间里，你可能没有实验能跑。但现在你可以在几个小时内把东西做出来，然后马上训练模型。那你就必须有足够的算力去尝试所有想法，所以算力可能会再次成为迭代速度的瓶颈。Swyx：我觉得这类工作挺有压力的，你会想：“我应该把所有东西都试一遍。如果我没试，那就是我工作做得不好。”Vibhu：还有另一种压力，就是你每小时消耗几千张 GPU，这非常贵，而且算力也会给其他研究员用。Swyx：你有马斯克这个“爸爸”可以获得支持。Ethan：当时确实挺有压力的。是的。我觉得一方面，现在有了编程模型，很多工作可以自动化，这要好很多。另一方面，这是一场马拉松，所以你必须保持健康和规律作息。视频模型的第一课：先学会“看图说话”Vibhu：最开始几个月是什么样子？小团队、很多 bug、很多迭代，但具体怎样做出一个当时最先进的图像生成模型？Ethan：我不能具体评论 xAI 是怎么做的，但这是一个相当标准的流程。我可以从 Cosmos 举一些例子。主要来说，要做视频模型，实际上你需要先做图像模型。做这两个模型时，你需要的数据，百分之百是语言与图像、或者语言与视频的合成配对。因为在互联网上，视频并不会天然和文本关联。你可以说，YouTube 上有标题、描述和评论，但通常它们和视频本身并不相关。比如一个视频可能是山景这样的自然场景，但标题是“我今天太开心了”，它们之间根本没有相关性。所以第一步是，你必须生成语言和视频之间的合成配对。你从互联网上收集视频，然后用视觉模型给视频加字幕。最开始是让人类尽可能详细地描述视频。比如要求他们描述所有物体、所有角色、所有交互，以及视频中的对话。这也是 Cosmos 标注协议里的要求。我们给标注员的目标是：必须尽可能详细地描述视频，让一个盲人听到这段文字后，可以在脑海里重构出视频大概是什么样子。Swyx：无监督有一个解锁点。当你已经有足够基础可以启动之后，就可以把 Common Corpus 或其他东西直接丢进去，也就是进行无监督的视觉与语言配对。你有交错出现的图像和文本，然后它自己学习。对我来说，这才是不同于 CLIP、也不同于语言模型时代的视觉语言模型突破。Ethan：有意思的是，你其实两种数据都需要。比如在生成模型训练里，通常也会有一小部分未标注数据。模型会被要求在没有任何文本指令的情况下生成视频，这也能帮助模型泛化。在完成生成合成配对这个阶段之后，一个非常重要的共同步骤是训练图像或视频的压缩器（compressor）或者分词器（tokenizer）。因为理论上你当然可以直接在纯像素上训练图像或视频模型，但问题是 token 太多了。比如一张 1000*1000 的图像，就是 100 万个 token，100 万个像素，不可能在这上面训练 Transformer。所以你需要训练一个分词器，它能把图像映射到潜空间（latent space），再从潜空间映射回图像。Swyx：那什么程度算不可能？一百万是不可能？Ethan：在生成模型里，词表是连续的，是一个连续空间。你可以把它理解为把一张图像映射成一个向量。它是一个固定长度向量，比如十六或者四十八之类，然后你再把这个向量映射回图像空间。这个映射是基于 patch 的，比如你有一个 16*16 的 patch，你把这一小块像素映射到潜空间里。Swyx：人们也会把这种 patching 和卷积做很多比较。你某种程度上是在用新范式重构旧范式。Ethan：其实在变分自编码器（VAEs）里，既有卷积网络，也有 Transformer。两种都可以做。有了 VAEs 之后，你就得到了潜空间 token，也得到了语言 token。接下来，diffusion transformer 的训练，也就是生成模型通常使用的架构，其实非常标准。它和训练语言 Transformer 模型非常相似，没有太大区别，只是输入是视觉 token、输出也是视觉 token。唯一不同的是这里有一个去噪过程。你训练模型去除一部分噪声，也就是向视觉 token 加入随机噪声，然后训练模型移除这些噪声，生成干净 token。在推理时，模型可以从百分之百噪声开始，迭代地移除噪声。Swyx：我觉得在这条线上，Stability 这些公司显然开创了很多架构，不知道你想不想深入讲？Ethan：当你训练好这样的图像模型后，它之所以成为视频模型的基础，是因为图像模型更便宜，而且语言和图像之间的连接紧密。比如，你用十亿张图像训练，就有文本到图像之间的映射，而如果要训练同样数量级，比如十亿段文本到十亿个视频，成本要高得多，因为视频天然比图像有更多 token。扩散模型对语言的理解，纯粹来自这种映射。如果你没有足够多的映射，比如你只训练了 1000 万个视频，训练中可能看不到足够多的语言 token，你的模型就不能充分理解人类意图。所以你真的需要先训练图像扩散模型，然后再从那里启动视频模型。Swyx：视频压缩里有很多技巧，比如逐帧之间差异并不大，所以实际上不需要重新生成或保存整个帧，对吧？像 MP4 压缩或者类似的，你们会想用这种方法吗？还是大家大致都是：“不，我们就生成每一帧。”Ethan：有几种不同的方法。先说如果你想直接使用 MP4 压缩结果，并把它作为 Transformer 训练时使用的 token，确实已经有人尝试过。但主要挑战在于，MP4 token 所对应的潜空间，对模型来说并不好理解，因此训练起来极其困难。所以人们才会引入 VAEs。VAEs 能够生成更加连续的潜空间，让模型更容易理解这个潜空间，并从中学习。不过，即便在 VAEs 内部，不同潜空间的训练难度也存在差异。你可以想象，最简单、最朴素的 VAE 做法是：给定一张图像，只是把图像中的所有像素直接打平成一个向量。这样一来，理论上你甚至不需要训练任何 VAE，对吧？但问题是，这样得到的潜空间对模型来说极难训练。因此，围绕如何压缩 token，本身就存在很多讨论。你刚才提到的，可以逐帧压缩，也可以压缩时间维度。两者的区别在于，如果压缩时间维度，就可以获得更高的压缩率。因为帧与帧之间存在时间冗余，这一帧和上一帧很可能大部分内容都相似，只存在一些小差异。比如我记得在某个 VAE 里，他们采用的是 8×8×4 的压缩率，也就是把四个时间 token 压缩成一个 token。这样可以大幅节省上下文长度。如果采用逐帧压缩，可能就是 8×8×1，这意味着上下文长度会变成前者的四倍。话虽如此，逐帧压缩也有自己的优势，那就是实时性和交互性。因为如果模型可以逐帧流式输出结果，就能够立刻响应用户的任何请求。但如果采用四倍的时间压缩，那么天然就会产生延迟。Swyx：有一些实时视频生成的前沿应用，比如最近走红的 Flipbook。Flipbook 是什么？Ethan： Flipbook 有点像一个网页浏览器。你可以看到，它上方保留了浏览器式的 UI。不同之处在于，里面所有 UI 都是由图像生成模型实时生成的，页面中的一切都是虚构的。但你可以在这个想象出来的世界里继续探索。Swyx：在一个推理完全免费的世界里，这会比生成代码和文本更好吗？Ethan：我觉得这是 Viva 或世界模型最终会走向的状态。想象一下，如果互联网不存在，然后你输入 google.com，模型应该给你显示什么？模型可以想象出一些东西，这就是模型想象出来的东西，而这些网页完全不存在。所以我认为，随着推理成本下降，我们会为一切都配上生成式 UI。你想想编程模型现在是怎么工作的：它们先为网页写代码，再渲染代码，代码可能被转换成二进制，最后由二进制把像素渲染到屏幕上。而在机器学习里，每一次突破，显然都会让交互变得更加直觉化。那么，为什么我们不能直接从用户指令走向像素呢？所谓生成式 UI，本质上就是从用户意图直接生成像素。比如邮箱，假设现在大家使用的是同一套界面，但我希望它稍微不一样：我想让邮件像 TikTok 一样展示给我，可以左右滑动浏览；也许别人会想要另一种完全不同的形态。再比如我在看 Instagram Stories 时，不喜欢 Like 按钮，因为我总是可能误点，而生成式 UI 就可以解决这个问题。所以，它会成为一次革命性的界面替代。未来，我们可能会有更强大的大语言模型和编程模型在后台运行，而前端真正负责把内容展示给你的，会是扩散模型；换句话说，扩散模型会成为前端。这就是我想象中的样子。Swyx：我觉得这非常贵，不过……Ethan：如果你考虑成本，假设 H100 每小时一美元，你每天用八小时、每个月三十天，那么每个月要付 240 美元。你其实不太愿意付这个钱。这甚至比 Claude Code Max 还贵。但如果你考虑算力成本每年下降两倍，我觉得这个未来很可能几年内就会到来。Swyx：网页设计师肯定会指出可访问性是一个问题，比如屏幕阅读器怎么办？但没错，这是一种比你用代码能生成的任何东西都高带宽的叙事方式。Ethan：我想补充一点：人类在看东西、看视频时，天然有最大的输入带宽，我们说话时也有最大的输出带宽。所以未来可能会变成：我们和 AI 模型说话，AI 模型用生成式 UI 回应我们。在 Neuralink 发生之前，这可能就是人与 AI 模型交互的最大输入和输出带宽。GPU 之外，视频模型还有一张更贵的账单Swyx：我们之前讲过一篇关于记忆注意力的论文。我一直觉得，任何能够跨时间维度保持某种一致性的东西都很迷人。计算机视觉侧渗透到视频生成侧，是不是还没有被充分探索？Ethan：也有一些完全不同的方法。你刚才提到了“世界模型”这个词，所以我们的讨论也可以从视频模型进一步延伸到世界模型。这里既有扩散模型这一路线，也有其他人正在探索的不同路线。不过我觉得，我们其实应该先回到刚才那一点：我们原本在聊从图像生成训练过渡到视频模型训练的步骤，其中有一件事还没有充分展开，就是训练数据差距。视频模型可能没有那么容易泛化，但更关键的问题是：训练一个大型视频模型的成本到底是什么？对于 LLM，我们大致知道该怎么估算。比如今天刚出来的 Poolside，它是一个 Gemma 级别的模型，用大约四十万亿 token 训练，在多少块 H200 上训练了多长时间，对吧？基于这些信息，你可以算出相对精确的成本，比如用了多少 GPU 小时，H200 的成本是多少。那么，对于视频模型和图像模型，我们该如何做这种后端计算？又该怎么拆解成本？我可以先分享一些粗略估算。令人意外的是，视频模型的训练成本其实和语言模型相当。当然，最大规模的模型仍然是语言模型；视频模型的成本可能更接近中等规模的语言模型。我会说，光是存储视频本身就已经非常昂贵。你可以去 AWS 或其他平台查一下相关价格。比如，如果你有十亿个视频，每个视频假设是 5MB，那么光是存储这些视频，就需要 5PB 的空间。而且别忘了，我们刚才说过，通常会用 VAE 来压缩视频；与此同时，你还需要把这些连续特征（continuous features）也存下来。它们占用的空间通常也和视频本身差不多。所以，光是存储这些视频和对应特征，就已经是几十 PB 级别的规模，存储成本可能就是 20 万美元。而比存储更贵的，是入口和出口流量，也就是通过互联网传输数据的成本。光是下载这些视频，我相信在 AWS 上的费用就可能比单纯存储这些视频还高。而且每次训练时，你可能都需要重新拉取一次数据；如果训练多次，成本还会继续增加。所以，仅存储和网络传输这两项成本，每个月就可能达到几百万美元，这还没有计算 GPU 成本。Swyx：我插一句，算力租赁，比如 GPU 租赁，其实效率非常高。像 xAI 建了自己的数据中心，那我们是不是也应该自己建设存储和计算？Ethan：当然。这是个好想法，但它也有挑战。比如建设 GPU 数据中心的人，可能不会预期会有这么大量的存储需求。而建设存储的人，通常只是把它建在某个只有 CPU 的地方。Swyx：我刚查了一下。AWS 只对出口流量收费，不对入口收费。5 PB 的第五档出口流量是 23 万美元。Ethan：甚至比存储还贵。所以总结一下，我这个粗略估算里，如果只算 GPU 小时乘以 GPU 成本，其实漏掉了不少存储成本。在 Cosmos 里，我们做了很多优化，尽量避免训练过程受到 I/O 限制。蒸馏获得推理收益，模态对齐是一大挑战Swyx：推理侧有很多针对扩散的工作，这些能有重叠应用吗？Ethan：推理侧完全是另一回事。我认为，训练侧的成本可能比较难降下来，而推理侧最大的收益，主要来自对这些模型进行蒸馏。这里可以做一种叫阶梯蒸馏（step distillation）的技术，它和 LLM 里的知识蒸馏略有不同。通常来说，对于流匹配模型，生成一张好图或一段好视频大约需要一百步；扩散模型甚至可能需要更多，比如一千步。阶梯蒸馏要做的，就是让模型学会用更少的步数完成生成。举个例子，我们先用完整模型通过一百步生成结果，然后再训练一个只需要十步生成的模型，让它去学习那个完整模型的输出。为什么这种方法能起作用？它有点像“强模型教弱模型”。从建模角度看，强模型也就是教师模型，试图建模的是互联网上图像和视频的整体分布，而这个分布极其复杂。但经过阶梯蒸馏的模型，只是在学习教师模型本身。教师模型是一个大小固定的模型，因此它的分布比整个互联网简单得多。这就是我对阶梯蒸馏为什么能够生效的直觉理解。通常，这些模型在生产环境中服务时，只会运行很少几步。在 Cosmos 里，我记得我们有四步和八步的版本。如果是一些更简单的任务，比如图像到图像翻译，甚至可以用更少的步数完成，比如 Cosmos Transfer 里的一步生成。Swyx： OpenAI 曾经发过一篇让我印象非常深刻的论文，它提出了一个统一一致性模型的宏大概念。不知道你对此有没有评价？Ethan：有几种不同方法，不过我们其实也不应该忘记 GAN。GAN 才是阶梯蒸馏的 OG，因为它从一开始训练的就是一步生成。所以，实际上很多方法都会把 GAN 用进来。比如分布匹配蒸馏就会使用 GAN 作为蒸馏损失之一。GAN ...

“英伟达也缺算力！”顶尖AI研究员转投xAI内幕：谁GPU管够，就去哪里

相关文章

上线5年的“散步游戏”突然翻红，月赚近500万美元，Move-to-Earn的造富神话又多了一个

Claude Code重塑内容工作流：从信息抓取到素材处理

OPC创业者必知的AI创业底层逻辑

Google Workspace CLI：专为人类和 AI 代理设计的统一命令行工具