在 AI 行业,最硬的招聘福利,得加上“算力”了,而且连英伟达都无法置身事外。曾在 NVIDIA 参与 Cosmos 世界模型、后加入 xAI 并参与打造 Grok Imagine 的 Ethan He,在参加“Latent Space”的访谈中提到,自己离开 NVIDIA 的关键原因,是意识到视频模型同样存在类似语言模型的缩放规律。模型要继续变强,就必须持续扩大训练规模;而一旦进入这个阶段,算力就不再只是基础设施,而是研究本身的上限。看起来,在前沿视频模型面前,似乎即便是英伟达也会遇到算力不够自由的问题。于是,顶尖研究员的流动逻辑正在改变:谁能给更多 GPU、更快迭代、更少资源约束,谁就更有可能吸走前沿人才。Ethan 加入 xAI 时,公司的视频和多模态团队几乎从零开始:没有完整基础设施、没有现成数据、没有成熟模型。几名工程师用了三个月,搭出了第一版 Grok Imagine 0.9。也正是在这段经历中,他形成了一个更激进的判断:视频生成的下一次跃迁,可能不再只是更强的扩散模型,而是视频智能体。在他看来,视频生成正在走上一条类似 AI 编程的道路。AI 编程最早强调一次性生成代码,后来逐渐走向多轮推理、调试、测试、提交 PR 的智能体系统。视频生成也可能经历类似过程:从一次生成视频,走向能够规划整套创意任务、调用扩散模型和传统编辑工具,并交付生产级内容的视频智能体。他指出,视频模型的真实成本被严重低估。除了 GPU,数据标注、VAE 压缩、PB 级存储、云端带宽、音视频时间戳级对齐,都会成为隐性吞金兽。Ethan 还表示,当扩散模型技术逐渐成熟后,视频模型的很多关键进步,已经不再主要来自视频模型本身,而是来自语言模型。换句话说,视觉智能很大程度上正在由语言智能驱动。下面是对话详情,我们进行了翻译,并在不改变原意基础上进行了删减,以飨读者。从英伟达到 xAI,为了算力“叛逃”Swyx: 给我们讲讲你转去 xAI 的过程吧,我其实都不知道你是什么时候加入的。Ethan: 在加入 xAI 之前,我在英伟达做 Cosmos 世界模型。Cosmos 是一个大型视频基础模型,目标是模拟世界,并作为所有机器人研究者在其上继续构建的基础。做完 Cosmos One 后,我意识到这类模型也有类似语言模型的缩放规律(scaling law),我们需要继续把视频模型做大。所以我认为我需要去一个拥有更多算力资源的地方。这就是我后来转去 xAI 的原因。Swyx: 比英伟达还要多?Vibhu: “GPU 富人”也出来找算力了。Cosmos 是什么时候?Ethan: 那是 2024 年底,然后我在 2025 年中去了 xAI。我加入时,xAI 正准备做视频模型和多模态模型。当时没有基础设施、没有数据、也没有模型,就是我们几个工程师,三个月把它做出来,并发布了第一个模型:Grok Imagine 0.9。从那以后,我一直在做视频模型,然后逐渐从视频模型的训练转向后训练,比如参考生视频(Reference-to-Video),有点像 cameo 功能,还有视频延展。我离开那会儿,在做世界模型,带着一个小团队专注在实时长时程视频生成。Swyx: 能不能给我们一个大致路线图?Grok 之前只是文本,图像生成方面可能是和 BFL (黑森林实验室)合作,那你们要做什么?Ethan: 我觉得一方面要感谢我在 英伟达 的经验。因为我们第一次做 Cosmos 时,做了大概一年。这是我第二次做这类事情,大致知道要做什么。在我看来,最重要的是人才。每个人都很强、很聪明,而且彼此非常紧密地朝着共同目标努力,这会极大加快速度。人与人之间的沟通带宽减少,每个人都能朝同一个目标推进。当时,每天日历上没有太多会议,可能一天一次同步会,之后就是全力建设。那段时间挺有意思的。另一个原因是,xAI 在数据推理、模型推理和相关支持方面有非常强的基础,这些能够极大帮助模型开发。我看训练模型时,最重要的事情其实是:你每天能做多少次迭代?迭代越多,模型训练得越快。如果你有很强的基础设施,也有大量算力,就能在很短时间内训练这些模型。这会给错误留下更大的缓冲空间,也让你有机会发现更多 bug。Swyx: 所以是在你加入之前,已经有人把这些东西搭好了,让你们可以很快迭代。Ethan: 我觉得那里的基础非常适合开发和研究模型。我经常发现一件有点无聊的事情:很多提升并不是来自新算法,而是来自在数据管线和模型训练管线里发现各种小 bug。这些东西反而会给模型质量带来最大提升。Swyx: 你有没有尝试用大模型来找 bug?Ethan: 我记得那是 2025 年中期,编程模型还没那么强,到了 2025 年 12 月,它们已经非常好了。那时我已经在用,确实有帮助。有时候它能非常快地第一次搭出东西,但生成的代码很难维护,像“意大利面条代码”(spaghetti code)一样,几千行,我自己维护不了,大模型本身也搞不清哪里有问题以及该怎么在上面继续改进。但现在我发现它好很多了。我还想提出另一点:现在编程模型高效得多,可以帮助我们更快实现想法,但算力可能又会重新成为瓶颈。以前如果你想训练一个新模型,比如想生成新的合成数据或者写一个新算法,可能要花几周时间。在这段时间里,你可能没有实验能跑。但现在你可以在几个小时内把东西做出来,然后马上训练模型。那你就必须有足够的算力去尝试所有想法,所以算力可能会再次成为迭代速度的瓶颈。Swyx:我觉得这类工作挺有压力的,你会想:“我应该把所有东西都试一遍。如果我没试,那就是我工作做得不好。”Vibhu: 还有另一种压力,就是你每小时消耗几千张 GPU,这非常贵,而且算力也会给其他研究员用。Swyx: 你有马斯克这个“爸爸”可以获得支持。Ethan: 当时确实挺有压力的。是的。我觉得一方面,现在有了编程模型,很多工作可以自动化,这要好很多。另一方面,这是一场马拉松,所以你必须保持健康和规律作息。视频模型的第一课:先学会“看图说话”Vibhu: 最开始几个月是什么样子?小团队、很多 bug、很多迭代,但具体怎样做出一个当时最先进的图像生成模型?Ethan: 我不能具体评论 xAI 是怎么做的,但这是一个相当标准的流程。我可以从 Cosmos 举一些例子。主要来说,要做视频模型,实际上你需要先做图像模型。做这两个模型时,你需要的数据,百分之百是语言与图像、或者语言与视频的合成配对。因为在互联网上,视频并不会天然和文本关联。你可以说,YouTube 上有标题、描述和评论,但通常它们和视频本身并不相关。比如一个视频可能是山景这样的自然场景,但标题是“我今天太开心了”,它们之间根本没有相关性。所以第一步是,你必须生成语言和视频之间的合成配对。你从互联网上收集视频,然后用视觉模型给视频加字幕。最开始是让人类尽可能详细地描述视频。比如要求他们描述所有物体、所有角色、所有交互,以及视频中的对话。这也是 Cosmos 标注协议里的要求。我们给标注员的目标是:必须尽可能详细地描述视频,让一个盲人听到这段文字后,可以在脑海里重构出视频大概是什么样子。Swyx: 无监督有一个解锁点。当你已经有足够基础可以启动之后,就可以把 Common Corpus 或其他东西直接丢进去,也就是进行无监督的视觉与语言配对。你有交错出现的图像和文本,然后它自己学习。对我来说,这才是不同于 CLIP、也不同于语言模型时代的视觉语言模型突破。Ethan: 有意思的是,你其实两种数据都需要。比如在生成模型训练里,通常也会有一小部分未标注数据。模型会被要求在没有任何文本指令的情况下生成视频,这也能帮助模型泛化。在完成生成合成配对这个阶段之后,一个非常重要的共同步骤是训练图像或视频的压缩器(compressor)或者分词器(tokenizer)。因为理论上你当然可以直接在纯像素上训练图像或视频模型,但问题是 token 太多了。比如一张 1000*1000 的图像,就是 100 万个 token,100 万个像素,不可能在这上面训练 Transformer。所以你需要训练一个分词器,它能把图像映射到潜空间(latent space),再从潜空间映射回图像。Swyx: 那什么程度算不可能?一百万是不可能?Ethan: 在生成模型里,词表是连续的,是一个连续空间。你可以把它理解为把一张图像映射成一个向量。它是一个固定长度向量,比如十六或者四十八之类,然后你再把这个向量映射回图像空间。这个映射是基于 patch 的,比如你有一个 16*16 的 patch,你把这一小块像素映射到潜空间里。Swyx: 人们也会把这种 patching 和卷积做很多比较。你某种程度上是在用新范式重构旧范式。Ethan: 其实在变分自编码器(VAEs)里,既有卷积网络,也有 Transformer。两种都可以做。 有了 VAEs 之后,你就得到了潜空间 token,也得到了语言 token。接下来,diffusion transformer 的训练,也就是生成模型通常使用的架构,其实非常标准。它和训练语言 Transformer 模型非常相似,没有太大区别,只是输入是视觉 token、输出也是视觉 token。唯一不同的是这里有一个去噪过程。你训练模型去除一部分噪声,也就是向视觉 token 加入随机噪声,然后训练模型移除这些噪声,生成干净 token。在推理时,模型可以从百分之百噪声开始,迭代地移除噪声。Swyx: 我觉得在这条线上,Stability 这些公司显然开创了很多架构,不知道你想不想深入讲?Ethan: 当你训练好这样的图像模型后,它之所以成为视频模型的基础,是因为图像模型更便宜,而且语言和图像之间的连接紧密。比如,你用十亿张图像训练,就有文本到图像之间的映射,而如果要训练同样数量级,比如十亿段文本到十亿个视频,成本要高得多,因为视频天然比图像有更多 token。扩散模型对语言的理解,纯粹来自这种映射。如果你没有足够多的映射,比如你只训练了 1000 万个视频,训练中可能看不到足够多的语言 token,你的模型就不能充分理解人类意图。所以你真的需要先训练图像扩散模型,然后再从那里启动视频模型。Swyx: 视频压缩里有很多技巧,比如逐帧之间差异并不大,所以实际上不需要重新生成或保存整个帧,对吧?像 MP4 压缩或者类似的,你们会想用这种方法吗?还是大家大致都是:“不,我们就生成每一帧。”Ethan: 有几种不同的方法。先说如果你想直接使用 MP4 压缩结果,并把它作为 Transformer 训练时使用的 token,确实已经有人尝试过。但主要挑战在于,MP4 token 所对应的潜空间,对模型来说并不好理解,因此训练起来极其困难。所以人们才会引入 VAEs。VAEs 能够生成更加连续的潜空间,让模型更容易理解这个潜空间,并从中学习。不过,即便在 VAEs 内部,不同潜空间的训练难度也存在差异。你可以想象,最简单、最朴素的 VAE 做法是:给定一张图像,只是把图像中的所有像素直接打平成一个向量。这样一来,理论上你甚至不需要训练任何 VAE,对吧?但问题是,这样得到的潜空间对模型来说极难训练。因此,围绕如何压缩 token,本身就存在很多讨论。你刚才提到的,可以逐帧压缩,也可以压缩时间维度。两者的区别在于,如果压缩时间维度,就可以获得更高的压缩率。因为帧与帧之间存在时间冗余,这一帧和上一帧很可能大部分内容都相似,只存在一些小差异。比如我记得在某个 VAE 里,他们采用的是 8×8×4 的压缩率,也就是把四个时间 token 压缩成一个 token。这样可以大幅节省上下文长度。如果采用逐帧压缩,可能就是 8×8×1,这意味着上下文长度会变成前者的四倍。话虽如此,逐帧压缩也有自己的优势,那就是实时性和交互性。因为如果模型可以逐帧流式输出结果,就能够立刻响应用户的任何请求。但如果采用四倍的时间压缩,那么天然就会产生延迟。Swyx: 有一些实时视频生成的前沿应用,比如最近走红的 Flipbook。Flipbook 是什么?Ethan: Flipbook 有点像一个网页浏览器。你可以看到,它上方保留了浏览器式的 UI。不同之处在于,里面所有 UI 都是由图像生成模型实时生成的,页面中的一切都是虚构的。但你可以在这个想象出来的世界里继续探索。Swyx: 在一个推理完全免费的世界里,这会比生成代码和文本更好吗?Ethan: 我觉得这是 Viva 或世界模型最终会走向的状态。想象一下,如果互联网不存在,然后你输入 google.com,模型应该给你显示什么?模型可以想象出一些东西,这就是模型想象出来的东西,而这些网页完全不存在。所以我认为,随着推理成本下降,我们会为一切都配上生成式 UI。你想想编程模型现在是怎么工作的:它们先为网页写代码,再渲染代码,代码可能被转换成二进制,最后由二进制把像素渲染到屏幕上。而在机器学习里,每一次突破,显然都会让交互变得更加直觉化。那么,为什么我们不能直接从用户指令走向像素呢?所谓生成式 UI,本质上就是从用户意图直接生成像素。比如邮箱,假设现在大家使用的是同一套界面,但我希望它稍微不一样:我想让邮件像 TikTok 一样展示给我,可以左右滑动浏览;也许别人会想要另一种完全不同的形态。再比如我在看 Instagram Stories 时,不喜欢 Like 按钮,因为我总是可能误点,而生成式 UI 就可以解决这个问题。所以,它会成为一次革命性的界面替代。未来,我们可能会有更强大的大语言模型和编程模型在后台运行,而前端真正负责把内容展示给你的,会是扩散模型;换句话说,扩散模型会成为前端。这就是我想象中的样子。Swyx: 我觉得这非常贵,不过……Ethan: 如果你考虑成本,假设 H100 每小时一美元,你每天用八小时、每个月三十天,那么每个月要付 240 美元。你其实不太愿意付这个钱。这甚至比 Claude Code Max 还贵。但如果你考虑算力成本每年下降两倍,我觉得这个未来很可能几年内就会到来。Swyx: 网页设计师肯定会指出可访问性是一个问题,比如屏幕阅读器怎么办?但没错,这是一种比你用代码能生成的任何东西都高带宽的叙事方式。Ethan: 我想补充一点:人类在看东西、看视频时,天然有最大的输入带宽,我们说话时也有最大的输出带宽。所以未来可能会变成:我们和 AI 模型说话,AI 模型用生成式 UI 回应我们。在 Neuralink 发生之前,这可能就是人与 AI 模型交互的最大输入和输出带宽。GPU 之外,视频模型还有一张更贵的账单Swyx: 我们之前讲过一篇关于记忆注意力的论文。我一直觉得,任何能够跨时间维度保持某种一致性的东西都很迷人。计算机视觉侧渗透到视频生成侧,是不是还没有被充分探索?Ethan: 也有一些完全不同的方法。你刚才提到了“世界模型”这个词,所以我们的讨论也可以从视频模型进一步延伸到世界模型。这里既有扩散模型这一路线,也有其他人正在探索的不同路线。不过我觉得,我们其实应该先回到刚才那一点:我们原本在聊从图像生成训练过渡到视频模型训练的步骤,其中有一件事还没有充分展开,就是训练数据差距。视频模型可能没有那么容易泛化,但更关键的问题是:训练一个大型视频模型的成本到底是什么?对于 LLM,我们大致知道该怎么估算。比如今天刚出来的 Poolside,它是一个 Gemma 级别的模型,用大约四十万亿 token 训练,在多少块 H200 上训练了多长时间,对吧?基于这些信息,你可以算出相对精确的成本,比如用了多少 GPU 小时,H200 的成本是多少。那么,对于视频模型和图像模型,我们该如何做这种后端计算?又该怎么拆解成本?我可以先分享一些粗略估算。令人意外的是,视频模型的训练成本其实和语言模型相当。当然,最大规模的模型仍然是语言模型;视频模型的成本可能更接近中等规模的语言模型。我会说,光是存储视频本身就已经非常昂贵。你可以去 AWS 或其他平台查一下相关价格。比如,如果你有十亿个视频,每个视频假设是 5MB,那么光是存储这些视频,就需要 5PB 的空间。而且别忘了,我们刚才说过,通常会用 VAE 来压缩视频;与此同时,你还需要把这些连续特征(continuous features)也存下来。它们占用的空间通常也和视频本身差不多。所以,光是存储这些视频和对应特征,就已经是几十 PB 级别的规模,存储成本可能就是 20 万美元。而比存储更贵的,是入口和出口流量,也就是通过互联网传输数据的成本。光是下载这些视频,我相信在 AWS 上的费用就可能比单纯存储这些视频还高。而且每次训练时,你可能都需要重新拉取一次数据;如果训练多次,成本还会继续增加。所以,仅存储和网络传输这两项成本,每个月就可能达到几百万美元,这还没有计算 GPU 成本。Swyx: 我插一句,算力租赁,比如 GPU 租赁,其实效率非常高。像 xAI 建了自己的数据中心,那我们是不是也应该自己建设存储和计算?Ethan: 当然。这是个好想法,但它也有挑战。比如建设 GPU 数据中心的人,可能不会预期会有这么大量的存储需求。而建设存储的人,通常只是把它建在某个只有 CPU 的地方。Swyx: 我刚查了一下。AWS 只对出口流量收费,不对入口收费。5 PB 的第五档出口流量是 23 万美元。Ethan: 甚至比存储还贵。所以总结一下,我这个粗略估算里,如果只算 GPU 小时乘以 GPU 成本,其实漏掉了不少存储成本。在 Cosmos 里,我们做了很多优化,尽量避免训练过程受到 I/O 限制。蒸馏获得推理收益,模态对齐是一大挑战Swyx: 推理侧有很多针对扩散的工作,这些能有重叠应用吗?Ethan: 推理侧完全是另一回事。我认为,训练侧的成本可能比较难降下来,而推理侧最大的收益,主要来自对这些模型进行蒸馏。这里可以做一种叫阶梯蒸馏(step distillation)的技术,它和 LLM 里的知识蒸馏略有不同。通常来说,对于流匹配模型,生成一张好图或一段好视频大约需要一百步;扩散模型甚至可能需要更多,比如一千步。阶梯蒸馏要做的,就是让模型学会用更少的步数完成生成。举个例子,我们先用完整模型通过一百步生成结果,然后再训练一个只需要十步生成的模型,让它去学习那个完整模型的输出。为什么这种方法能起作用?它有点像“强模型教弱模型”。从建模角度看,强模型也就是教师模型,试图建模的是互联网上图像和视频的整体分布,而这个分布极其复杂。但经过阶梯蒸馏的模型,只是在学习教师模型本身。教师模型是一个大小固定的模型,因此它的分布比整个互联网简单得多。这就是我对阶梯蒸馏为什么能够生效的直觉理解。通常,这些模型在生产环境中服务时,只会运行很少几步。在 Cosmos 里,我记得我们有四步和八步的版本。如果是一些更简单的任务,比如图像到图像翻译,甚至可以用更少的步数完成,比如 Cosmos Transfer 里的一步生成。Swyx: OpenAI 曾经发过一篇让我印象非常深刻的论文,它提出了一个统一一致性模型的宏大概念。不知道你对此有没有评价?Ethan: 有几种不同方法,不过我们其实也不应该忘记 GAN。GAN 才是阶梯蒸馏的 OG,因为它从一开始训练的就是一步生成。所以,实际上很多方法都会把 GAN 用进来。比如分布匹配蒸馏就会使用 GAN 作为蒸馏损失之一。GAN ...