红杉资本专访Decart AI CEO：无需游戏引擎，3分钟即可体验AI生成原生游戏

来源：好游戏攻略时间：2024-11-22 05:31

（关注公众号并设为标，获取最新人工智能资讯和产品）

Thumbplayer Poster Plugin Image

浏览器不支持该音视频

你可以刷新试试

70011103.1-acf2a4a888e4cdbe83013ceb2b2668f2

播放流水

Flowid

668373bd75acf4bda8d54629ed7ea37d

播放内核

Kernel

mp4/origin (1.33.5)

mystery

r:4/2 br:0.000-0.000 t:0.00 pg:1 s:ed->ie->lt->ed->ie

想象一下，你正站在一面神奇的镜子前。这不是普通的镜子，而是一个能与你对话的智能镜面。"我想要一把剑，"你说。镜中的你立刻手持一把闪亮的利剑。当你挥动手臂，剑也随之舞动。"让它变得更大些，再染成蓝色，"剑立即按照你的想象改变。"带我进入《权力的游戏》的世界，"你说。瞬间，周围的环境转换成维斯特洛大陆的奇幻场景，你的头上还多了一顶皇冠。

这不是科幻电影中的场景，而是AI技术带来的现实突破。Decart AI最近就展示了这样令人惊叹的技术Demo，通过访问Oasis AI官网，任何人都能亲身体验这段三分钟的互动奇迹。正如Decart AI联合创始人兼CEO Dean Leitersdorf在接受红杉资本采访时所说，这项技术突破了传统计算的界限，让AI生成的消费者体验从可玩的视频游戏到沉浸式世界都成为可能。

这项突破的意义远不止于技术创新。它打破了人类想象力与现实之间的屏障，让我们能够将脑海中的画面实时呈现在眼前。更重要的是，它跨越了一个根本性的沟通障碍：让计算机能够像人类一样"看"世界，并以我们能理解的方式与我们互动。这不仅开创了一个全新的交互范式，更为未来无限可能的应用奠定了基础，从新一代社交媒体到专业模拟训练，一切都将被重新定义。

文稿整理

主持人： 欢迎你 Dean,我们直接开始什么是Oasis ？你们为什么发布Oasis 这款产品。

1、交互式AI游戏

嘉宾Dean Leitersdorf： 我们在几周前发布了Oasis，真正让人惊叹的是从技术角度来看，这是首个可以实时运行的AI视频模型，并且能够响应用户的操作进行互动。你可以在这个世界里四处移动、破坏方块、放置方块，这样我们获得了一个没有传统游戏引擎的游戏体验。然而，这还不够有趣。为什么说这真正有趣？为了回答这个问题，先别去想Oasis 1，而是想象一下Oasis 3。试想一下，放下技术层面的东西，想象你正面对一面镜子。这面神奇的镜子可以和你对话。你可以告诉它做一些酷炫的事情，比如说“我在这里，这是我的手，我想拿一把剑。”然后你在镜子里看到自己，手中突然多了一把剑。你移动手，剑也跟着移动。你可以说，“让这把剑变大一点，或者把它变成蓝色”，镜子会立即响应。接着，你可以说，“把我带入《权力的游戏》的世界”，周围的环境就会转变成《权力的游戏》的场景，甚至你头上会出现皇冠。如果你不喜欢皇冠的样子，你可以调整它。然后，你跳动、移动，镜子会实时响应。这才是真正有趣的地方。

这之所以有趣，是因为它带来了我们从未有过的全新体验。它让我们可以通过屏幕将想象力展现在眼前，把我们心中的画面与眼前所见连接起来。这正是我们追求的目标：如何通过生成式AI将我们的想象与屏幕上的视觉内容相连接。有了它，我们可以探索前所未有的世界，从无法实现的应用到全新的互动方式，一切都将被改变。

主持人： 我非常喜欢这个“镜子”的比喻，让我们更深入探讨一下。你们打算把这个技术应用到哪些领域？这是一个社交媒体项目？还是一个游戏？亦或是一个互动的世界模型？我该如何理解Oasis和Decart的定位？

Dean Leitersdorf： 那么我来问你一个问题：ChatGPT解决了什么问题？

主持人： 当然是帮助完成日常作业。

Dean Leitersdorf： 对，没错，但不仅仅如此。它还使人与计算机的沟通变得更加轻松。正如你所提到的，ChatGPT并不是解决某个具体问题，而是跨越了一种基本的沟通障碍。计算机使用结构化语言，而人类使用复杂且有一定结构的语言。大型语言模型（LLMs）正是通过弥合这种差距，让计算机和机器能够用我们都理解的语言进行互动。一旦克服了这种障碍，便会衍生出许多不同的应用。因此，通过镜子，或者通过生成式的互动视频，我们不仅解决了文字层面的沟通障碍，还跨越了视觉层面的障碍。现在，计算机能够像我们一样“看”世界，并以我们能理解的方式向我们展示它。实现这一点，就构建了一个让人们可以在其上开发各种应用的平台，从下一代的Snapchat或TikTok到战斗机飞行员模拟器，都可以在上面实现。

主持人： 哇，这真是太酷了！

Dean Leitersdorf： 是的，现在是2024年。在Decart AI创立公司的过程中，我们意识到有一个机会去构建一些不是为了解决具体问题，而是为了跨越某种限制的东西。99%的公司都是为了解决某个问题而成立的，他们会向风投展示“这是我们要解决的问题，市场有多大，我们如何解决”。通常，这些公司在商业模式上可能会发生改变，但问题本身不会改变，否则就被称作“转型”了。而我们，有机会去构建一些不只是解决问题，而是跨越障碍的产品。这不仅仅是解决一个问题，而是克服一种限制。让我换一种方式问你，Mac 是一个消费产品还是企业产品？它是硬件公司还是软件公司？它解决了什么问题？如果你试图列出个人电脑所解决的问题，那么它涉及从游戏到 Excel 等各种用途。这就是它的有趣之处，你正在构建一项惊人的技术，并能以多种方式实现产品化。

主持人： 我很喜欢这一点。你们构建的一个令人惊叹的特点是，没有使用传统的游戏引擎。你认为这意味着什么？你认为游戏引擎是过时的东西吗？

Dean Leitersdorf： 游戏引擎的初衷是让一位玩家能够创建一个世界，而另一位玩家可以在这个世界中互动，对吧？这是游戏引擎的目的。你有游戏开发者和使用者，这种模式同样适用于电影制作等领域。最近，Unreal 引擎被大量用于电影制作。这是一个非常有价值的产品，它有很多优势，世界的呈现非常一致，可以做到很高的精确度。问题在于与之互动需要花费很多时间。人们喜欢对基础游戏进行修改，使其变得多样化。我们进入这个领域后，真正看到人们会如何使用它。你知道吗？有人实际做了一个 mod，可以把《精灵宝可梦》加入《我的世界》里。你可以在森林中行走，看到跑来跑去的精灵宝可梦，这是一个真实存在的 mod。

所以人们本能地会想，“我们有这个平台，我们想改变它。”这就是 mod 的美妙之处。而这里的不同在于，运行你游戏或环境的是一个 AI，你可以像对 AI 那样与它互动。你可以说，“把这个变成艾尔莎主题吧。”然后，整个环境变成了艾尔莎主题。你可以加入一个会飞的大象，这不仅是一个图像，你可以与它互动，比如你打一下大象，它会还击等等。我认为如果这种趋势取代了游戏引擎，那么它就得达到一种状态，让一个人可以在上面构建世界，而另一个人可以与之互动。这种状态肯定会到来，而且编程会变得更加简单，你只需要用语言表达，而不需要编写代码。即使你会编写代码，你也可以更快速地进行迭代。总结一下，这将让我们实现更快、更高效的 modding，以及互动 modding。

2、产品技术细节

主持人： 进入一点技术细节吧，你们是我见过的第一个实现实时推理的视频模型。实现实时推理有多难？这个过程中涉及哪些技术细节？

Dean Leitersdorf： 回到几个月前的夏天，我记不清具体发布在哪里了，但当时有一些头条新闻称，等黑白芯片问世时，视频才可以实现实时。Hopper 芯片（NVIDIA H100）无法实现这一点，必须等待下一代 NVIDIA 芯片。那段时间有大约两周，很多人都在这么说。但事实是，H100 芯片完全可以做到。为了实现这一点，需要同时做两件事。首先是对模型进行改变，不是所有视频模型都能实时运行，需要对模型进行不同的训练，架构也需要做出调整。虽然不是大的架构改变，但确实需要做一些调整。另一方面，系统层面的工作也必须完成。我们重新编写了 CUDA 核心代码，甚至放弃了 PyTorch 自带的垃圾回收系统，自己从头实现了一部分。如果只做其中一部分，那你就会等着别人完成另一半。如果你只做系统层面的工作，那么你不会有一个可以进行互动的模型。如果只做模型相关的工作，系统层面则没有足够的支持来实现实时运行。

主持人： 能简单说一下模型的工作原理吗？它是基于 Transformer 的模型吗？或者类似于 Sora 那种模型？

Dean Leitersdorf： 简而言之，它和 Sora 类似，只不过这里的“提示词”是用户的动作而不是文字。可以这样理解：在文本到视频模型中，你输入一句话，它生成一个视频。这里也类似，只不过输入的提示词是你的键盘操作和之前的帧，它会生成下一帧。

主持人： 那你们是如何获取动作与视频之间的数据的？

Dean Leitersdorf： 是的，在这里确实需要进行一些预处理步骤，这是普通视频模型中没有的。比如说，我们需要将游戏的录制内容逐帧标注出所执行的动作。我们训练了一个小模型来完成这项工作，它其实不需要太多数据，少量的示例就足够了。我们团队可以简单地玩一会儿，录制下来，然后用这个小模型标注所有数据。

主持人： 真的很有趣！你们是在构建一个世界模型吗？还是纯粹基于像素的模型？

Dean Leitersdorf： 很好，我们构建的是纯粹基于像素的模型。让我们来比较一下世界模型或者3D模型的方式。AI领域有一个十多年的问题，那就是：是否应该从头到尾完成任务，还是在现有工作流的基础上优化？比如说，我们可以选择现有的游戏引擎，比如Unity和Unreal，将文本转换成3D模型，比如我描述一只大象，然后生成一个3D网格，再将其嵌入到Unity或Unreal这样的游戏引擎中。相比之下，另一种方式是端到端的解决方案，最终的结果是屏幕上的显示内容与用户的操作相对应。这两个方向各有优势。第一种方式在一致性上更强，可以确保对象外观稳定不变。而端到端的像素模型则更灵活，可以实时编辑，比如你可以说“把大象的尾巴变小一点”，可以实时看到变化，动态性更强。我认为未来这两种方式会趋于融合。

主持人： 所以你的意思是，你们可能会同时构建这两个模型？

Dean Leitersdorf： 是的，我们确实有这个打算，虽然还需要一些时间来实现。

3、AI垂直整合能力

主持人： 有一件事让我对你们的团队印象深刻，就是他们的全面垂直整合。他们理解从电子层面到最终呈现在屏幕上的每个细节，从底层硬件到CUDA核心代码都进行了优化。这种方式可能让他们在应用层面上始终保持10倍以上的优势。你们为什么选择完全垂直整合，而不是专注于用户体验和病毒式传播？

Dean Leitersdorf： 对于我来说，Google是有史以来最令人惊叹的公司之一。我曾在Google工作过几年，Google的优势并不仅仅是他们的PageRank算法，而在于他们对分布式系统和底层系统优化的深入理解。他们意识到可以使用便宜的消费级硬件，虽然故障率高，但总体成本大幅降低，因此可以实现10倍的成本优化。Google的强大之处在于它的后端，而这种后端优势来自于他们对硬件的深度优化。我们团队在很多方面让类似Google。我们拥有全方位的底层优化能力，

主持人： 我想说要实现那种“镜子体验”的愉悦感，前端可以很简单，但后端必须做到极致的优化，深入到硬件层面。这是个全或无的事情——如果不能实现实时效果，那就没什么用。而且我认为，如果不做到硬件级别的优化，明年之内是不可能实现实时的。所以在我看来，你们必须这么做，而你们也是我见过唯一能做到这一点的团队。

Dean Leitersdorf： 这里有两个点让我特别关注：一个是关于垂直整合，稍后我们会详细谈到。另一个要回到你的第一个问题。我最近跟Google的一位高管聊过这个问题。当Google成立时，我才三个月大，所以我其实并没有亲身经历过那时的细节，但我很想了解那时发生了什么。我们谈到了GPU集群的可靠性问题。如今，如果你在任何集群上训练一个模型，无论是大规模的计算服务商还是GPU云服务，训练过程都会因为各种奇怪的原因而崩溃。比如，某个节点会因为两个节点之间的电缆上有灰尘而崩溃，系统并不会给出明确的错误提示。结果就是整个训练任务崩溃了，你只能不断重启系统，尝试找到问题。

目前几乎所有公司都会遇到这些问题，可能只有Google和OpenAI不会，因为他们已经深入到硬件层面来解决这些问题。我们在Decart则是选择去面对这些挑战。Oasis模型的训练从开始到收敛只需要20小时。其他实验室可能需要两周时间才能完成类似的模型训练，这不仅是因为他们没有优化系统层，还因为他们的训练任务会不断崩溃。而我们可以保持训练任务稳定运行，不会崩溃，即便是长达一到两周的训练。

主持人： 听起来你们在训练过程中有很多细节要处理，能分享一些吗？

Dean Leitersdorf： 当然，我们有一个内部文档，大概有200页，记录了训练模型时可能会出现的各种问题。有一次，我们在进行Oasis的训练时，需要生成一些合成数据。我们注意到集群中有大量CPU资源利用率很低，就决定在同一个集群上生成合成数据。我们不仅充分利用了GPU，还充分利用了CPU，甚至使用了InfiniBand在节点间传输数据。这让GPU云提供商感到惊讶，因为我们几乎把集群的性能发挥到了200%。一开始我们以为这样做不会影响训练，但结果训练任务出现了“数据加载器中缺少锁文件”的错误。这个错误的原因其实是合成数据生成使用了更多的网络带宽，导致Python的数据加载器将一个网络映射的锁文件转移到磁盘上。最终，不同节点拥有了不同的锁文件，导致数据加载器崩溃。这就是我们的日常挑战之一，而这样的情况在我们的文档中比比皆是。

主持人： 这还是一个相对简单的例子。在更复杂的情况下，他们也要找到解决办法。比如说，他们曾经获得了一个新的集群，但集群没有安装内存，大多数人可能根本没法使用这样的GPU。

Dean Leitersdorf： 这是个有趣的故事。我们把这个称为“地球上最好的视频模型训练场所”。训练视频模型不仅仅是集群的问题，还包括周边的一切资源。需要存储、网络支持等许多配套设施，才能打造最佳的训练环境。我们其实还差得很远，预计在接下来的半年内会有所改进，很多GPU云服务商也在努力改进这些服务。我们接触到的某些集群甚至没有配备存储设备。因为这些云服务商急于推出H100 GPU，所以存储等资源被忽略了。虽然他们计划后续安装，但我们必须寻找替代方案。于是，我们想出了一个办法：每个节点上都有一些连接的SSD，我们能否在此基础上构建一个小型的分布式文件系统？我们最终实现了这一点，虽然遇到很多困难，但它确实奏效了。

垂直整合通常有两个好处：成本降低和加速迭代速度。也许还有第三个好处，但在AI领域，加速比成本更重要。你可以提前一年甚至两年上市，而这就是关键。正如Google和OpenAI那样，迅速占据技术领先地位，再转化成优势。这才是游戏的核心。如果我们选择等待两年再行动，可能会错过机会，因为其他人已经走在前面了。这就是我们选择完全垂直整合的原因。

4、建立长期护城河

主持人： 我喜欢这个。那你们的“护城河”是什么？短期还是长期？

Dean Leitersdorf： 两者都有。短期内是技术护城河。我们在系统层面和模型层面都做了整合，这构成了短期内的优势。而长期护城河则是一个更有趣的问题。现在有一种新兴的网络效应，源于人们在TikTok上的讨论。我们学到很多的Character AI就是一个例子。一旦他们获得了市场关注，立刻出现了许多竞争者，但他们的“TikTok护城河”非常显著。在TikTok上搜索任何竞争者，都会发现大量关于Character AI的讨论。许多用户甚至不知道有其他竞争者。这实际上是一种新的品牌效应。与传统品牌不同，这种效应直接呈现在用户眼前，尤其是年轻一代，他们总是在TikTok上看到这些内容。这可能让公司在建立长期护城河前，利用这种短期效应获得优势。

主持人： 不过硬件仍然是最强的护城河。正如Google通过硬件优势从软件护城河扩展到更大的护城河，我认为这是一个很好的例子。虽然Google在应用层面没有太多突破性产品，但在硬件层面的成本优势却极为明显。

Dean Leitersdorf： 其实这是个很好的故事。当时我们把我们训练视频模型的地方称为“地球上最好的训练场所”。训练视频模型不仅需要集群，还需要周围的一切资源——存储、网络等等。要建立最好的训练环境，这需要很多投入。我们离这个目标还很远，预计未来半年内GPU云服务商会有很多改进。我们接触的某些集群甚至没有配备存储设备。有时服务商急于推出H100 GPU而忽略了存储等资源。我们发现每个节点都有一些SSD，于是决定在此基础上构建一个小型的分布式文件系统。最终我们克服了很多困难，成功实现了这一点。

主持人： 这确实让人想起垂直整合的好处。垂直整合通常带来成本节约和加快产品开发的速度，特别是在AI领域。加速产品上市比成本更重要。你可以提前一年甚至两年推出产品，这就能建立先发优势。我们如果等两年后再行动，可能已经晚了。这也是我们选择垂直整合的原因。

Dean Leitersdorf： 是的，正如你所说。在硬件层面，Google做的一个项目让我大开眼界，改变了我对投资的看法。Google在数据中心中使用光纤互连来传输数据，这种光学交换机可以将数据中心的性能翻倍，并显著降低能耗。这样的硬件优势是真正的“护城河”。即使在未来的AGI时代，硬件制造依然需要时间，这种硬件护城河不会轻易被打破。当我们创立Decart时，我们意识到这是一次千载难逢的机会。我们可以借此解决一个根本性的技术限制，构建三种可能的公司：1）成为NVIDIA的竞争者，2）建立下一个AWS，3）创造新的用户体验。我们最终选择了第三种方向，但一直想着未来是否有机会回到第一个方向。

主持人： 好奇问一句，如果一切顺利，10到15年后Decart AI会是什么样子？

Dean Leitersdorf： 这正是我们关注的未来。我要感谢Sequoia的James提出了一个新名词——生成式体验（Generated Experiences，GX）。我们认为，传统的用户体验（UX）已成过去，未来属于生成式体验。Decart是一家生成式体验公司，旨在创造触及全球每一个人的新型互动体验。

5、问答环节

主持人： 很有趣。我们来做一个快速问答吧，喜欢的AI应用是什么？

Dean Leitersdorf： 除了Oasis，应该是在ChatGPT和Character AI之间选择。Character AI将AI应用变成了一种平台，用户可以与AI建立友谊或实用性关系，这会是一个未来基础的应用。

主持人： 喜欢的AI公司呢？

Dean Leitersdorf： 还是Character AI。

主持人： 你什么时候开始编程的？

Dean Leitersdorf： 13岁时，为《RuneScape》写机器人。玩了几年，后来下载了一个机器人，结果用了24小时就被封号了。

主持人： 你认为AI生成的视频游戏还是小说会先达到可以付费购买的水平？

Dean Leitersdorf： ：首先会是一个平台，让人们可以用创造力来生成内容，AI距离独立生成创意内容还有一段距离。

主持人： 最喜欢的科学家是谁？

Dean Leitersdorf： 一定是达·芬奇。他不仅是位科学家和工程师，还懂得如何获得资金支持。他就像是当时的风险投资家。我们选择“Decart”这个名字正是因为笛卡尔的“我思故我在”与AI的使命不谋而合。

主持人： 完美的结尾，Dean，祝贺你们取得的成就。

Dean Leitersdorf： 谢谢邀请我们，但还没到庆祝的时候，我们要做出真正颠覆性的成就才能庆祝。

红杉资本专访Decart AI CEO：无需游戏引擎，3分钟即可体验AI生成原生游戏

文稿整理

1、交互式AI游戏

2、产品技术细节

3、AI垂直整合能力

4、建立长期护城河

5、问答环节

推荐资讯

永劫无间打不了字按回车没反应什么情况打不了字解决方法

《赛尔计划》短漫—强迫症的日常

《我的御剑日记》妖灵图鉴丨社恐人的修真路-太岁

地下城堡3魂之诗品质点获得方法

红杉资本专访Decart AI CEO：无需游戏引擎，3分钟即可体验AI生成原生游戏

文稿整理

1、交互式AI游戏

2、产品技术细节

3、AI垂直整合能力

4、建立长期护城河

5、问答环节

推荐资讯

永劫无间打不了字按回车没反应什么情况 打不了字解决方法

《赛尔计划》短漫—强迫症的日常

《我的御剑日记》妖灵图鉴丨社恐人的修真路-太岁

地下城堡3魂之诗品质点获得方法

永劫无间打不了字按回车没反应什么情况打不了字解决方法