红杉资本专访Decart AI CEO:无需游戏引擎,3分钟即可体验AI生成原生游戏

(关注公众号并设为标,获取最新人工智能资讯和产品)

Thumbplayer Poster Plugin Image

浏览器不支持该音视频

你可以 刷新 试试

70011103.1-acf2a4a888e4cdbe83013ceb2b2668f2

播放流水

Flowid

668373bd75acf4bda8d54629ed7ea37d

播放内核

Kernel

mp4/origin (1.33.5)

mystery

mystery

r:4/2 br:0.000-0.000 t:0.00 pg:1 s:ed->ie->lt->ed->ie

想象一下,你正站在一面神奇的镜子前。这不是普通的镜子,而是一个能与你对话的智能镜面。"我想要一把剑,"你说。镜中的你立刻手持一把闪亮的利剑。当你挥动手臂,剑也随之舞动。"让它变得更大些,再染成蓝色,"剑立即按照你的想象改变。"带我进入《权力的游戏》的世界,"你说。瞬间,周围的环境转换成维斯特洛大陆的奇幻场景,你的头上还多了一顶皇冠。

这不是科幻电影中的场景,而是AI技术带来的现实突破。Decart AI最近就展示了这样令人惊叹的技术Demo,通过访问Oasis AI官网,任何人都能亲身体验这段三分钟的互动奇迹。正如Decart AI联合创始人兼CEO Dean Leitersdorf在接受红杉资本采访时所说,这项技术突破了传统计算的界限,让AI生成的消费者体验从可玩的视频游戏到沉浸式世界都成为可能。

这项突破的意义远不止于技术创新。它打破了人类想象力与现实之间的屏障,让我们能够将脑海中的画面实时呈现在眼前。更重要的是,它跨越了一个根本性的沟通障碍:让计算机能够像人类一样"看"世界,并以我们能理解的方式与我们互动。这不仅开创了一个全新的交互范式,更为未来无限可能的应用奠定了基础,从新一代社交媒体到专业模拟训练,一切都将被重新定义。

文稿整理

主持人: 欢迎你 Dean,我们直接开始什么是Oasis ?你们为什么发布Oasis 这款产品。

1、交互式AI游戏

嘉宾Dean Leitersdorf: 我们在几周前发布了Oasis,真正让人惊叹的是从技术角度来看,这是首个可以实时运行的AI视频模型,并且能够响应用户的操作进行互动。你可以在这个世界里四处移动、破坏方块、放置方块,这样我们获得了一个没有传统游戏引擎的游戏体验。然而,这还不够有趣。为什么说这真正有趣?为了回答这个问题,先别去想Oasis 1,而是想象一下Oasis 3。试想一下,放下技术层面的东西,想象你正面对一面镜子。这面神奇的镜子可以和你对话。你可以告诉它做一些酷炫的事情,比如说“我在这里,这是我的手,我想拿一把剑。”然后你在镜子里看到自己,手中突然多了一把剑。你移动手,剑也跟着移动。你可以说,“让这把剑变大一点,或者把它变成蓝色”,镜子会立即响应。接着,你可以说,“把我带入《权力的游戏》的世界”,周围的环境就会转变成《权力的游戏》的场景,甚至你头上会出现皇冠。如果你不喜欢皇冠的样子,你可以调整它。然后,你跳动、移动,镜子会实时响应。这才是真正有趣的地方。

这之所以有趣,是因为它带来了我们从未有过的全新体验。它让我们可以通过屏幕将想象力展现在眼前,把我们心中的画面与眼前所见连接起来。这正是我们追求的目标:如何通过生成式AI将我们的想象与屏幕上的视觉内容相连接。有了它,我们可以探索前所未有的世界,从无法实现的应用到全新的互动方式,一切都将被改变。

主持人:  我非常喜欢这个“镜子”的比喻,让我们更深入探讨一下。你们打算把这个技术应用到哪些领域?这是一个社交媒体项目?还是一个游戏?亦或是一个互动的世界模型?我该如何理解Oasis和Decart的定位?

Dean Leitersdorf: 那么我来问你一个问题:ChatGPT解决了什么问题?

主持人:  当然是帮助完成日常作业。

Dean Leitersdorf:   对,没错,但不仅仅如此。它还使人与计算机的沟通变得更加轻松。正如你所提到的,ChatGPT并不是解决某个具体问题,而是跨越了一种基本的沟通障碍。计算机使用结构化语言,而人类使用复杂且有一定结构的语言。大型语言模型(LLMs)正是通过弥合这种差距,让计算机和机器能够用我们都理解的语言进行互动。一旦克服了这种障碍,便会衍生出许多不同的应用。因此,通过镜子,或者通过生成式的互动视频,我们不仅解决了文字层面的沟通障碍,还跨越了视觉层面的障碍。现在,计算机能够像我们一样“看”世界,并以我们能理解的方式向我们展示它。实现这一点,就构建了一个让人们可以在其上开发各种应用的平台,从下一代的Snapchat或TikTok到战斗机飞行员模拟器,都可以在上面实现。

主持人:  哇,这真是太酷了!

Dean Leitersdorf:  是的,现在是2024年。在Decart AI创立公司的过程中,我们意识到有一个机会去构建一些不是为了解决具体问题,而是为了跨越某种限制的东西。99%的公司都是为了解决某个问题而成立的,他们会向风投展示“这是我们要解决的问题,市场有多大,我们如何解决”。通常,这些公司在商业模式上可能会发生改变,但问题本身不会改变,否则就被称作“转型”了。而我们,有机会去构建一些不只是解决问题,而是跨越障碍的产品。这不仅仅是解决一个问题,而是克服一种限制。让我换一种方式问你,Mac 是一个消费产品还是企业产品?它是硬件公司还是软件公司?它解决了什么问题?如果你试图列出个人电脑所解决的问题,那么它涉及从游戏到 Excel 等各种用途。这就是它的有趣之处,你正在构建一项惊人的技术,并能以多种方式实现产品化。

主持人:  我很喜欢这一点。你们构建的一个令人惊叹的特点是,没有使用传统的游戏引擎。你认为这意味着什么?你认为游戏引擎是过时的东西吗?

Dean Leitersdorf:  游戏引擎的初衷是让一位玩家能够创建一个世界,而另一位玩家可以在这个世界中互动,对吧?这是游戏引擎的目的。你有游戏开发者和使用者,这种模式同样适用于电影制作等领域。最近,Unreal 引擎被大量用于电影制作。这是一个非常有价值的产品,它有很多优势,世界的呈现非常一致,可以做到很高的精确度。问题在于与之互动需要花费很多时间。人们喜欢对基础游戏进行修改,使其变得多样化。我们进入这个领域后,真正看到人们会如何使用它。你知道吗?有人实际做了一个 mod,可以把《精灵宝可梦》加入《我的世界》里。你可以在森林中行走,看到跑来跑去的精灵宝可梦,这是一个真实存在的 mod。

所以人们本能地会想,“我们有这个平台,我们想改变它。”这就是 mod 的美妙之处。而这里的不同在于,运行你游戏或环境的是一个 AI,你可以像对 AI 那样与它互动。你可以说,“把这个变成艾尔莎主题吧。”然后,整个环境变成了艾尔莎主题。你可以加入一个会飞的大象,这不仅是一个图像,你可以与它互动,比如你打一下大象,它会还击等等。我认为如果这种趋势取代了游戏引擎,那么它就得达到一种状态,让一个人可以在上面构建世界,而另一个人可以与之互动。这种状态肯定会到来,而且编程会变得更加简单,你只需要用语言表达,而不需要编写代码。即使你会编写代码,你也可以更快速地进行迭代。总结一下,这将让我们实现更快、更高效的 modding,以及互动 modding。

2、产品技术细节

主持人:  进入一点技术细节吧,你们是我见过的第一个实现实时推理的视频模型。实现实时推理有多难?这个过程中涉及哪些技术细节?

Dean Leitersdorf:   回到几个月前的夏天,我记不清具体发布在哪里了,但当时有一些头条新闻称,等黑白芯片问世时,视频才可以实现实时。Hopper 芯片(NVIDIA H100)无法实现这一点,必须等待下一代 NVIDIA 芯片。那段时间有大约两周,很多人都在这么说。但事实是,H100 芯片完全可以做到。为了实现这一点,需要同时做两件事。首先是对模型进行改变,不是所有视频模型都能实时运行,需要对模型进行不同的训练,架构也需要做出调整。虽然不是大的架构改变,但确实需要做一些调整。另一方面,系统层面的工作也必须完成。我们重新编写了 CUDA 核心代码,甚至放弃了 PyTorch 自带的垃圾回收系统,自己从头实现了一部分。如果只做其中一部分,那你就会等着别人完成另一半。如果你只做系统层面的工作,那么你不会有一个可以进行互动的模型。如果只做模型相关的工作,系统层面则没有足够的支持来实现实时运行。

主持人:  能简单说一下模型的工作原理吗?它是基于 Transformer 的模型吗?或者类似于 Sora 那种模型?

Dean Leitersdorf:    简而言之,它和 Sora 类似,只不过这里的“提示词”是用户的动作而不是文字。可以这样理解:在文本到视频模型中,你输入一句话,它生成一个视频。这里也类似,只不过输入的提示词是你的键盘操作和之前的帧,它会生成下一帧。

主持人:  那你们是如何获取动作与视频之间的数据的?

Dean Leitersdorf:    是的,在这里确实需要进行一些预处理步骤,这是普通视频模型中没有的。比如说,我们需要将游戏的录制内容逐帧标注出所执行的动作。我们训练了一个小模型来完成这项工作,它其实不需要太多数据,少量的示例就足够了。我们团队可以简单地玩一会儿,录制下来,然后用这个小模型标注所有数据。

主持人:  真的很有趣!你们是在构建一个世界模型吗?还是纯粹基于像素的模型?

Dean Leitersdorf:   很好,我们构建的是纯粹基于像素的模型。让我们来比较一下世界模型或者3D模型的方式。AI领域有一个十多年的问题,那就是:是否应该从头到尾完成任务,还是在现有工作流的基础上优化?比如说,我们可以选择现有的游戏引擎,比如Unity和Unreal,将文本转换成3D模型,比如我描述一只大象,然后生成一个3D网格,再将其嵌入到Unity或Unreal这样的游戏引擎中。相比之下,另一种方式是端到端的解决方案,最终的结果是屏幕上的显示内容与用户的操作相对应。这两个方向各有优势。第一种方式在一致性上更强,可以确保对象外观稳定不变。而端到端的像素模型则更灵活,可以实时编辑,比如你可以说“把大象的尾巴变小一点”,可以实时看到变化,动态性更强。我认为未来这两种方式会趋于融合。

主持人:  所以你的意思是,你们可能会同时构建这两个模型?

Dean Leitersdorf:   是的,我们确实有这个打算,虽然还需要一些时间来实现。

3、AI垂直整合能力

主持人: 有一件事让我对你们的团队印象深刻,就是他们的全面垂直整合。他们理解从电子层面到最终呈现在屏幕上的每个细节,从底层硬件到CUDA核心代码都进行了优化。这种方式可能让他们在应用层面上始终保持10倍以上的优势。你们为什么选择完全垂直整合,而不是专注于用户体验和病毒式传播?

Dean Leitersdorf:   对于我来说,Google是有史以来最令人惊叹的公司之一。我曾在Google工作过几年,Google的优势并不仅仅是他们的PageRank算法,而在于他们对分布式系统和底层系统优化的深入理解。他们意识到可以使用便宜的消费级硬件,虽然故障率高,但总体成本大幅降低,因此可以实现10倍的成本优化。Google的强大之处在于它的后端,而这种后端优势来自于他们对硬件的深度优化。我们团队在很多方面让类似Google。我们拥有全方位的底层优化能力,

主持人: 我想说要实现那种“镜子体验”的愉悦感,前端可以很简单,但后端必须做到极致的优化,深入到硬件层面。这是个全或无的事情——如果不能实现实时效果,那就没什么用。而且我认为,如果不做到硬件级别的优化,明年之内是不可能实现实时的。所以在我看来,你们必须这么做,而你们也是我见过唯一能做到这一点的团队。

Dean Leitersdorf:   这里有两个点让我特别关注:一个是关于垂直整合,稍后我们会详细谈到。另一个要回到你的第一个问题。我最近跟Google的一位高管聊过这个问题。当Google成立时,我才三个月大,所以我其实并没有亲身经历过那时的细节,但我很想了解那时发生了什么。我们谈到了GPU集群的可靠性问题。如今,如果你在任何集群上训练一个模型,无论是大规模的计算服务商还是GPU云服务,训练过程都会因为各种奇怪的原因而崩溃。比如,某个节点会因为两个节点之间的电缆上有灰尘而崩溃,系统并不会给出明确的错误提示。结果就是整个训练任务崩溃了,你只能不断重启系统,尝试找到问题。

目前几乎所有公司都会遇到这些问题,可能只有Google和OpenAI不会,因为他们已经深入到硬件层面来解决这些问题。我们在Decart则是选择去面对这些挑战。Oasis模型的训练从开始到收敛只需要20小时。其他实验室可能需要两周时间才能完成类似的模型训练,这不仅是因为他们没有优化系统层,还因为他们的训练任务会不断崩溃。而我们可以保持训练任务稳定运行,不会崩溃,即便是长达一到两周的训练。

主持人:  听起来你们在训练过程中有很多细节要处理,能分享一些吗?

Dean Leitersdorf:   当然,我们有一个内部文档,大概有200页,记录了训练模型时可能会出现的各种问题。有一次,我们在进行Oasis的训练时,需要生成一些合成数据。我们注意到集群中有大量CPU资源利用率很低,就决定在同一个集群上生成合成数据。我们不仅充分利用了GPU,还充分利用了CPU,甚至使用了InfiniBand在节点间传输数据。这让GPU云提供商感到惊讶,因为我们几乎把集群的性能发挥到了200%。一开始我们以为这样做不会影响训练,但结果训练任务出现了“数据加载器中缺少锁文件”的错误。这个错误的原因其实是合成数据生成使用了更多的网络带宽,导致Python的数据加载器将一个网络映射的锁文件转移到磁盘上。最终,不同节点拥有了不同的锁文件,导致数据加载器崩溃。这就是我们的日常挑战之一,而这样的情况在我们的文档中比比皆是。

主持人:  这还是一个相对简单的例子。在更复杂的情况下,他们也要找到解决办法。比如说,他们曾经获得了一个新的集群,但集群没有安装内存,大多数人可能根本没法使用这样的GPU。

Dean Leitersdorf:   这是个有趣的故事。我们把这个称为“地球上最好的视频模型训练场所”。训练视频模型不仅仅是集群的问题,还包括周边的一切资源。需要存储、网络支持等许多配套设施,才能打造最佳的训练环境。我们其实还差得很远,预计在接下来的半年内会有所改进,很多GPU云服务商也在努力改进这些服务。我们接触到的某些集群甚至没有配备存储设备。因为这些云服务商急于推出H100 GPU,所以存储等资源被忽略了。虽然他们计划后续安装,但我们必须寻找替代方案。于是,我们想出了一个办法:每个节点上都有一些连接的SSD,我们能否在此基础上构建一个小型的分布式文件系统?我们最终实现了这一点,虽然遇到很多困难,但它确实奏效了。

垂直整合通常有两个好处:成本降低和加速迭代速度。也许还有第三个好处,但在AI领域,加速比成本更重要。你可以提前一年甚至两年上市,而这就是关键。正如Google和OpenAI那样,迅速占据技术领先地位,再转化成优势。这才是游戏的核心。如果我们选择等待两年再行动,可能会错过机会,因为其他人已经走在前面了。这就是我们选择完全垂直整合的原因。

4、建立长期护城河

主持人:  我喜欢这个。那你们的“护城河”是什么?短期还是长期?

Dean Leitersdorf:   两者都有。短期内是技术护城河。我们在系统层面和模型层面都做了整合,这构成了短期内的优势。而长期护城河则是一个更有趣的问题。现在有一种新兴的网络效应,源于人们在TikTok上的讨论。我们学到很多的Character AI就是一个例子。一旦他们获得了市场关注,立刻出现了许多竞争者,但他们的“TikTok护城河”非常显著。在TikTok上搜索任何竞争者,都会发现大量关于Character AI的讨论。许多用户甚至不知道有其他竞争者。这实际上是一种新的品牌效应。与传统品牌不同,这种效应直接呈现在用户眼前,尤其是年轻一代,他们总是在TikTok上看到这些内容。这可能让公司在建立长期护城河前,利用这种短期效应获得优势。

主持人:  不过硬件仍然是最强的护城河。正如Google通过硬件优势从软件护城河扩展到更大的护城河,我认为这是一个很好的例子。虽然Google在应用层面没有太多突破性产品,但在硬件层面的成本优势却极为明显。

Dean Leitersdorf:   其实这是个很好的故事。当时我们把我们训练视频模型的地方称为“地球上最好的训练场所”。训练视频模型不仅需要集群,还需要周围的一切资源——存储、网络等等。要建立最好的训练环境,这需要很多投入。我们离这个目标还很远,预计未来半年内GPU云服务商会有很多改进。我们接触的某些集群甚至没有配备存储设备。有时服务商急于推出H100 GPU而忽略了存储等资源。我们发现每个节点都有一些SSD,于是决定在此基础上构建一个小型的分布式文件系统。最终我们克服了很多困难,成功实现了这一点。

主持人:  这确实让人想起垂直整合的好处。垂直整合通常带来成本节约和加快产品开发的速度,特别是在AI领域。加速产品上市比成本更重要。你可以提前一年甚至两年推出产品,这就能建立先发优势。我们如果等两年后再行动,可能已经晚了。这也是我们选择垂直整合的原因。

Dean Leitersdorf:   是的,正如你所说。在硬件层面,Google做的一个项目让我大开眼界,改变了我对投资的看法。Google在数据中心中使用光纤互连来传输数据,这种光学交换机可以将数据中心的性能翻倍,并显著降低能耗。这样的硬件优势是真正的“护城河”。即使在未来的AGI时代,硬件制造依然需要时间,这种硬件护城河不会轻易被打破。当我们创立Decart时,我们意识到这是一次千载难逢的机会。我们可以借此解决一个根本性的技术限制,构建三种可能的公司:1)成为NVIDIA的竞争者,2)建立下一个AWS,3)创造新的用户体验。我们最终选择了第三种方向,但一直想着未来是否有机会回到第一个方向。

主持人:  好奇问一句,如果一切顺利,10到15年后Decart AI会是什么样子?

Dean Leitersdorf:  这正是我们关注的未来。我要感谢Sequoia的James提出了一个新名词——生成式体验(Generated Experiences,GX)。我们认为,传统的用户体验(UX)已成过去,未来属于生成式体验。Decart是一家生成式体验公司,旨在创造触及全球每一个人的新型互动体验。

5、问答环节

主持人:  很有趣。我们来做一个快速问答吧,喜欢的AI应用是什么?

Dean Leitersdorf:   除了Oasis,应该是在ChatGPT和Character AI之间选择。Character AI将AI应用变成了一种平台,用户可以与AI建立友谊或实用性关系,这会是一个未来基础的应用。

主持人:  喜欢的AI公司呢?

Dean Leitersdorf:   还是Character AI。

主持人:  你什么时候开始编程的?

Dean Leitersdorf:  13岁时,为《RuneScape》写机器人。玩了几年,后来下载了一个机器人,结果用了24小时就被封号了。

主持人:  你认为AI生成的视频游戏还是小说会先达到可以付费购买的水平?

Dean Leitersdorf: :  首先会是一个平台,让人们可以用创造力来生成内容,AI距离独立生成创意内容还有一段距离。

主持人:  最喜欢的科学家是谁?

Dean Leitersdorf:   一定是达·芬奇。他不仅是位科学家和工程师,还懂得如何获得资金支持。他就像是当时的风险投资家。我们选择“Decart”这个名字正是因为笛卡尔的“我思故我在”与AI的使命不谋而合。

主持人:  完美的结尾,Dean,祝贺你们取得的成就。

Dean Leitersdorf:   谢谢邀请我们,但还没到庆祝的时候,我们要做出真正颠覆性的成就才能庆祝。

相关知识

MediaTek HyperEngine 5.0 游戏引擎
AI梦境档案涅槃肇始全流程攻略 AI梦境档案涅槃肇始尾声攻略
腾讯IEG开源GAME AI SDK:自动化测试吃鸡、MOBA类游戏
时代脉搏下的传承与创新 完美世界2023年CEO见面会
反正超AI玩!ROG游戏手机9系列新品正式发布!
2048 AI好玩吗 2048 AI玩法简介
击败Ai好玩吗 击败Ai玩法简介
《山海与妖灵》3D AI时装主题挑战赛开启!
《王者荣耀》觉悟ai在哪里
蓝色妖姬AI画画好玩吗 蓝色妖姬AI画画玩法简介

网址: 红杉资本专访Decart AI CEO:无需游戏引擎,3分钟即可体验AI生成原生游戏 http://www.hyxgl.com/newsview330970.html

推荐资讯