欢迎来到《黑客帝国》!阿里推出革命性AI游戏模拟器The Matrix

近日阿里 推出了 The Matrix ,一个革命性的模拟器,能够以第一人称和第三人称视角,生成无限长、720p高清画质的真实场景视频流,还可以实时响应用户操作,让你沉浸式探索动态丰富的虚拟世界。用户可以在这个模拟器里体验连续、无剪辑的长达一小时的视频,比如穿越沙漠、草原、水域和城市街景。更惊人的是,这一切可以实时交互,运行速度最高可达每秒16帧(FPS)。(链接在文章底部,代码和模型都将开源)

The Matrix 的强大之处在于它的“零样本泛化”能力,也就是可以把游戏中的虚拟场景转换到现实环境中,比如模拟一辆 BMW X3 在办公室里行驶——这种场景既不存在于游戏数据中,也不存在于真实视频素材中。通过利用3A游戏的数据,这项技术展现了虚拟世界如何帮助推动真实场景模拟的进步,尤其是在那些难以获取连续运动数据的领域。

01 技术实现

这个模拟器是如何实现的呢?The Matrix在有限的标注数据上训练了模型,这些数据来自像 Forza Horizon 5 和 Cyberpunk 2077 这样的顶级3A游戏,还加入了大量无监督的真实世界视频,比如东京街头的场景。

用户能够在连续的视频中穿越各种地形——沙漠、城市、森林等。每个键盘命令都以帧级精度响应,提供与AAA 游戏类似的四帧响应。探索下面的画廊,在沉浸式景观中体验Matrix。

GameData 平台利用工具(比如 Cheat Engine)来捕捉游戏中的世界状态,同时过滤掉不可靠的数据,并通过 Reshade 插件去掉游戏界面的 UI 和 HUD(就是那些挡视线的菜单和血条)。这样一来,就能自动收集到大量干净、精准的“动作-画面”配对数据。


The Matrix 的独特之处在于,它是一个基础模型,能够生成无限长度的视频,具备3A游戏级别的画质、高分辨率、帧级实时控制能力,以及在不同领域的强大适应性。图中的 * 表示与 The Matrix 同期的研究成果,而“有监督/无监督”则指视频数据是否带有真实的控制信号。

02 演示效果

目前最先进的基于 DiT 的视频生成模型(如 CogVideo 和 Open-Sora)只能生成几秒钟的视频,难以满足构建“无限场景世界”的需求。而 The Matrix 通过引入 Swin-DPM 技术解决了这个问题。

Swin-DPM 大幅扩展了注意力计算的接收范围,同时保持计算成本不变。 这一创新让 The Matrix 能够在可控的算力预算内生成高质量、超长时间的视频,画面效果一致且流畅。

提出的 Swin-DPM 技术可以集成到通用的 DiT 架构扩散模型中,用于生成更长时长的视频。这项创新为视频生成领域做出了重要贡献,开辟了一个新方向:不仅能够生成高质量的长视频,还能在整个视频过程中保持画面的连贯性和一致性。

生成从未见过的场景:

生成现实场景:

https://thematrix1999.github.io/article/the_matrix.pdf

欢迎交流~,带你学习AI,了解AI

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关知识

欢迎来到《黑客帝国》!阿里推出革命性AI游戏模拟器The Matrix
叛逆AI模拟器好玩吗 叛逆AI模拟器玩法简介
全球首个游戏内AI竞技场!逆水寒携手网易伏羲引领游戏AI新潮流
少女学园ai模拟器好玩吗 少女学园ai模拟器玩法简介
校园女孩AI模拟器好玩吗 校园女孩AI模拟器玩法简介
game
逆水寒携手网易伏羲邀请五大AI厂商,共创全球首个游戏内AI竞技场
少女学园ai模拟器什么时候出 公测上线时间预告
校园女孩AI模拟器什么时候出 公测上线时间预告
欢迎来到新手村好玩吗 欢迎来到新手村玩法简介

网址: 欢迎来到《黑客帝国》!阿里推出革命性AI游戏模拟器The Matrix http://www.hyxgl.com/newsview344164.html

推荐资讯