谷歌DeepMind引领新潮流:AI生成视频模拟真实运动,无需3D模型与物理引擎

谷歌DeepMind引领新潮流:AI生成视频模拟真实运动

随着科技的进步,我们正目睹一场由谷歌DeepMind引领的革命,其在视频生成模型上的创新成果,将彻底改变我们对视频生成的理解。近日,DeepMind携手布朗大学成功开发了一种名为“力提示”(Force Prompting)的技术,该技术能够在无需3D模型或物理引擎的情况下,生成出逼真的运动效果。这一突破性的成果,无疑将为视频生成领域开启全新的可能。

力提示技术的核心在于,用户只需指定力的方向和强度,就能操控AI生成的视频内容。这种力量以矢量场形式输入系统,随后被转化为自然流畅的运动。该技术包含了全局力和局部力两种力量,全局力如风吹过整个画面,而局部力则如特定点的敲击。这些力的引入,使得AI在生成视频时能够更加真实和自然。

为了研发这一技术,研究团队基于CogVideoX-5B-I2V视频模型,加入了ControlNet模块处理物理控制数据。通过Transformer架构,每段视频包含49帧,仅用4台Nvidia A100 GPU训练一天即可完成。这一过程不仅高效,而且精确,为力提示技术的实现提供了坚实的基础。

训练数据是这一技术成功的关键。训练数据完全为合成,包括全局力数据如1.5万段不同风力下旗帜飘动的视频,以及局部力数据如1.2万段滚动球体和1.1万段花朵受冲击反应的视频。这些数据不仅种类丰富,而且数量庞大,为模型的训练提供了充足的资源。

值得一提的是,在生成过程中,文本描述中在加入“风”或“气泡”等物理术语后,模型会自动建立正确的力与运动关系。这一特性使得力提示技术能够在复杂的场景中发挥作用,适应新物体、材质和场景,甚至掌握简单物理规则。例如,在相同力下,轻物移动距离比重物远,这一简单的物理规则在模型中得到了良好的体现。

尽管训练数据有限,但模型展现出了强大的泛化能力。它能适应新物体、材质和场景,甚至掌握简单物理规则。这一成果令人振奋,预示着未来AI可能不再仅仅依赖数据,而是能在模拟环境中通过经验学习。

在用户测试中,“力提示”技术在运动匹配度和真实感上优于纯文本或运动路径控制的基准模型,甚至超越了依赖真实物理模拟的PhysDreamer(仅在图像质量上稍逊)。这一结果无疑证明了力提示技术的强大潜力。

谷歌DeepMind的这一创新成果,无疑将引发一场新的潮流。这种无需3D模型和物理引擎的视频生成技术,将为我们的生活带来更多的可能性和惊喜。我们期待着这种技术在未来的发展,以及它为我们带来的更多改变。

总的来说,谷歌DeepMind的力提示技术为我们展示了一个全新的可能世界。在这个世界里,AI不仅能处理文本和图像,还能理解和模拟物理规则。这是一个令人兴奋的领域,也是我们通向更通用AI的关键一步。我们期待着DeepMind在未来能够带来更多的突破性成果,引领我们进入一个更加智能、更加真实的世界。

(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )

赞助商
2025-06-04
谷歌DeepMind引领新潮流:AI生成视频模拟真实运动,无需3D模型与物理引擎
谷歌DeepMind引领新潮流:AI生成视频模拟真实运动 随着科技的进步,我们正目睹一场由谷歌DeepMind引领的革命,其在视频生成模型上的创新成...

长按扫码 阅读全文