Google的Lumiere将AI视频推向了近乎真实的视频

Google的新视频生成AI模型Lumiere采用了一种名为Space-Time-U-Net(STUNet)的新扩散模型,该模型能确定视频中事物的位置(空间)以及它们如何在时间上同时移动和变化。Ars Technica报道,这种方法使Lumiere能一次性创建视频,而不是将多个静态帧拼接起来。Lumiere首先从提示开始创建一个基础帧,然后利用STUNet框架开始估计该帧内的对象将如何移动,以创建更流畅的过渡帧,营造出无缝运动的外观。相较于Stable Video Diffusion的25帧,Lumiere还能生成80帧。

虽然我更多是文字记者而不是视频专家,但从谷歌发布的宣传片和预印本科学论文来看,AI视频生成和编辑工具在短短几年内已从不真实感觉转变为近乎现实。这也确立了谷歌在该领域的技术地位,与Runway、Stable Video Diffusion或Meta的Emu等竞争对手相媲美。Runway是最早的大众市场文字转视频平台之一,去年三月发布了Runway Gen-2,开始提供更逼真的视频。但Runway的视频在描绘运动方面也存在困难。我利用谷歌在Lumiere网站上发布的剪辑和提示,在Runway上进行了对比。结果显示,虽然展示的一些剪辑看上去有点人造,特别是在仔细观察皮肤纹理或更具气氛性的场景时,但看看那只乌龟!它在水中的移动就像真正的乌龟一样!它看起来像一只真乌龟!我将Lumiere的介绍视频发给一位专业视频编辑的朋友。尽管她指出“可以清楚地看出它并非完全真实”,但她认为如果我没告诉她这是AI,她可能会以为这是CGI。(她还说:“这会取代我的工作,对吗?”)

其他模型通过生成关键帧来将视频拼接在一起,这些帧已经包含了运动(类似翻书动画中的绘图),而STUNet让Lumiere专注于基于视频中生成内容应该出现的特定时间的运动本身。谷歌在文字转视频类别中并不是主要玩家,但它逐渐发布了更先进的AI模型,并逐步转向更多模态的关注。它的Gemini大型语言模型最终将为Bard带来图像生成功能。虽然Lumiere尚未提供测试,但它展示了谷歌开发与Runway和Pika等普遍可用的AI视频生成器相媲美,甚至可能更好的AI视频平台的能力。另外提醒一下,这是谷歌两年前在AI视频方面的成就。

除了文字转视频生成,Lumiere还将允许图像转视频生成、风格化生成(允许用户以特定风格制作视频)、部分动画的电影图(只使视频的一部分动画化)和涂鸦(用于掩盖视频区域以改变颜色或图案)。然而,谷歌的Lumiere论文指出,“使用我们的技术制作假冒或有害内容存在滥用风险,我们认为开发和应用检测偏见和恶意使用案例的工具,以确保安全和公平使用是至关重要的。” 论文作者并未解释如何实现这一点。

下一页
上一页