Google的Lumiere将AI视频推向了近乎真实的视频

2024年1月29日 Stable Diffusion

Google的新视频生成AI模型Lumiere采用了一种名为Space-Time-U-Net（STUNet）的新扩散模型，该模型能确定视频中事物的位置（空间）以及它们如何在时间上同时移动和变化。Ars Technica报道，这种方法使Lumiere能一次性创建视频，而不是将多个静态帧拼接起来。Lumiere首先从提示开始创建一个基础帧，然后利用STUNet框架开始估计该帧内的对象将如何移动，以创建更流畅的过渡帧，营造出无缝运动的外观。相较于Stable Video Diffusion的25帧，Lumiere还能生成80帧。

虽然我更多是文字记者而不是视频专家，但从谷歌发布的宣传片和预印本科学论文来看，AI视频生成和编辑工具在短短几年内已从不真实感觉转变为近乎现实。这也确立了谷歌在该领域的技术地位，与Runway、Stable Video Diffusion或Meta的Emu等竞争对手相媲美。Runway是最早的大众市场文字转视频平台之一，去年三月发布了Runway Gen-2，开始提供更逼真的视频。但Runway的视频在描绘运动方面也存在困难。我利用谷歌在Lumiere网站上发布的剪辑和提示，在Runway上进行了对比。结果显示，虽然展示的一些剪辑看上去有点人造，特别是在仔细观察皮肤纹理或更具气氛性的场景时，但看看那只乌龟！它在水中的移动就像真正的乌龟一样！它看起来像一只真乌龟！我将Lumiere的介绍视频发给一位专业视频编辑的朋友。尽管她指出“可以清楚地看出它并非完全真实”，但她认为如果我没告诉她这是AI，她可能会以为这是CGI。（她还说：“这会取代我的工作，对吗？”）

其他模型通过生成关键帧来将视频拼接在一起，这些帧已经包含了运动（类似翻书动画中的绘图），而STUNet让Lumiere专注于基于视频中生成内容应该出现的特定时间的运动本身。谷歌在文字转视频类别中并不是主要玩家，但它逐渐发布了更先进的AI模型，并逐步转向更多模态的关注。它的Gemini大型语言模型最终将为Bard带来图像生成功能。虽然Lumiere尚未提供测试，但它展示了谷歌开发与Runway和Pika等普遍可用的AI视频生成器相媲美，甚至可能更好的AI视频平台的能力。另外提醒一下，这是谷歌两年前在AI视频方面的成就。

除了文字转视频生成，Lumiere还将允许图像转视频生成、风格化生成（允许用户以特定风格制作视频）、部分动画的电影图（只使视频的一部分动画化）和涂鸦（用于掩盖视频区域以改变颜色或图案）。然而，谷歌的Lumiere论文指出，“使用我们的技术制作假冒或有害内容存在滥用风险，我们认为开发和应用检测偏见和恶意使用案例的工具，以确保安全和公平使用是至关重要的。” 论文作者并未解释如何实现这一点。

Stable Diffusion