比较AI图像结果：利用不同模型与相同提示

2024年1月1日 Midjourney

比较AI图像结果：利用相同提示的多个模型

随着AI在技术和商业领域的不断发展，大多数人对此的理解仍仅限于像ChatGPT这样的工具。然而，一个快速发展的领域是AI图像生成。您可能对这个领域的一些工具很熟悉，但我打算研究不同的图像生成模型如何对相同的提示作出反应。

首先，让我们简要探讨一下AI图像生成的工作原理以及AI文本和图像生成之间的机械差异。

图像生成模型是如何工作的？像DALL-E这样的模型是使用大量的图像数据集进行训练的，有时还会有相应的文本描述。在训练过程中，AI会接受数百万个图像-文本对的输入，学习单词和视觉概念之间的关联。当给定文本提示时，模型会通过合成与其训练数据中的模式和视觉关系一致的像素来生成相应的图像。本质上，AI就像一位画家，根据其图像-文本对的数据库创建“画笔触”。这个过程可能导致偏见，我们将在本文中进一步探讨这个问题。

文本生成模型是如何工作的？相比之下，基于文本的AI模型（如GPT-4）是在大量文本数据上进行训练的，学习语言模式、语法和上下文。当有提示时，它们通过根据输入和训练预测最可能的下一个单词或短语来生成文本，本质上是根据您的输入“猜测”出最佳的下一个单词。

图像生成和文本生成的关键区别在于AI必须解释您的文字并将其可视化。

使用相同的提示进行图像生成测试

图像生成的一个缺点是有限的训练数据可能导致不一致或有偏见的输出。作为一个总部位于湾区的贡献者，我在四个不同的图像生成器上测试了相同的提示：“一个晴朗的日子，在California的Napa，有四个朋友喝红酒”。

在这个测试中，我使用了以下工具：

Dall-E
Firefly
Midjourney
Imagen

我将测试限制在每个模型的“第一张图像”输出上，因为熟悉这些工具的人知道它们每个提示会生成多张图像。对于Dall-E和Imagen，我通过Canva访问了这些图像，Canva有专门的应用程序。以下是结果：

“一个晴朗的日子，在California的Napa，有四个朋友喝红酒"的Dall-E生成结果
“一个晴朗的日子，在California的Napa，有四个朋友喝红酒"的Firefly生成结果
“一个晴朗的日子，在California的Napa，有四个朋友喝红酒"的Midjourney生成结果
“一个晴朗的日子，在California的Napa，有四个朋友喝红酒"的Imagen生成结果

这些输出倾向于收敛于相似的图像。值得注意的是，Midjourney在这四个结果中显示出了最大的差异，其次是Firefly。根据观察，Dall-E和Imagen的输出相对类似。

尽管图像生成技术正在快速发展，但它引发了关于偏见和其他潜在问题的担忧。随着训练数据的扩大，这些模型将会改进。然而，随着通过Runway和Pika等公司接近主流采用的视频生成，使用文本到图像和文本到视频的输出时需要格外小心，以避免加强社会偏见。

Midjourney