意识形态图成为上级AI图像发生器,超出Midjourney和Dall-E 3

Ideogram AI —— 由前谷歌工程师以及来自加州大学伯克利分校、卡内基梅隆大学和多伦多大学等知名机构成员共同创立的初创公司 —— 宣布发布其同名图像生成器的首个完整版本。“我们很高兴发布Ideogram 1.0,迄今为止我们最先进的文本到图像模型,”Ideogram AI在官方博客文章中说。“像所有Ideogram模型一样从零开始训练,Ideogram 1.0提供了最先进的文本渲染、前所未有的照片真实感和提示遵循性——以及一个名为Magic Prompt的新功能,帮助您编写详细的提示,创造出美丽、有创意的图像。”该发布伴随着由Andreessen Horowitz领投的8000万美元A轮融资的消息,以及Redpoint Ventures、Pear VC和SV Angel的参与。

Decrypt能够测试该模型,Ideogram AI的声明并没有过分夸张——下面可以找到并排比较。Ideogram的第一版明显优于其v0.1和v0.2的前身:它在提示遵循性、图像质量和文本生成能力方面表现出色。

该模型不是开源的,因此对其内部结构的了解有限,也没有研究论文可以评估。但是,用该模型获得的结果本身就是有说服力的,可能使其成为当前可用的最佳模型——至少在Stable Diffusion 3公开发布之前是这样。

新模型可以说是在文本能力方面最有能力的图像生成器,生成的文本字符串比Dall-E 3或MidJourney更长,错误更少。当前的免费层也使其在竞争对手如Dall-E 3和MidJourney之上,后者没有免费层。Microsoft Copilot也使用Dall-E 3,但它只生成1:1的方形图像,而Ideogram支持更宽的纵横比。

Ideogram还提供了两个付费计划,每月7美元和15美元,这些计划每天可以生成超过400个图像,并提供其他福利,如图像编辑器、更高质量的下载、img2img——它允许对现有图像进行修改或变化——和私人生成。所有较低层次的请求图像都会公开展示。

Ideogram能够理解长提示,与Stable Diffusion 3不相上下,并在这一领域击败所有其他图像生成器。

Ideogram的一个突出特点是“Prompt Magic”,可以开启或关闭。这个功能分析提示并加以增强,以创建更高质量的图像,本质上赋予了模型像Dall-E 3那样理解自然语言的能力。然而,Ideogram更加多才多艺,因为这个功能是可选的。它总是在ChatGPT Plus中开启,这有时会导致不准确。

最后,Ideogram的审查不如MidJourney和Dall-E 3那么严格,到目前为止,它能够生成著名人物、公司标志和艺术风格的图像。它不完全涉及NSFW内容,但在审查提示方面更为谨慎。

早期测试者似乎更喜欢Ideogram而不是其他模型。“使用类似于DALL·E 3的评估协议,我们发现,就提示对齐、图像连贯性、总体偏好和文本渲染质量而言,人类评估者更喜欢Ideogram 1.0,而不是DALL·E 3和Midjourney V6,”该初创公司说。

Decrypt测试了Ideogram的能力,并将其与其主要竞争对手MidJourney和Dall-E 3进行了比较。Stable Diffusion 3和Google的顶级ImageFX在这里没有被评估,因为SD3还没有发布,而ImageFX并不广泛可用。

Ideogram一上市就是免费且广泛可用的,可能是当前市场上最好的图像生成器。它在自然语言理解方面表现出色,并且在空间能力和提示遵循方面也是目前最好的文本生成器。

如果审美是最重要的考虑因素——到了对遵循和文本不那么重要的程度——那么MidJourney可能仍然是特定用例的有力竞争者。虽然不是特别强大并且受到严格审查,但Dall-E 3作为ChatGPT Plus订阅的一部分仍然有其意义。

就我们的图像生成器工具箱而言,Ideogram AI暂时占据了王冠。

编辑:Ryan Ozawa。

下一页
上一页