Stable Diffusion 3：新一代文本到图像模型的性能与安全性优化

2024年6月25日 Stable Diffusion

Stable Diffusion 3是由Stability AI最新发布的文本到图像模型，它在多主题提示、图像质量和拼写能力方面都有显著的性能提升。这个模型现在正处于早期预览阶段，开发团队已经开放了等候名单，邀请用户参与早期预览，以便在公开发布之前，收集反馈进一步优化模型性能和安全性。

根据最新的研究报告，Stable Diffusion 3在模型架构上进行了重大创新，采用了多模态扩散转换器（MMDiT）架构，该架构能够独立处理图像和文本的表达，使模型在处理图文混合内容时更加精准。此外，Stable Diffusion 3在面对竞争模型如DALL·E 3, Midjourney v6和Ideogram v1时，在字体渲染和遵循提示指令方面表现更佳。

为了确保AI的安全使用，Stability AI采取了多种预防措施，从模型训练的初期阶段就开始关注安全性，通过与研究者和社区的合作，持续强化模型的安全防护措施。在即将到来的公开发布前，团队将进一步创新，以保证技术的安全性和普遍的可接受性。

Stable Diffusion 3目前支持的模型参数范围从800M到8B，这使得用户可以根据自己的需求选择最适合的模型规模，从而平衡创作需求和系统资源消耗。这种灵活的模型配置进一步推动了AI技术的民主化，使更多的个人和开发者能够利用这一技术激发创造力。

未来，Stability AI计划通过不断的研究和开发，进一步提升模型的表现，使其在多样化的应用场景中都能提供高质量的图像生成服务。

Stable Diffusion