AI 艺术生成器会接收文本提示,并尽可能将其转换为匹配的图像。由于您的提示可以是任何内容,因此所有这些应用程序要做的第一件事就是尝试理解您的要求。为此,AI 算法需要对数十万、数百万甚至数十亿个图像-文本对进行训练。这使它们能够学习狗和猫、维米尔和毕加索以及其他一切之间的区别。不同的艺术生成器对复杂文本的理解程度不同,这取决于其训练数据库的大小,并且某些模型是针对特定目的进行训练的,或者仅使用授权内容进行训练,这会影响它们可以生成的内容类型。
AI 的下一步是实际渲染生成的图像。目前有两种主要的模型:
扩散模型,例如稳定扩散、DALL·E 3、Midjourney 和 CLIP-Guided Diffusion,其工作原理是从随机噪声场开始,然后通过一系列步骤对其进行编辑以匹配其对提示的理解。
生成对抗网络(GAN),例如 VQGAN-CLIP、BigGAN 和 StyleGAN,已经存在了几年。
这两种模型都可以产生出色、逼真的效果,但扩散模型通常更擅长产生奇怪或狂野的图像。
基于不同模型的 AI 艺术生成器对提示的两幅渲染图
提示:一位戴着猎鹿帽、抽着烟斗的鹦鹉侦探。
虽然有些应用程序对其使用的模型非常公开,但其他应用 韩国电报数据库 程序却含糊其辞。例如,VQGAN-CLIP 和 Stable Diffusion 都是开源的(或接近开源),因此有大量应用程序公开使用它们,而许多其他应用程序则只字未提。还有一些应用程序使用自己的数据来定制训练各种开源模型,以获得更好的结果。
这意味着许多 AI 艺术生成器本质上只是相同艺术生成算法的不同用户界面皮肤。从商业角度来看,这在某种程度上是可以理解的。不过,当你试图选择使用哪个应用程序(或撰写有关它们的文章)时,这很烦人。在可能的情况下,我列出了每个应用程序使用的模型。如果没有声明,我会根据我对所有这些不同的生成 AI 的经验进行推测。
对人工智能感兴趣,但不太确定如何在工作中使用它?以下是人们在工作中使用人工智能图像生成的几种方式:
为博客文章生成英雄图像
创建社交媒体帖子
生成幻灯片和故事板
为客户创建个性化图像
了解更多关于如何在工作中使用AI图像生成。