
本文讨论以 Diffusion Model(扩散模型) 实现的(也是比较流行的)AI 绘画的各种模型。下文简称以这种方式实现的 AI 绘画为“AI 绘画”。
本文提到的模型附图,让读者可以对比不同模型的画风。
你是否已经初步学会了使用 AI 绘画,想尝试更多模型,或者提高出图质量?你是否对于纷繁的模型感到头晕?又或者你想知道一些 AI 绘画作品使用的是什么模型?这篇文章将帮助你。
AI 绘画的原理主要是“去除噪声”,即从一张噪声图开始反复降噪,得到最终的图像。因此,我们需要一个降噪的模型。这个模型负责生成图像。下文称其为“生成模型”。
但是,一张图片的尺寸很大,比如 1080*1920,如果直接降噪,所需的计算量太大了。因此,我们需要一个“VAE(变分自动编码器)”。从它的名字就能看出来,它能够将图像“编码”成较小的数据,然后我们对编码后的图像降噪,最后再“解码”,这样就把计算量控制在合理范围内了。
小结:AI 绘画需要一个生成模型和一个VAE模型。
一般来说,VAE 最好与生成模型相匹配,生成模型的制作者一般也会提供相适应的VAE。但是有时可以混用。
另外,还有 Lora 模型,可以改变模型的生成效果,好处是训练成本低,体积小。
下文要介绍的是生成模型。
如果你从 Github 上下载 Satble Diffusion,其将内置一个这个模型。此模型堪称“元老”,不仅因为它发布时间早,还因为有绝大多数模型都是在它的基础上训练的。它可以生成自然和人物的图像,内容广泛,偏向写实风格,不能生成二次元风格的图像。
此模型应用最广泛版本的是 V1.5,但后来还有 V2.1,XL 等版本。

Satble-Diffusion V1.5
因为这个模型实在是太“元老”了,效果实在不堪,一般很少直接用来生成图片。
Counterfeit 系列已经经历 V2.0,V2.5,V3.0 几个版本的迭代,热度很高。它可以生成高质量的二次元风格图像(细节丰富,表现力强),风景和人物均可。要用其生成人物图像,建议搭配 EasyNagative 和 badhand 使用,否则手部将画不好。

Counterfeit V2.5

Counterfeit V3.0
Anything 是基于 Novel AI 泄露的模型微调而来的模型,它的风格接近于人类画师。
此模型有 V3,V4,V4.5,V5 多个版本。

混合模型是一类模型的总称。这是指通过融合不同模型而成的模型。这些模型的名字里往往带有“Mix”。
这是一个二次元风格的模型,偏向于可爱萝莉风格。制作者是这样介绍它的:
它可以比较轻松的画出可爱风格的人物,但并非只能画萝莉风格人物,你可以尝试各种有意思的提示词,并且它画风景(背景)效果也很好。
这个模型画手的效果比 Counterfeit 好。
此模型有 V1.0,V2.0 和 Neochapter 等版本。

CuteYukiMixAdorable-Neochapter V1.3
这是一个写实风格的模型,名气很大。它尤其擅长生成东亚女性人像。
此模型有 V1,Ni 等版本。

ChilloutMix-Ni(此图摘自网络)
下面要提到的就不是“常见”的模型了。笔者使用过它们,所以简略提及。

BaitianMix 2.0
笔者认为此模型与 CuteYukiMix 的画风非常相似,区别之处在于衣服略有透明之感。
本文中的图像(除了摘自网络的外)生成时使用的参数是一样的,参数如下:
(best quality,masterpiece:1.3),((cute 1 girl:1.2)),(child,8 years old:1.4), low twintails, hair, solo, outdoors, cloud, black hair, dress, white footwear,red sky, shoes, short sleeves, sneakers, looking at viewer, brown eyes, white dress, full body, (dynamic pose:1.3), day, cloudy sky, floral print, bangs, blue sky, grass, blush, tree, closed mouth, city,from below, running
Negative prompt: prompt: NG_DeepNegative_V1_75T, EasyNegativeV2, extra fingers, fewer fingers, lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry, (worst quality, low quality:1.4), Negative2, (low quality, worst quality:1.4), (bad anatomy), (inaccurate limb:1.2), bad composition, inaccurate eyes, extra digit,fewer digits, (extra arms:1.2), (bad-artist:0.6), bad-image-v2-39000
Steps: 20, Sampler: DPM++ SDE Karras, CFG scale: 7, Seed: 1536689901, Size: 512x768, Denoising strength: 0.6, Clip skip: 2, Hires upscale: 2, Hires upscaler: Latent 虽然负面提示词中有一些文本嵌入(如 EasyNegativeV2),但笔者生成时没有使用任何文本嵌入
这篇文章到这里就结束啦,别忘了点赞、收藏和关注喔。