【NovelAI】开源的WebUI即将引入重磅更新,大幅提升图像品质
暗影·夜光
2022年10月15日 06:30

这篇论文的作者尝试了一种提升输出图像品质的方法,并实现了适用于Stable Diffusion的代码:

https://arxiv.org/abs/2209.12330

https://github.com/vicgalle/stable-diffusion-aesthetic-gradients

最近有人移植到了AUTOMATIC1111开发的WebUI项目中,新功能看起来不起眼,但却带来一个重大的提升:

可以不用学习一大堆提升画面品质的咒语了


不讲技术,我们直接看测试效果。

整篇文章的图片都未经过人为筛选。生成完毕之后直接发上来。

以下测试使用的参数如下:

提示:1girl, loli, cat girl, cat ears, red hair, twintails, blue thighhighs,  striped skirt, purple skirt, green eyes, sunny, happy, smile 负面提示:nsfw, lowres, bad anatomy, bad hands, text, error,  missing fingers, extra digit, fewer digits, cropped, worst quality, low  quality, normal quality, jpeg artifacts, signature, watermark, username,  blurry 迭代次数: 40, 采样方法: Euler a, CFG 强度: 11, 种子: 1607821862, 尺寸: 768x512

embedding 使用了 laion_7plus.pt,在每一轮迭代里都应用。

只跑一次,不做任何筛选,跑之前我完全不知道这个种子的输出结果,是真正随机的结果。

以下是测试结果:

直接输出:

问题太多了,而且确实不好看。

添加 5% 美学权重:

画面整体没有太大变化,但其中的瑕疵有了不小改善。

添加 10% 美学权重:

手臂没有正常生成的问题又回来了……

添加 20% 美学权重:

画面发生了巨大变化。

一般来说,这么短的提示文本其实不容易生成这么漂亮的图。里面的角色依然符合描述。

添加 25% 美学权重:

和 20% 权重的画面差别不大,有一些元素发生了改变

添加 30% 美学权重:

此时文本提示产生的影响变得更弱了,画面开始不太符合描述了。

添加 40% 美学权重:

逐渐开始放飞自我了,发色已经不可能是红色了。但仍然是双马尾猫娘。

添加 60% 美学权重:

此时画面和提示文本几乎没有什么关系了。

根据测试,建议填加 25% 以内的权重,可以稍微改善画面的美观度而不影响内容。

再过几天,大家就可以用上了。

使用相同提示,25% 美学,随机 9 个种子,只跑一次,无筛选的结果:

与文本相符的程度降低了,风格的多样性少了,综合品质提升了。

然后再尝试一下用简短提示文本,只跑一次,无筛选,试试能不能得到高质量的Gawr Gura

cute, 1girl, gawr gura, blue eyes, blue hair, fish tail, looking at viewer, multicolored hair, one eye closed, shark tail, solo, streaked hair, tail, virtual youtuber, white hair

不是非常像,但已经很不错了。

以这种方式生成 100 张,再筛选出 10 张,应该比尝试一整天的提示文本的效果还要好。

不久之后,任何人随便生成的图都是这样的。从此不必去学习各种提升图像质量的提示词了。

PS:其实还是需要学习,因为掌握后能更精确地控制图像内容。

再来一组,仍然无筛选

我没有用任何tag来提升画面的美观程度,而且输出的图像依然遵循文本提示。

结论:

使用10%左右的权重可以在保持画面构图不变的情况下,改善一些细节的美观程度。

使用25%左右的权重可以让画面构图发生改变。让构图更美观的同时,依然遵循文本提示内容产生图片。

使用接近30%的权重会让文本提示的重要性大幅降低,使画面不符合描述。

使用超过50%的权重,会导致画面几乎不按文本提示内容生成。

两者会做加权平均,如果美学嵌入(embedding)给的权重太高,文本提示的权重则会变得很低。


这个功能用起来非常简单。更新以后,界面会多出一个下拉框,两个滑块。下拉框中选择所需要的美学嵌入,两个滑块分别控制权重和应用在哪个迭代范围中。

当然,目前代码仍存在一些问题,其实还不太能用。但只需再过几天,大家都可以用上这个功能了。

其实,这篇文章的头图也使用了这个功能。


注:知乎账号“ShadowPower”是我本人,本文发了两份。