很过瘾!AI 绘画神器 Stable Diffusion 玩法大测评

2023年5月23日12:16:59设计达人评论340 views字数 4392阅读模式
很过瘾!AI 绘画神器 Stable Diffusion 玩法大测评

转载来源于“码上跃见”,感谢趣丸媒体算法团队倾力奉献!

写在前面

作者:自然语言探索家
字数:2759字;阅读时间:约9分钟

人工智能创作内容(AIGC)大家一定都不陌生,它绝对是2022年AI领域最热门的话题之一。在ChatGPT出现之前,AI绘画就凭借其独特的创意与便捷的创作工具迅速走红,让AIGC 火爆出圈,广受关注。

22年以来,以 Stable Diffusion、Midjourney、NovelAI 等为代表的文本生成图像的跨模态应用相继涌现。基于 Stable Diffusion 生成人和场景的效果都比较好,本文就带大家深入体验这款绘画软件。

Stable Diffusion 是什么?

Stable Diffusion是2022年发布的深度学习文生图模型。它主要用于根据文本的描述产生详细图像,此外它也可以应用于其他任务,如内补绘制、外补绘制,以及在提示词(prompt)指导下产生图生图的翻译。

它是一种潜在扩散模型,由慕尼黑大学的CompVis 研究团体开发的各种生成性人工神经网络。它是由初创公司StabilityAI,CompVis与Runway合作开发的,并得到EleutherAI和LAION的支持。截至2022年10月,StabilityAI筹集了1.01亿美元的资金。

Stable Diffusion的代码和模型权重已公开发布,可以在大多数配备有适度GPU的电脑硬件上运行。

简单说下,Stable Diffusion可以实现:文本生成图像、基于Prompt的图像生成图像、基于Prompt的图像修补

用户使用痛点

对于刚接触Stable Diffusion不久的用户而言,通常会存在以下一些痛点:

1. 怎么玩?刚了解不久,这玩意到底应该怎么玩呢?

2. 不好玩?会玩一点了,但出图的效果也就那样吧?

3. 玩不转?比较会玩了,它还有啥有趣的功能应用?

对于用户以上的痛点,本文将结合具体的案例进行针对性解答,为深感迷茫的你指点迷津。

怎么玩?

这个比较简单,输入自定义prompt,也就是任意你想生成的图像内容,然后点击生成就好了。如果不满意,可以再次点击,每次将随机生成不同的图片,总有一些你感兴趣的。

很过瘾!AI 绘画神器 Stable Diffusion 玩法大测评

不好玩?

玩了好久了,用户的审美也进一步提升了,对AI绘画的要求也进一步提高,但是总感觉AI生成的图像也就那样,10张里面可能就1张能够上眼,其余的就有点辣眼睛了,比如下面这种:

很过瘾!AI 绘画神器 Stable Diffusion 玩法大测评

或是,这种(梅老板的球迷求轻喷):

很过瘾!AI 绘画神器 Stable Diffusion 玩法大测评

造成生成效果不理想的原因有很多,本文列举主要的三点原因,跟大家逐一分析。

1. 没有选择正确的模型版本

不同stable diffusion版本由于finetune了不同的数据,所以各有所长,下面简单罗列下:

模型版本特性总结

  • stable-diffusion-v1-4
  • 擅长绘制风景类画,整体偏欧美风,具有划时代意义;
  • stable-diffusion-v1-5
  • 同上,但生成的作品更具艺术性;
  • stable-diffusion-2
  • 图像生成质量大幅提升,原生支持768x768等;
  • waifu-diffusion
  • 设定随机种子后,每次将生成相同的图像,无随机性,可方便复现;
  • Taiyi-Stable-Diffusion-1B-Chinese-v0.1
  • 擅长中文古诗词绘画,整体绘画风格更偏中国风;
  • Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1
  • 同上,但额外支持英文输入;
  • Stable_Diffusion_PaperCut_Model
  • 擅长剪纸画;
  • trinart_characters_19.2m_stable_diffusion_v1
  • 擅长动漫角色绘制;
  • trinart_derrida_characters_v2_stable_diffusion
  • 擅长动漫角色绘制,出图效果更稳定。

从上可以看出,不同版本的AI绘画各有所长,使用时可以挑选合适的版本进行使用。

2. 输入的prompt不够明确

从模型的角度而言,它生成的图像和用户输入的prompt相关。但从用户的角度而言,AI虽然生成了相关的图像,但是生成的图像艺术性不佳(个人主观),不够惊艳,不具美感,有些有明显的细节错误,完全不是用户想要的。

这个矛盾的根源来源于:用户潜在地带入了个人的审美(比较心理),希望AI生成的图像能更好看些,至少没有明显的绘画细节错误。但训练的数据里却没有告诉AI哪些图片才更好看,只是采用CLIP的对比损失,这样就注定了AI绘画的定位就类似搜索里的语义初召

正如引入强化学习的ChatGPT,经过pairwise排序学习后,模型才能更好的把握生成的质量,也就有了更惊艳的效果。所以,对stable diffusion改进引入排序学习后,相信AI绘画基本具备给生成的图像进行艺术性打分了,但至少目前还不行。

使用AI绘画现阶段的建议如下:输入更加详细的prompt,让AI更加了解你具体想生成什么,想达到什么效果,也就是限制AI绘画的发挥空间,避免它随意乱发挥。不知道prompt奥妙的,可以参考下面这个网站,里面收集了各式各样的AI艺术绘画,喜欢的可以研究捣鼓下:

lexica.art/(复制到浏览器打开)

很过瘾!AI 绘画神器 Stable Diffusion 玩法大测评
很过瘾!AI 绘画神器 Stable Diffusion 玩法大测评

3. 生成的参数未调好

一般生成都是有些参数可以调节的,比如:生成的图像高度(Width)和宽度(Height),生成迭代步数(Steps),图文相关性(CFG Scale),采样算法(Sampler),随机种子(Seed)等。
TT-SD的生成参数调节:

很过瘾!AI 绘画神器 Stable Diffusion 玩法大测评

InvokeAI的生成参数调节:

很过瘾!AI 绘画神器 Stable Diffusion 玩法大测评

参数总结Steps-生成迭代步数

一般取50即可,若采样算法选DPMSolve++,此处取25就可取得50步的效果;CFG Scale-图文相关性

一般在6~20之间,太高了的话生成的艺术性太差,可以多设置看看;

Sampler-采样算法

不做推荐,针对不同需求可以多试试;

Seed-随机种子

设定随机种子后,每次将生成相同的图像,无随机性,可方便复现;

Width-生成的图像宽度

一般取512就好了,不建议1024x1024的大图,可以upscale实现高分辨重建;

Height-生成的图像高度

一般取512就好了,不建议1024x1024的大图,可以upscale实现高分辨重建;

诀窍小结

诀窍:选择正确的stable diffusion版本 + 输入合适的prompt + 生成参数调节 + 三分运气

总的来说,就算比较了解AI绘画,也几率会出残图,所以还看三分运气了,不想看运气的,每次批量生成10张+,从中选几个好的就完事了。

玩不转?

迈入这个境界,用户已经对AI绘画有了初步的理解和掌握,也能根据调整自定义的prompt生成不错的样图。当然了,人对艺术的追求是无止境的,用户会苛求更完美的作品,同时也会衍生一系列其他的需求,比如:它能不能对已有的图片进行修改,进行风格迁移,或者说对图片进行变脸等有趣应用。

为了满足笔者自己,以及广大科技爱好者的好奇心,下面简单介绍下AI绘画的一些进阶的有趣玩法和推荐:

图像生成图像

1、风格迁移

把原图进行动漫风格化,同时也可以通过prompt进行额外调整。

很过瘾!AI 绘画神器 Stable Diffusion 玩法大测评

关键生成参数调节:

  • steps:生成迭代次数,steps越高生成越清晰(生成速度也越慢),一般取50,人的脸部不清晰可以调到100,不过要等挺久;
  • CFG Scale:生成的图像与自定义Prompt的相关性,CFG Scale越高图文相关性越高(艺术性也越差,可理解为过多的人为限制),一般7.5~20之间;
  • Width:设定生成的图像的宽度 >= 原图宽;
  • Height:设定生成的图像的高度 >= 原图高;
  • Sampler:采样算法,可以随意挑个,哪个好就选哪个;
  • Image To Image Strength:输入图像和生成图像之间的相似度,越低相似越高,也就是保留原有图片多少底色;
  • Fit Initial Image To Output Size:把输入的原有图片进行缩放裁剪到设置的生成高度和宽度,不推荐开启。
很过瘾!AI 绘画神器 Stable Diffusion 玩法大测评

注意:使用风格迁移,除了指定风格,也可以多添加些额外描述词,这样出图的效果更稳定些,主要是人物的脸部细节较复杂,需要prompt约束下AI绘画,生成我们真正想要的。

2、高级美颜

把原图进行脸部精修,达到不错的效果。

很过瘾!AI 绘画神器 Stable Diffusion 玩法大测评
很过瘾!AI 绘画神器 Stable Diffusion 玩法大测评

3、角色替换

例如将一只贵宾替换成一只哈士奇或是一只猫。

很过瘾!AI 绘画神器 Stable Diffusion 玩法大测评

图像修补

图像修复属于图像精调的范畴,可以看作简单的局部图像生成图像,好处是只对特定部分进行修改,其余地方维持原样。(PS看了都说绝!)

操作如下:任意选定(或涂抹)图像一些部分进行遮罩处理,然后输入自定义的prompt进行修改。下面简单示例下:

1、图像内补

很过瘾!AI 绘画神器 Stable Diffusion 玩法大测评
很过瘾!AI 绘画神器 Stable Diffusion 玩法大测评
很过瘾!AI 绘画神器 Stable Diffusion 玩法大测评
很过瘾!AI 绘画神器 Stable Diffusion 玩法大测评

2、图像外补

很过瘾!AI 绘画神器 Stable Diffusion 玩法大测评
很过瘾!AI 绘画神器 Stable Diffusion 玩法大测评

文本生成图像

1、剪纸画艺术

生成剪纸画风格的图片,首选版本:papercut-1.0,prompt增加额外关键词:papercut。

很过瘾!AI 绘画神器 Stable Diffusion 玩法大测评
很过瘾!AI 绘画神器 Stable Diffusion 玩法大测评

2、风格类风景

很过瘾!AI 绘画神器 Stable Diffusion 玩法大测评

栗子1:
meadow, valleys, rivers, blue skies, castles, magnificent, magical, birdie, light effect

很过瘾!AI 绘画神器 Stable Diffusion 玩法大测评

栗子2:
beautiful landscape photograph of snow-covered Rocky mountains, a dead intricate tree

很过瘾!AI 绘画神器 Stable Diffusion 玩法大测评

3、美食生成

很过瘾!AI 绘画神器 Stable Diffusion 玩法大测评

4、二次元头像生成首选版本:waifu-diffusion

栗子1:
girl, purple eyes, detailed eyes, red hair, short hair, closed mouth, blue shirt, cute face, looking at the viewer, solo, upper body, simple background

很过瘾!AI 绘画神器 Stable Diffusion 玩法大测评

栗子2:
boy, purple eyes, detailed eyes, blue hair, short hair, closed mouth, yellow shirt, looking at viewer, solo, portrait, universe background, highly detailed

很过瘾!AI 绘画神器 Stable Diffusion 玩法大测评

5、古诗词绘画首选版本:Taiyi-Stable-Diffusion-1B-Chinese-v0.1
栗子1:
空山新雨后,天气晚来秋

很过瘾!AI 绘画神器 Stable Diffusion 玩法大测评

栗子2:
日出江花红胜火,春来江水绿如蓝

很过瘾!AI 绘画神器 Stable Diffusion 玩法大测评

6、超分辨率重建(工具箱功能)
以InvokeAI为例,可以很方便一键进行超分辨重建,图像分辨率直接拉到4K。

很过瘾!AI 绘画神器 Stable Diffusion 玩法大测评

功能太多了,写不完了,只要你会玩prompt,就能玩出新花样!

马上玩!

不想下载本地版的朋友,也可以打开 Stable Diffusion 的网页版:beta.dreamstudio.ai/ (复制到浏览器打开)无痛在线体验。

除了国外的几款AI绘画软件,国内大厂如百度也推出了自己的 AI 画画产品:文心一格。不同的 AI 画画平台的技术实现虽有差异,但其核心能力都是输入巨量训练集,大量分类、识别已有图像,再根据关键词匹配和“缝合”,最终生成一幅随机的、世界上独一无二的AI画作。

腾讯云优惠
  • 本站内容整理自互联网,仅提供信息存储空间服务,以方便学习之用。如对文章、图片、字体等版权有疑问,请在下方留言,管理员看到后,将第一时间进行处理。
  • 转载请务必保留本文链接:https://www.cainiaoxueyuan.com/design/41691.html
匿名

发表评论

匿名网友 填写信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:

确定