快手开源文生图模型Kolors,支持写中文,测评赶超MidJourney v6
Kolors是快手Kolors团队开发的基于潜在扩散的大规模文本到图像生成模型。经过数十亿个文本图像对的训练,Kolors 在视觉质量、复杂语义准确性以及中英文字符的文本渲染方面比开源和专有模型表现出显著优势。此外,Kolors支持中英文输入,在理解和生成中文内容方面表现出强大的性能。
目前截止4月份的数据来一起测评,官方邀请了50位图像方面的专家来测试,衡量维度为:画面质量、图文相关性、整体满意度三个方面。Kolors 在整体满意度方面处于最优水平,其中画面质量显著领先其他模型。实属强大,超过了MidJourney-v6。
在机器测评上,Kolors 获得了最高的 MPS 分数,这与人工评估的结果一致。
最关键的,Kolors完全开源,ComfyUI插件也给出了。
下面是官方给出的测评图片,可以看到,质量相当不错,并且支持中文提示词,出的图里面还能支持中文,这也太强了,据我所知,最新的SD3都不能出中文的,这波Kolors实属震惊到我了。
最低要求
- python 3.8及以上版本
- pytorch 1.13.1及以上版本
- transformers 4.26.1及以上版本
- 建议使用CUDA 11.7及以上
插件安装
插件官网:
https://github.com/kijai/ComfyUI-KwaiKolorsWrapper
节点管理器里面搜索 KwaiKolorsWrapper
安装好了重启极客
模型安装
下面是模型主页地址
https://huggingface.co/Kwai-Kolors/Kolors/tree/main
下载上面的所有文件,下载好了放到下面路径下即可
ComfyUI/models/diffusers/Kolors
模型比较大,有17.6G,我这里给出网盘地址,有需要的后台发送kolors即可获取网盘地址。
上面安装好了就可以直接使用了,官方给了2个工作流,一个文生图,一个图生图
先来看基础的文生图
参数都不用变动,保持使用fp16,这个也是目前最好用的,不过占用显存有点高,如果自己电脑配置不行,可以调成 quant8 或者 quant4。
Kolors支持中文提示词,所以我后面测试的都是用中文来生成的,来看看我生成的几张效果图,看看效果是否惊艳到你了。
(杰作),(最好的质量),(超详细),(最好的插图),(最好的阴影),(一个极其精致和美丽),动态角度,精细细节,后启示录,赛博朋克,电影光,赛博屏幕框架,(只有一个女孩),娃娃,极其精致美丽的女孩,(((神))),战斗姿态,(空洞的眼睛),(冷脸),((脸上的血)),厌恶,悲伤,很长的头发,粉红色的头发,光环,(((许多魔术圈))),美丽细致的眼睛,蓝眼睛,成长的眼睛,((血统)),(白色机械外骨骼:1.1),机械装甲,(成熟的女人),(举起手臂),飘扬的头发,风,((撕裂的电线)),散落的蓝色颗粒,((损坏的实验室))(((机械室))),((全息投影)),室内,(精致的手臂和手):0.9
((名作)),极品,((插画)),原创,极其细致的壁纸,(((京剧)),(素描),((水墨画)),(((泼墨)),((((染色)))),((国画)),((京剧)),(素描),(水墨画),(泼墨),染色,((国画)),((神话中的猛兽)),{{牛}},{ {长角}},{ {背上有翅膀}},{红黑翅膀),(独舞),山,大,恶魔的,残暴的
(((杰作))),(((最好的质量))),((超详细)),(插图),((极其精致和美丽)),动态角度,浮动,(美丽细致的眼睛), (详细的光)(1个女孩),萝莉,漂浮的头发,发光的眼睛,尖尖的耳朵,白头发,绿色的眼睛,露背连衣裙,羽毛,树叶,自然,(阳光),河流,(森林),(绘画),(素描) ),(盛开)
((杰作)),((精品)),(超详细),(插画),((极美)),(动态角度),中国龙,瓷器,(美丽细致的眼睛) ,可爱的粉红色眼睛,绿色的瞳孔,详细的脸,上身,凌乱的飘发,蓬乱的头发,专注
一张高对比度的照片,中国熊猫骑在马上,手里举着牌子,上面写着“破局牛逼”,背景是一条悬崖边上
可以看到,Kolors也支持输出中文,我测试下来,成功率特别好。
批量出图
Kolors也是支持批量出图的,不过需要用 | 来间隔开
下面是案例:
一张瓢虫的照片,微距,变焦,高质量,瓢虫举着一个木牌,上面写的“破局牛逼”的文字 | 现代化高楼大厦,大厦广告屏上面投放着 “破局牛逼”的文字 | 高质量,中国元素的太极八卦龙,八卦中心刻着4个大字“破局牛逼” | 拳击馆擂台上,一个礼仪小姐,长发,短裙,双手举着一个牌子, 上面写的“破局牛逼”的文字
图生图流程
可以看到图生图和上面文生图很类似,就多了一个加载图片、VAE编码,然后Latent接入到Kolors Sampler的Latent入参节点这里,然后调整宽高一级重绘幅度即可,想要接近原图构图效果就在0.5左右即可,想变化多一些就0.8左右。
整体测试下来,效果还是很惊艳的,不输Midjourney,并且由于支持中文输入和输出,可玩性太强了,还是开源的模型,我只能喊一句牛逼,希望国产大模型越来越好,加油!