快手开源文生图模型-Kolors，性能超越MidJourney和SD3！

2024-7-7

可灵（Kling）文生视频模型已经火到了国外，第一次看到Reddit上一群老外讨论如何申请中国手机号来排队体验，回想我们当时申请ChatGPT账号时的情形，有道是天道好轮回，苍天饶过谁！

而就在昨天，快手又开源了基于隐空间扩散的文生图大模型Kolors（可图），综合性能超越MidJourney和SD3，代码权重一起发布，外网再次炸锅。

模型主要特点

训练数据：基于数十亿条图文数据进行训练，包括大量AI合成数据和中文文本数据。
训练方法：采用两阶段方法进行训练，包括使用广泛知识的概念学习阶段和利用精心挑选的高美学数据的质量改进阶段。
提示词语言：文本编码器采用了GLM而非T5，这使得它在理解和生成中英文文本方面表现出色，尤其是在复杂文本的理解和渲染上。
提示词Tokens限制：支持256上下文Token数量，而SD3只允许75个Tokens
文本渲染能力：支持中文文本渲染。
模型架构：采用主流的U-Net架构而非更先进的DiT架构。这个有点遗憾，因为社区正在向DiT架构迁移，包括SD3、PixArt-Σ，以及腾讯的混元DIT都采用了新架构。

模型性能

Kolors 在人类评价中表现优异，特别是在视觉吸引力和文本遵循度方面，与市场上现有的模型相比，如 SD3、DALL-E 3 和 Playground-v2.5，以及商业模型 Midjourney-v6，Kolors 展现了更高的性能，在整体满意度和视觉质量上完胜。