Kolors VAE
详情
下载文件
模型描述
📖 引言
Kolors 是由快手 Kolors 团队开发的基于潜在扩散的大型文本到图像生成模型。该模型在数十亿文本-图像对上进行训练,在视觉质量、复杂语义准确性以及中英文文本渲染方面,相较于开源和专有模型均展现出显著优势。此外,Kolors 支持中文和英文输入,在理解和生成中文特定内容方面表现卓越。更多详情请参阅此技术报告。
🚀 快速开始
环境要求
Python 3.8 或更高版本
PyTorch 1.13.1 或更高版本
Transformers 4.26.1 或更高版本
推荐:CUDA 11.7 或更高版本
- 克隆仓库并安装依赖项
apt-get install git-lfs
git clone https://github.com/Kwai-Kolors/Kolors
cd Kolors
conda create --name kolors python=3.8
conda activate kolors
pip install -r requirements.txt
python3 setup.py install
- 下载权重(链接):
huggingface-cli download --resume-download Kwai-Kolors/Kolors --local-dir weights/Kolors
或
git lfs clone https://huggingface.co/Kwai-Kolors/Kolors weights/Kolors
- 推理:
python3 scripts/sample.py "一张瓢虫的照片,微距,变焦,高质量,电影,拿着一个牌子,写着“可图”"
# 图像将保存至 "scripts/outputs/sample_test.jpg"
使用 Diffusers
请参阅 https://huggingface.co/Kwai-Kolors/Kolors-diffusers。
📜 许可与引用
许可
Kolors 完全开源用于学术研究。如需商业用途,请填写此问卷 并发送至 [email protected] 进行注册。
我们开源 Kolors 是为了与开源社区协作推动大型文本到图像模型的发展。本项目代码在 Apache-2.0 许可下开源。我们诚挚敦促所有开发者和用户严格遵守开源许可协议,不得将开源模型、代码及其衍生品用于可能危害国家和社会的任何用途,或用于未经安全评估和注册的服务。请注意,尽管我们已尽最大努力确保训练数据的合规性、准确性和安全性,但由于生成内容的多样性和可组合性,以及模型受概率随机性影响,我们无法保证输出内容的准确性和安全性,且模型易受误导。本项目不对因使用开源模型和代码而导致的数据安全问题、舆论风险,或模型被误导、滥用、误用或不当使用而产生的任何风险与责任承担任何法律责任。
引用
如您的研究受本项目启发,请引用我们:
@article{kolors,
title={Kolors: Effective Training of Diffusion Model for Photorealistic Text-to-Image Synthesis},
author={Kolors Team},
journal={arXiv preprint},
year={2024}
}
致谢
联系我们
如需向我们的研发团队和产品团队留言,欢迎加入我们的微信群。您也可以通过电子邮件 ([email protected]) 与我们联系。

