Kolors VAE

📖 はじめに

Kolorsは、Kuaishou Kolorsチームが開発した、潜在的拡散に基づく大規模なテキストから画像を生成するモデルです。数十億のテキスト-画像ペアで学習されたKolorsは、視覚的品質、複雑な意味的正確性、中国語および英語文字のテキストレンダリングにおいて、オープンソースモデルおよび専有モデルを大幅に上回る優位性を示しています。さらに、Kolorsは中国語と英語の両方の入力をサポートし、中国語特有のコンテンツの理解と生成において優れたパフォーマンスを発揮します。詳細については、この技術レポートをご参照ください。

🚀 すぐに使い始める

必要条件

Python 3.8以上
PyTorch 1.13.1以上
Transformers 4.26.1以上
推奨：CUDA 11.7以上

リポジトリのクローンと依存関係のインストール

apt-get install git-lfs
git clone https://github.com/Kwai-Kolors/Kolors
cd Kolors
conda create --name kolors python=3.8
conda activate kolors
pip install -r requirements.txt
python3 setup.py install

重みのダウンロード（リンク）：

huggingface-cli download --resume-download Kwai-Kolors/Kolors --local-dir weights/Kolors

または

git lfs clone https://huggingface.co/Kwai-Kolors/Kolors weights/Kolors

推論：

python3 scripts/sample.py "一张瓢虫的照片，微距，变焦，高质量，电影，拿着一个牌子，写着“可图”"
# 画像は "scripts/outputs/sample_test.jpg" に保存されます

Diffusersとの使用方法

https://huggingface.co/Kwai-Kolors/Kolors-diffusers をご参照ください。

📜 ライセンスと引用

ライセンス

Kolorsは学術研究用に完全にオープンソース化されています。商業利用の場合、このアンケートにご記入のうえ、[email protected]まで送信し、登録してください。

我々はオープンソースコミュニティと協力し、大規模なテキストから画像生成モデルの発展を促進するためにKolorsをオープンソース化しています。本プロジェクトのコードはApache-2.0ライセンスのもとでオープンソース化されています。すべての開発者およびユーザーに対し、オープンソースライセンスを厳格に遵守し、国家や社会に害を及ぼす可能性のある目的、またはセキュリティ評価・登録されていないサービスにおけるオープンソースモデル、コードおよびその派生品の使用を避けるよう強く要請します。トレーニング中のデータの準拠性、正確性、安全性を確保するための最善の努力を払っていますが、生成コンテンツの多様性と組合せ性、およびモデルに影響を与える確率的ランダム性のため、出力コンテンツの正確性と安全性を保証できません。また、モデルは誤解を招く可能性があります。本プロジェクトは、オープンソースモデルおよびコードの使用により、モデルが誤解・悪用・不適切に利用され、データセキュリティの問題、世論リスク、またはその他のリスクおよび責任が発生した場合、一切の法的責任を負いません。

引用

本研究が役立った場合は、ぜひ引用してください！

@article{kolors,
  title={Kolors: Effective Training of Diffusion Model for Photorealistic Text-to-Image Synthesis},
  author={Kolors Team},
  journal={arXiv preprint},
  year={2024}
}

謝辞

コードベースを提供してくれたDiffusersに感謝します。
強力な中国語モデルを提供してくれたChatGLM3に感謝します。

お問い合わせ

R&Dチームおよびプロダクトチームにご連絡したい場合は、WeChatグループに参加してください。また、メール([email protected])でもお気軽にご連絡ください。

モデルタイプ	VAE
ベースモデル	Kolors
公開日	8/2/2024

詳細

ファイルをダウンロード

モデル説明