FLAN-T5-XXL (Text-Encorder only)
詳細
ファイルをダウンロード
モデル説明
FLAN-T5-XXL(テキストエンコーダー専用)
FP8およびGGUFフォーマットは圧縮されたZIPファイルとして配布されています。使用前に、お好みの圧縮解除ソフトウェアで展開するか、Hugging Faceのページからダウンロードしてください。
FLAN-T5-XXLは、T5-XXL v1.1を微調整したバージョンで、精度とパフォーマンスの向上を目的としています。
元のFLAN-T5-XXLモデルはGoogleのHugging Faceページで利用できます。
Flux.1、SD3.5、HiDreamと組み合わせて使用する場合、T5-XXL v1.1をFLAN-T5-XXLに置き換えることで、プロンプト理解の向上と画像品質の強化が実現されます。
このモデルは、テキストエンコーダー部分のみを抽出して最適化され、画像生成ワークフローに特化しています。
モデルのバリエーション
+------------+--------+----------+-----------+
| Flan-T5xxl | Size | Accuracy | Reccomend |
+------------+--------+----------+-----------+
| FP32 | 19 GB | 100.0 % | 🌟 |
| FP16 | 9.6 GB| 98.0 % | ✅ |
| FP8 | 4.8 GB| 95.3 % | 🔺 |
| Q8_0 | 5.1 GB| 97.6 % | ✅ |
| Q6_K | 4.0 GB| 97.3 % | 🔺 |
| Q5_K_M | 3.4 GB| 94.8 % | |
| Q4_K_M | 2.9 GB| 96.4 % | |
+------------+--------+----------+-----------+

使用方法
ダウンロードしたモデルファイルを、以下のディレクトリのいずれかに配置してください:
models/text_encodermodels/clipModels/CLIP
ワークフロー内で、標準のT5-XXL v1.1モデルの代わりにこのモデルを選択してください。
FP32フォーマット
FP32フォーマットは最高品質の画像を提供します。
Stable Diffusion webUI Forge
FP32フォーマットのテキストエンコーダーを使用するには、Stable Diffusion WebUI Forgeを--clip-in-fp32引数付きで起動してください。
ComfyUI
起動時に--fp32-text-enc引数を有効にすることで、FP32テキストエンコーダーを使用し、最適な結果を得られます。
ComfyUIでのGGUFフォーマット
2025年4月13日現在、ComfyUIのデフォルトDualClipLoaderノードにはデバイス選択オプションが組み込まれており、モデルをどこに読み込むかを選択できます:

cuda→ VRAMcpu→ システムRAM
Flux.1のテキストエンコーダーはサイズが大きいため、デバイスをcpuに設定してモデルをシステムRAMに保存することで、パフォーマンスが向上することが多いです。
システムRAMが16GB以上ある場合、GGUFの量子化よりもシステムRAMにモデルを保持した方が効果的です。したがって、多くのユーザーにとって、ComfyUIでのGGUFフォーマットのメリットは限定的です。
ComfyUIでFlux.1を実行する場合は、FP16またはFP32テキストエンコーダーを使用してください。
比較
ヒント:CLIP-Lもアップグレードしましょう
さらに良い結果を得るには、FLAN-T5-XXLとアップグレードされたCLIP-Lテキストエンコーダーを組み合わせることを検討してください:
LongCLIP-SAE-ViT-L-14(ComfyUI専用)
FLAN-T5-XXLと強化されたCLIP-Lモデルを組み合わせることで、画像品質をさらに向上させることができます。
ライセンス
このモデルは、GoogleのFLAN-T5-XXLを基にしており、こちらもApache 2.0ライセンスで提供されています。
更新履歴
2025年8月22日
「なぜFP32テキストエンコーダーを使うのか?」 を追加
2025年7月24日
GGUFモデルを再アップロード、モデルサイズを縮小、メタデータを修正


