Z-Image Turbo - Quantized for low VRAM

詳細

ファイルをダウンロード

モデル説明

Z-Image Turboは、AlibabaグループのTongyiラボチームが開発した、Luminaアーキテクチャに基づく6Bの画像モデルZ-Imageの蒸留版です。ソース: https://huggingface.co/Tongyi-MAI/Z-Image-Turbo

私はbf16からfp8までの量子化バージョンをアップロードしました。これにより、重みの精度(およびそのサイズ)が半分になり、質の大部分を維持しながら大幅なパフォーマンス向上が実現されています。推論時間は通常の「非蒸留」SDXLと同程度ですが、プロンプトの忠実度や解像度・詳細度は向上しています。低性能PCにも最適です。

特徴

  • 軽量: Turbo版は少ないステップ(5-15)でトレーニングされ、fp8量子化版のサイズは約6GBで、低性能GPUでも利用可能です。

  • 検閲なし: 他のモデル( Flux )が検閲する多くの概念が、そのまま生成可能です。

  • プロンプト忠実度が高い: 強力なテキストエンコーダーQwen 3 4Bのおかげで、Flux.1 Devと同等の忠実度を実現。

  • テキストレンダリング: Flux.1 Devと同等、一部では2倍小さいにもかかわらずさらに優れているとも評価されています(ただし、Qwen Imageほどではない可能性があります)。

  • スタイルの柔軟性: 写実的画像、アニメ、絵画、ピクセルアート、ローポリ、コマックス、イラスト、ポップアートなど、多様なスタイルを生成可能。

  • 高解像度: アップスケーリング前の段階で最大2MPの解像度をネイティブに生成可能。

依存関係

使用方法

ワークフローとメタデータはショーケース画像に含まれています。

  • ステップ: 5 - 15。

  • CFG: 1.0。これによりネガティブプロンプトは無視されるため、不要です。

  • サンプラー/スケジューラ: アートスタイルによります。以下が私の調査結果です:

    • 写実的:

      • ベース画像におすすめの組み合わせ: euler + betasimple、またはbong_tangentRES4LYFより)—低ステップ(5)でも高速かつ高品質。

      • 多段階サンプラー(例: res_2sres_2mdpmpp_2m_sdeなど)は優れていますが、同じステップで40%ほど遅くなる場合があります。sgm_uniformなどのスケジューラが必要な場合も。

      • ほぼすべてのサンプラーが問題なく動作します: sa_solverseeds_2er_sdegradient_estimation

      • 結果が悪かったりパフォーマンスが劣るため、(特にベース画像では)避けるべきサンプラー/スケジューラ:

        • dpm_adaptive サンプラー

        • karras スケジューラ

      • 一部のサンプラーとスケジューラはテクスチャを過剰に追加するため、シフト値を上げて調整できます(例: ComfyUIのModelSamplingAuraFlowノードでシフトを7に設定)。

    • イラスト(例: アニメ):

      • res_2mまたはrk_betaがよりシャープでカラフルな結果を生み出します。
    • その他:

      • まだテスト中です。安全のため、現時点ではeuler + simpleを使用してください。
  • 解像度: ネイティブで最大2MP。迷った場合は、SDXL、Flux.1、Qwen Imageなどと同様の解像度(512pxまでSD 1.5相当でも動作)を使用してください。例:

    • 896x1152

    • 1024x1024

    • 1216x832

    • 1440x1440

    • 1024x1536

  • アップスケールおよび/またはディテール補正は、目、歯、髪などの細部を修正するために推奨されます。メインカバー画像に組み込まれたワークフローを参照してください。

    • 他のモデルのように低ステップのサンプラーを使うのではなく、Z-ImageはKSampler (Advanced)(ComfyUI)など、開始ステップを設定できるノードを使用すると最も効果的です。

    • euler + simpleのような組み合わせを使用する際、シフトを7に設定してください(一部のサンプラー/スケジューラは独自のシフト値を持ちますが、それでは効果がありません)。これにより、過剰なテクスチャやノイズを防げます。

  • プロンプト: 公式には自然言語による長く詳細なプロンプトが推奨されていますが、私はカンマ区切りのキーワード/タグ、JSON、その他すべてを試しました。どれも問題なく動作します。より正確な結果を得るには、英語または中国語( Mandarin)でプロンプトを記述してください。

FAQ

  • このモデルは検閲されていませんか?

    • はい、ただし、特定のコンセプトについてはトレーニングが不十分な可能性があります。自分で試してみてください。
  • アップスケール後にテクスチャが多すぎる理由は?

    • 上記のアップスケールに関する使用方法をご覧ください。
  • 私のPCで動きますか?

    • SDXLが動くなら、Z-Image Turbo fp8も動く可能性が高いです。動かない場合は、RAMまたはVRAMの増設を検討する良いタイミングかもしれません。

    • 私のすべての画像は、32GB RAM、RTX3080 Mobile 8GB VRAM搭載のノートPCで生成しました。

  • ComfyUIでエラーが発生しました。対処法は?

    • ComfyUIが最新バージョンであることを確認してください。そうでない場合は、エラーメッセージをコメント欄に投稿してください。コミュニティがサポートします。
  • ライセンスは制限が少ないですか?

    • Apache 2.0ライセンスであり、非常に制限が少ないです。

このモデルで生成された画像

画像が見つかりません。