Detail slider for Z-Image

詳細

ファイルをダウンロード

モデル説明

画像を見た人は、図1/2がAI-TOOLKITのテスト画像から+2から-2の重みを用いて直接測定されたことがわかるはずです。

すでに二次的な色変化が生じていることが明らかです。

これはコントラストが強化されたため避けられません。

興味のある方は、以下の正負のコンセプトを用いて、LoRaなしで直接画像を生成してテストできます。

その後、すべてのプロンプトを削除してLoRaを適用してテストすると、非常に興味深い結果が得られます。

実際、Z-image自体は非常に強力なディテールを持っているため、これは必ずしも必要ではないかもしれませんが、スライダーLoRaを扱う人は、anime-photo、detail、old-youngのようなコンセプトからテストを始めるべきです。

以下はLLMが補助して生成した説明です。


💡 AI-TOOLKIT Z-Image スライダー LoRA 訓練ガイド(Civitai公開形式)

このガイドでは、AI-TOOLKITのConcept Slider機能を活用して、Z-Imageモデル用のLoRAを訓練し、強力なコンセプト制御(例:Detailスライダー)を実現し、一般的なエラー(例:GitHub Issue #554)に対処します。

✨ I. Concept Slider LoRA 概要

Concept Slider LoRAは、対立する2つのコンセプトに対するモデルの理解を微調整する高効率な訓練手法であり、精密な連続的な画像制御を可能にします。

特徴説明原理2つの極端なプロンプトの間で、制御可能な連続的な遷移(スライディング軌道)を生成。重み制御LoRAの重みは通常-1.0から+1.0(極端な場合最大$\pm 2.0$)で調整し、コンセプトを強化または抑制。データセット要件非常に低い。既存の知識を調整するため、小型で一般的なデータセットで十分。訓練ツールAI-TOOLKITのConcept Sliderモード。


⚙️ II. AI-TOOLKIT 訓練設定(UI/YAML)

以下は、Z-Image Turboモデル用にDetail/Textureスライダーを訓練するための推奨設定と主要パラメータです。

1. 主要訓練パラメータ

パラメータ推奨値**例設定(参考)備考モードConcept SliderYAMLでチェックまたは設定必須。ベースモデルZ-Image-TurboZ-Imageシリーズのモデルを使用すること。ネットワークランク4または8訓練の効率と安定性のため、低いランクを推奨。学習率(LR)$1 \times 10^{-3}$($0.001$)従来のLoRA訓練(通常$1 \times 10^{-4}$)より大幅に高い。ステップ数300 - 400ステップConcept Sliderは通常迅速に収束する。(例では1000ステップ使用)解像度$512 \times 512$コンセプト調整には低解像度で十分。(例では$256 \times 512$使用)

2. スライダープロンプト設定(Detailスライダー例)

この訓練の目的は、画像のディテールとテクスチャーを制御するスライダーを作成することです。

パラメータ名例設定目的と範囲****ターゲットクラスdetailスライダーが影響を与える主要なコンセプトを定義。例は detailアンカークラスplain white background訓練中に三次的な幻覚(意図しない色や明るさの変化)を防ぐための中立的な参照点を提供。ポジティブプロンプト(ターゲット:高ディテール)extremely detailed, intricate details, high resolution textures, fine details visible, sharp focus, clear photorealistic quality, masterpiece detail level, realistic surface textures, visible material properties, natural wear and tear, subtle imperfections, authentic textures, tactile quality, complex lighting, subtle shadows, natural light interaction, realistic reflections, ambient occlusion, detailed highlights and shadowsLoRA重みが**正(例:+1.0)のときに、これらの高ディテールおよび複雑なテクスチャーの概念を強化。ネガティブプロンプト(ターゲット:低ディテール)simple, basic details, low resolution, blurry, soft focus, simplified textures, cartoon style, minimal detail, flat rendering, smooth surfaces, perfect materials, no texture variation, artificial appearance, plastic-like finish, uniform textures, flat lighting, simple shadows, no reflections, basic illumination, uniform lighting, cartoon lightingLoRA重みが負(例:-1.0)**のときに、これらの簡素化された低ディテールの概念を強化。


⚠️ III. Z-Image 訓練エラー解決法(Issue #554)

Z-Image-TurboモデルでConcept Sliderを訓練する際、特にbatch_size > 1またはテキスト埋め込みキャッシュを有効にした場合、以下のエラーが発生することがあります:

ValueError: Batch size of latents must be the same or half the batch size of text embeddings

A. 推奨解決法:設定修正(低リスク)

このバッチサイズエラーを解決するには、テキスト埋め込みキャッシュを無効化し、batch_sizeを$1$に設定することが強く推奨されます

YAML

train:
  # ... その他の訓練パラメータ
  cache_text_embeddings: false # 💡 キー:キャッシュを無効にするためにfalseに設定
  batch_size: 1               # batch_sizeを1に設定することを推奨
  gradient_accumulation: 1    # batch_size: 1と併用することを推奨

B. コード修正(コードパッチ - 高リスク

これはGitHubスレッドで議論された代替解決策です。他の機能に未知のバグを導入する可能性があるため、注意して実施してください

  • ファイルパス: /toolkit/prompt_utils.py

  • 修正内容: 約265行目でtext_embedsの処理を置き換えます:

    • text_embeds = embed_list

    • 置き換え: text_embeds = padded

このモデルで生成された画像

画像が見つかりません。