RayVietii-A

詳細

ファイルをダウンロード

モデル説明

以下リンクから私のPixAIプロフィールにアップロードされたモデルを使用することで、PixAIユーザーはこのモデルを利用できます:

https://pixai.art/@rayvietii/artworks/models


🌟 このモデルは私のInstagramアートワークを基にしています:https://www.instagram.com/ray_vietii(「アートスタイル」をご覧ください)

このモデルは形状や手の描写にやや課題がありますが、これは私のオリジナルです。スタイル転送は完璧です。今後、時間とともに改善していきます。ネガティブプロンプトにnoise backgroundを追加してみてください。

推論パラメータ:

ステップ:少なくとも8
CFG:推奨は5
サンプラー:Euler、Euler a、DDIMを推奨
ネガティブプロンプト(オプション):noise background

試してみてください!https://pixai.art/model/1910312952549111802


🤔 少し振り返って。

DRmは文字通り私の実験対象であり、SD1.5アーキテクチャ、そして一般にSDに慣れるための導入でした。DRmはこの旅の基盤です。

一方、Papermaeは「私のアートスタイル」モデルであると想定されていましたが、失敗しました。


より技術的な内容に興味のある方へ、以下の情報が参考になれば幸いです。

このモデルにはノイズスケジューラーが組み込まれており、HSC(Hard-Skip Clamping)と呼びます。これはフォワードプロセス専用のノイズスケジューラーで、私が提案したHSCはDDPMに類似したものです。しかし、HSCはxTにおいて100%純粋なノイズではなく、約90%までノイズを加え、元のシグナルの10%を保持します。HSCのアナロジーは、DDPMがMin-SNR-gammaと不倫しているようなものです。4ステップでの品質は最高とは言えず、「この低ステップ数でも一貫性のある画像を生成できる」という主張に過ぎません。良質な画像を得るには、最低8ステップ以上の使用を推奨します。

使用したトレーニングパラメータ:

繰り返し回数:15
エポック:10

UNet学習率:1.6e-4
テキストエンコーダー学習率:6e-5
学習率スケジューラ:4回リスタート付きコサイン
学習率ウォームアップ:0

Min-SNR-gamma:0(ごめんよ、T Hangさんたち、がっかりさせた🤣🙏)

ネットワーク次元とアルファの比率:1:1(つまりalpha = dim)

=======================
ノイズスケジューラ設定:

β start = 0.0003
β end = 0.006016
t = 800

Clip Skip = 1

=======================
その他:
データセット画像数:25
スタイル正則化数:4
最小バケット解像度:128
最大バケット解像度:4095
Clip Skip:2

標準的なHoの推奨(β start=0.0001、β end=0.002、t=1000)では、xT=600付近で非常に高いノイズに達し、残り400ステップはほぼ純粋なノイズで、元の信号は5%未満となります。

「それならなぜt=600にしないの?」と疑問に思うかもしれません。しかし、それはまだデノイジング(ノイズを推測する)方法を学習する必要があります。私のβ endは非常に特異的に設定しており、xT=780で完全なノイズに達し、残り20ステップが「推測」の部分となります。


私はis_reg、すなわちスタイル正則化を利用してスタイルを強化しています。

v

私のトレーニングラッパーワークスクリプトには、サブフォルダを利用したカスタムパラメータがあります。これを「style」と呼び、style = num_repeat * multiplierと定義します。以下はその例です:

左から:

  1. style: 0.25
  2. style: 0.5
  3. style: 1.0
  4. style: 2.0

スタイルの観点から見ると、すべての4つの設定がスタイルを捉えているように見えますが、さまざまなプロンプトで多数のテストを実施した結果、2.0が一般に最も優れていると結論づけました。

このモデルで生成された画像

画像が見つかりません。