Vanillaware Style PonyXL
詳細
ファイルをダウンロード
モデル説明
このモデルの訓練およびその生成する画像は、学習目的のみに使用されます。
私は何もしていません、ただの荷役係です。
このモデルはキャラクターパックに近く、その副次的な効果はもたらすスタイルです。
30時間以上にわたる繰り返しの試行を経て、ほとんど諦めかけましたが、最終的によりバランスの取れた効果を達成しました。何より、私の訓練仮説が検証されました。今後、これらの経験を記事としてまとめることもあるかもしれません。
しかし、手の不自然さの問題は依然として存在します。
トリガー語: vanillastyle
上記の画像から例文を確認できます。
前のバージョンのモデルのプロンプトもほとんど動作しました。
私のプロンプトは基本的に [キャラクターの特徴] + [スタイル] + [表情] + [衣装] + [カメラと行動] + [背景] の順で構成しており、必要に応じて削除または変更できます。
特にぼやけた状況が発生した場合は、ネガティブプロンプトに「thumbnail」を追加し、画像が明確になるまでその重みを増やしてみてください。
ネガティブプロンプトに「3d」を追加するとより良い結果が得られる可能性があります。一方、「realistic」や「realism」といったタグを追加すると、キャラクターの特徴が強化されます。
推奨重み: 1.0~0.6、キャラクターの外観がご希望に合うまで調整してください。
アップスケール値の推奨は約1.2~2.0、ノイズ除去強度は0.2です。
データセットは主にGeorge Kamitaniの作品に焦点を当てています。
20240907v0.2
このバージョンでは、より多くの画像にタグを付与し、残りの画像のタグは削除して、丁寧に設定したタグとの競合を防ぐためにトリガー語だけを残しました。(この方法は間違っている可能性があります。)
訓練プロセス中、データセットの画像がプロンプトによって正確に表現されないケースが多すぎました。さまざまなタグを変更して再訓練しましたが、結果は同じでした。これらの画像のデータセット内での繰り返し頻度も低く、連続性に欠けています。
最終的に、特定のキャラクターについて訓練回数を増やすことで、モデルがこれらの画像を十分に学習しない問題を防げるという記事を読みました。
そこで、データセット内の単一存在画像すべてをサブフォルダに移動し、訓練回数を2に設定し、すでに十分に学習された画像はそのまま維持しました。
しかし、これらの不連続な画像には品質上の問題が多く、現時点では修正していません。そのため、訓練回数を増やしたことで全体のスタイルに一定の影響が出ています。
次のバージョンで改善するためには、最も根本的なアプローチとしてデータセットの品質を高め、キャプション技法を有効に活用することです。品質がやや劣る画像にも同じタグを追加し、モデル実行時にはそれらすべてをネガティブプロンプトに含めるようにします。
20240715v0.1
このモデルはv0.1と見なすにとどまり、通常使用はそれほど容易ではありません。より良い結果を得るためには、データセットの画像をもっと丁寧にタグ付けするのが最善です。今後、ゆっくりとこのモデルの訓練を完了する可能性があります。
このバージョンの性能はそれほど良くなく、生成される画像はしばしば混乱した状態になります。
私は100枚以上の画像をデータセットとして収集しましたが、手動でのタグ付けには依然として多すぎます。最初はwd1.4を使ってすべての画像にタグ付けしましたが、タグの品質は依然として良くありません。(おそらく私の使い方が十分でないのかもしれません。ご意見をお待ちしています。)
結果を素早く見たくて、このデータセットでは、個人的な好みに合った一部の画像だけを手動でタグ付けしました。そのため、モデルの出力効果はこれらの画像に対してより良くなります。




















