2D Gold Fish | High-Res Anime XL
詳細
ファイルをダウンロード
このバージョンについて
モデル説明
このモデルは、Seele-NoobAI-SDXL v2.1 の小さなファインチューニングとLoRAのマージです。このモデルとSeeleは、Noob 1.0 Vpred をベースとしています。
このモデルの目的は、高品質な2Dフラットなアニメと背景を生成することです。
このモデルを他のモデルと区別する主な特徴は、2048x2048までの高解像度画像をネイティブに生成できる点です。上記に掲載されたすべての画像は、ネイティブに生成されたものです。アップスケーリングやポスト編集、インペイントは一切行っていません。
なぜこのモデルを使うのか?
- フラット/アニメスクリーンキャプチャスタイルの本格的な2Dアニメを生成できます
- イラスト級の背景を生成できます
- 2048x2048までの画像を生成可能で、必要なければアップスケーリングの必要がありません
- NoobベースかつV-predであるため、Noobのすべての知識とV-predの利点を利用できます
- Noob/Illustrious LoRAはほぼ問題なく動作します(多くのLoRAを試していません)
どこが劣るのか?
手と足の生成は安定しません。2048x2048や推奨されていない解像度で生成すると、ほとんどの場合、画像が崩れます。2Dスタイルへのバイアスのため、一部のアーティストやLoRAの影響を受けます。また、都市や屋内環境などの背景タイプは特に不自然になります。
どうやって使うのか?
プロンプトはSeeleのフォーマットに従います。プロンプトの始めに、Danbooru タグを使って画像を記述してください。プロンプトの最後に以下を追加してください:
masterpiece,best quality,absurdres,highres,high resolution,
ネガティブプロンプトには、以下だけで十分です:
worst quality
以下は、画像の品質向上に役立つと感じたいくつかのネガティブ推奨タグです。
bad perspective: 背景の品質を少し向上させます。
too many fingers,bad hands: 手の修正を試みる際、これらのタグを追加することで手に重点を置くことができます。
ringed eyes: ときどき瞳の周りに輪が生成されます。このタグをネガティブに追加することで回避できます。
flat color: 学習に使用された素材の影響で、2Dスタイルが過度に単純化されることがあります。2Dスタイルを強調したい場合は、このタグをネガティブに追加してください。
minimalism: flat colorと同様に、2Dスタイルを強調しますが、はるかに強く作用します。flat colorと併用すると、主にフラットな2D素材に埋もれていた学習素材のグラデーションスタイルが浮き彫りになります。
このモデルでどうプロンプトを書くのか?
これはV-pred Noobベースのモデルです。つまり、明確にプロンプトを書かなければ、期待する結果は得られません。Danbooru タグの使い方に非常に慎重になる必要があります。例画像をよく研究し、Danbooru タグに精通してください。矛盾するタグや意味の通らない組み合わせは、悪い結果を生み出します。
特に背景の生成において顕著です。たとえば、「forest」だけをプロンプトに書き、InuyashaのSangoのような「qt 1girl」を追加した場合、背景の森林がうまく生成されません。これは「forest」というタグがあまりにも広範囲すぎるためです。代わりに、「tree,grass,rock,moss,leaf,tree shade」などの森林に関連する具体的なタグを用いてください。Sangoというキャラクターだけでなく、背景にもモデルが注目するようにする必要があります。
パラメータ:
サンプリング: Euler Ancestral CFG++ または Euler/Ancestral
スケジュールタイプ: DDIM
ステップ数: 48 [44-60](それ以下にすると品質が低下します)
CFGスケール: 1(CFG++用) 5(通常用)
VAE: SDXL Anime VAE Dec-only B3(組み込み)
その他の情報については、こちらをご覧ください。
推奨解像度
1568x2048, 1408x2048, 1728x2048, 1024x2048
他にも使用可能な解像度はありますが、これらが最もよく使用するものです。これらの解像度は、手や足の不具合を最も少なく抑えます。もちろん、デフォルトのXL解像度(または他の解像度)も使用できますが、高品質な結果を活かさないなら、このモデルを使う意味はありますか?
言うまでもありませんが、このような高解像度と高ステップ数を使用すると、生成時間が大幅に長くなります。5090で1568x2048の画像を生成するのに、約25秒かかります。画像品質と生成時間のトレードオフを自分で判断する必要があります。
なぜこのモデルを作ったのか?
もともと、別のチェックポイントを作成・公開するつもりは全くありませんでした。しかし、Seele を知ったことで興味が湧きました。最初は、MeMax のデータを使用したLoRAから始めました。結果は気に入りましたが、背景が貧弱だと感じました。そこで、Worldly のデータでLoRAを訓練しましたが、背景の改善はほとんどありませんでした。
この時点で、キャラクタースタイルには影響を与えられるのに、なぜ背景にはこれほど影響を与えられないのかと考え始め、ある瞬間に閃きました。モデルそのものをファインチューニングしてみよう!私はこれまで本格的なファインチューニングをしたことがありませんでしたが、LoRAとそれほど大きく変わらないだろうと考えました。
数日間の試行錯誤の末、小さなファインチューニングが完成しました。MeMax のデータをほぼすべて使用し、Worldly とCoMix の背景素材も加えました。
しかし、結果は……あまり目立たなかったのです。
頭を抱えた末、ファインチューニングの上に新たなLoRAを訓練することにしました。つまり、MeMax とWorldly と同じ素材を再利用しました。その結果は天地の差でした。アニメスタイルが改善されただけでなく、背景も大幅に良くなりました。
この時点で、私は何か特別なものを手に入れたと確信しました。そこで、バッキング(モデルの組み合わせ)の旅が始まりました。この旅を通じて、MeMax とWorldly のデータセットに多くの変更と改善を加えました。上記の結果は、数週間の訓練・テスト・失敗の集大成です。完璧ではありませんが、この状態まで到達できたことにとても満足しています。
最後に
素晴らしいSeeleモデルを作成してくれたwaw1w1に心から感謝します。彼女のモデルがなければ、私はこのプロジェクトに手を出すことはなかったでしょう。このモデルは、ベースにしたすべての素材と同じライセンスに従います。責任を持ってお使いください。




















