NeoSD
詳細
ファイルをダウンロード
モデル説明
概要
このフルFTは、SD1.5モデルを根本的に改善することを目的としています。複数キャラクターの表示、ポーズの多様性、安定したボディ構造、および追加情報が含まれています。
ベースモデルはNAI2の要素を取り入れたアニメスタイルのモデルであり、数千枚の画像を繰り返し小さな規模でFTしてバージョン1を実現することを目指しています。複数のベースモデルを原材料として作成し、最終的にそれらを統合・調整しながら学習手法を改善する予定です。
高解像度出力は一定程度対応していますが、推奨されません。
明示的には言及していませんが、すべてのサンプルはLCM経由の低解像度出力です。
注意:これはSD1.5であるため、まず出力したい内容を明確に指定してください。多くの場合、品質プロンプトはただの煩わしさに過ぎません。
現在、私は5種類のFT材料を持っています。しばらくFTモデル材料の使用を停止し、これら5種類を既存の材料と組み合わせて新しいモデルを探索します。
Qwenの出力は特に興味深いわけではありませんが、安定しておりめったに崩れません。そのため、ベースとして0.3(拡張が必要な場合あり)を使用し、0.4のようなNSFW要素で補完する計画です。
既存のモデルと組み合わせると、TeatimeDream Neoのようなものが生成されます。
ver.0.31RE
私は、SD1.5に欠けている多くの要素を含むQwen-imageシリーズに注目しています。0.31Rも良いベースモデルだったと考えています。0.31REはその応用例です。
Qwen-imageであるため、アジア系キャラクターが多くなるのは自然ですが、一部のユーザーはそれを好まないかもしれません。写真モデルとして、いくつかの部分はまだ不完全です。
したがって、このバージョンは構成を可能な限り維持しつつ、欧州スタイルの出力を目指しています。一般的には、OUT側をSDXLシリーズに置き換えたと考えてください。より正確には、0.31Rを基にSDXLシリーズを学習させたモデルでOUTレイヤーの約90%を置き換えました。
Distill SDXLを使用する場合、常に服を脱がせる必要が減ります。
ver.0.31R
バージョン0.31はQwen-imageのアニメスタイル部分を蒸留したようなものでした。0.31Rは、Qwen-Imageの写真スタイル部分を(某种程度)蒸留したものです。小規模であるため効果は限定的ですが、依然としてQwen-imageの雰囲気を持つ画像を生成します。また、一部のAuraFlow素材も含まれています。
モデルは特別な調整なしでFTのまま生成されています。
当然、画像はQwen-imageと同じにはなりません。顔が小さく表示される傾向があるため、サンプルではHiRes.Fixを使用しています。
ver.0.32L
0.32の不安定な部分をLoRAで補完しようと試みました。アニメ画像は現在比較的安定していますが、1つのLoRAに多くのキャラクター要素を詰め込んだため、NSFW要素が若干増えています。これは私が長く使用していたLoRAの一つですが、CIVITAIのアニメイラストとキャプションをクロールして作成したため、NSFW要素が強すぎる問題がありました。使用前にレイヤーを調整しましたが、修正しすぎてしまった部分があります。それでも、一部の画像はアニメイラストのようには見えません。
大きな問題ではありません。理想的には複数のLoRAで調整すべきですが、この方法でもいくつか興味深い画像が得られます。
ver.0.32
0.31のデータを確認していたところ、一部のキャプションデータが完全に欠落していることに気づきました。
一部の画像の拡張子、あるいは参照ファイル自体のフォーマットが不正でした。文字コードの他の微細な問題も修正したつもりでしたが、うまく動作する部分とまったく動作しない部分があります。また、収束速度は前回より低くなっています。おそらく150エポック程度で安定すると思いますが、ここでは90エポックのデータを抽出しました。
基本的な問題がほとんど改善されておらず、品質が向上したとは言えませんが、このバージョンでは前回のデータのエラーを修正しています。
ver.0.31
前回、Qwen-imageの出力を主に使用する0.3シリーズをベースモデルと述べましたが、0.3は画像リソースが極端に少なく(シードを変更してもQwen-imageの画像はほとんど変化しません)、そのためリソースを追加しベースモデルを再構築してバージョン0.31を作成しました。安定はしていますが、Qwen画像はやや退屈でした。そのため、多少の多様性を追加しました。
実際、0.3は前例のない収束速度で訓練されたモデルでしたが、リソースを増やしたことで予想以上に不安定になりました。ボディ構造や指の部分が非常に不安定です。
さらに予想外なことに、画像自体が不安定です。安定したアニメ画像を生成することを意図していましたが、時々セミリアリスティックな画像になってしまうことがあります。masterpieceやbest qualityなどのプロンプトを削除してみてください(場合によっては追加した方が良いこともあります)。これはベースモデルやキャプションに残っている問題による可能性があります。
このようなことから、0.32および0.33のリリースが近づいているかもしれません。
とはいえ、0.31はこれまでのSD1.5モデルでは見られなかった画像を生成できるベースモデル素材であると私は考えています。しかし、FT後の調整がされていない状態であるため、単独での使用は推奨しません。
いつものように、このサンプルは512x768ピクセルのLCM出力をそのまま使用しています。中距離の顔は明らかにHiRes.FixまたはAdetailerで処理すべきですが、今回は一切処理していません。
ver.0.5
これは大規模な動きを含むモデルです。収束はそれほど悪くありませんでしたが、画像が不安定だったため、100エポック訓練しました。
ver.0.4
このバージョンは以前より異なる素材とより多くの画像を使用しています。約10,000枚の画像を使用し、60エポックかかりました。
学習の収束速度が遅く、ボディ構造や細部に影響を与えましたが、うまくいった際には美しい画像を生成します。0.1および0.2と類似のシリーズの素材を使用しているため、類似の画像を生成します。
各プロンプトへの応答には明確な長所と短所があり、いくつかの癖があるかもしれません。主に素材用としているため、統合する際の活用方法を検討します。
ver.0.3
これはQwen-imageの出力を基にしています。以前のバージョンもありますが、SFW要素まで含めてほぼ笑えるほどQwenのような雰囲気でした。0.3自体はその要素を排除して再生成したため、Qwen感はやや薄れています。今回はQwen環境の問題によりVAEに不具合が生じ、指の精度と色再現性が劣化しました。しかし、SD1.5用の新しい素材としては悪くないと思います。
ver.0.1+0.2K
単純な調整ではあまりかわいくならなかったため、いくつかかわいらしいLoRA(通常は副作用が強すぎるため使用しません)を追加しました。うまくいけばそのまま使用できますが、指やその他の部分が壊れやすい傾向があります。Adetailerで顔にのみ適用した方がよいでしょうか?(LoRAだけリリースすればよかったのでしょうか?)
ver.0.1+0.2
マージの例です。0.1の構成と0.2のキャラクターおよび絵画スタイルを組み合わせ、普段使用しているLoRAツールを軽く適用しています。中距離の顔と背景の細部に焦点を当てました。いくつかの粗さを整えただけですが、通常使用に十分だと考えています。
ver.0.2_38
このバージョンは0.1とは完全に異なる素材シリーズを使用しています(類似した画像は多数あります)。このバージョンはキャラクターやアニメイラストの面でより安定していると考えられますが、ポーズの多様性は0.1より劣ります。
ver.0.1_41
それなりにうまく動作しましたが、100エポックは多すぎると思ったため、41エポックで再構築し、素材とキャプションを修正しました。エポックを減らした代わりに、素材数を1.5倍(約4,500枚)増やしました。また、アニメアートスタイルの統一を試みました。細部はやや粗く、指も若干不安定です。顔の細部はHiRes.FixまたはLoRAで簡単に修正できるため、問題ないでしょう。さらにエポックが必要でしょうか?むしろ、エポックを増やすとボディ構造が不安定になる傾向があるようです。
ver.0.1
これはアニメスタイルのモデルを100エポック完全にFTした出力です。私の2つ目のフルFTモデルです。
前回の試みよりも安定しているように感じますが、全体的な仕上がりはまだ不十分です。マージして調整した方が良いかもしれませんが、しばらくは単独でFTを試みます。
振り返ってみると、なぜEtudeFTが如此困難だったのか不思議です。おそらくベースモデルに問題があったのでしょう。













