NeoSD

詳細

ファイルをダウンロード

モデル説明

概要

この完全なFTは、SD1.5モデルを根本的に改善することを目的としています。複数キャラクターの表示、ポーズの多様性、安定したボディ構造、および追加情報が含まれます。

ベースモデルはNAI2の要素を取り入れたアニメスタイルのモデルであり、数千枚の画像を繰り返し小さなFTで学習し、バージョン1を目指します。複数のベースモデルを原材料として作成し、最終的に統合・調整しながら学習手法を改善する予定です。

高解像度出力は一定程度対応していますが、推奨されません。

明示的には言及していませんが、すべてのサンプルはLCMを介した低解像度出力です。

注:これはSD1.5であるため、まず出力したい内容を明確に指定してください。多くの場合、品質プロンプトは単なる煩わしさにすぎません。

現在、私は5種類のFT材料を持っています。しばらくはFTモデル材料の使用を停止し、これらの5種類を既存の材料と組み合わせて、新しいモデルを探求します。

Qwenの出力は特に興味深いわけではありませんが、安定しており、めったに破綻しないため、ベースとして0.3(必要に応じて拡張可能)を使用し、0.4のようなNSFW要素を補完する予定です。

既存のモデルと組み合わせると、TeatimeDream Neoのようなものができるでしょう。

ver.0.32L

0.32の不安定な部分をLoRAで補完しようと試みました。アニメ画像は現在比較的安定していますが、1つのLoRAに多くのキャラクター要素を詰め込んだため、NSFW要素が若干増えています。これは私が長く使用してきたLoRAの1つですが、CIVITAIのアニメイラストとキャプションをクロールして作成したため、NSFW要素が強すぎる問題がありました。使用前にレイヤーを調整しましたが、補正しすぎてしまったため、一部の画像は依然としてアニメ風に見えません。

大きな問題ではありません。理想的には複数のLoRAで調整すべきですが、この方法でも面白い画像が生成されます。

ver.0.32

ver.0.31のデータを確認していたところ、一部のキャプションデータが完全に欠落していることに気づきました。

一部の画像の拡張子、あるいは参照ファイル自体の形式が誤っていました。文字コードの軽微な問題を修正したつもりでしたが、一部はうまく機能し、一部はまったく機能していません。また、収束率は前回より低くなっています。おそらく150エポック程度で安定すると思われますが、今回は90エポックのデータを抽出しました。

基本的な問題がほとんど改善されていないこと、品質が向上していないことは残念ですが、このバージョンでは前回データのエラーを修正しています。

Ver. 0.31

前回、主にQwen-imageの出力をベースとする0.3シリーズをベースモデルとしていることを述べましたが、0.3は画像リソースが極端に少なく(シードを変えてもQwen-imageの画像はほとんど変化しない)ため、リソースを増やしてベースモデルを再構築し、バージョン0.31を作成しました。Qwenの画像は安定していましたが、やや退屈でしたので、いくつかの多様性を追加しました。

実際、0.3はかつてないほどの収束率で学習されたモデルでしたが、リソースを増やしたことで予想以上に不安定になりました。ボディ構造や指の精度が非常に不安定です。

さらに予想外なのは、画像そのものが不安定なことです。安定したアニメ画像を生成するつもりでしたが、たまに半リアルな仕上がりになります。masterpieceやbest qualityといったプロンプトを削除してみてください(場合によっては追加したほうがよいこともあります)。これはベースモデルやキャプションに残っている問題が原因かもしれません。

そのため、0.32や0.33のリリースが近づいている可能性があります。

とはいえ、私は0.31が、これまでのSD1.5モデルのベース素材としては見られなかった画像を生成できるモデルだと考えています。ただし、FT後の調整が不十分な状態であるため、単独での使用は推奨しません。

いつものように、このサンプルは512x768ピクセルのLCM出力をそのまま示しています。中距離の顔は明らかにHiRes.FixまたはAdetailerで処理すべきですが、ここでは何も処理していません。


ver.0.5

このモデルは大幅な動きを含んでいます。収束は悪くなかったものの、画像が不安定だったため、100エポック学習しました。

ver.0.4

このバージョンは、以前よりも異なる素材と多くの画像を使用しています。約10,000枚の画像を使用し、60エポックかかりました。

学習の収束率が遅く、ボディ構造や細部に影響を与えましたが、うまくいった際には美しい画像が生成されます。0.1や0.2と似た系列の素材を使用しているため、類似した画像を生成します。

各プロンプトへの応答には明確な強みと弱みがあり、いくつかの癖もあります。主に素材として使用することを想定しているため、統合時にどのように活用するか検討します。

ver.0.3

これはQwen-imageの出力をベースにしています。以前のバージョンもありますが、SFW要素まで含めてQwenらしい特徴が笑えるほど強かったため、0.3自体はそういった要素を除いて再生成しました。そのため、Qwen的な感じはやや弱まりました。今回、Qwen環境の問題によりVAEに不具合が生じ、指の精度と色再現性が低下しました。しかし、SD1.5の新たな素材としては悪くないと考えています。

ver.0.1+0.2K

単純な調整ではかわいらしさが十分に出ていなかったため、普段は使用しない(副作用が強い)かわいらしいLoRAを追加しました。うまくいく場合はそのまま使用できますが、指やその他の部分が崩れやすい傾向があります。Adetailerで顔にのみ適用したほうが良いでしょうか?(LoRAだけリリースすれば良かったのでしょうか?)

ver.0.1+0.2

マージの例です。ver.0.1の構成とver.0.2のキャラクタースタイル・画風を組み合わせ、普段使用しているLoRAツールを軽く適用しました。中距離の顔と背景の細部に焦点を当て、多少の粗さを修正しただけですが、通常使用に十分なレベルだと考えています。

ver.0.2_38

このバージョンは、ver.0.1とは完全に異なる素材シリーズを使用しています(似た画像は多数あります)。このバージョンはキャラクターやアニメイラストの点でより安定していると感じますが、ポーズの多様性はver.0.1に劣ります。


ver.0.1_41

比較的うまく機能しましたが、100エポックは過剰だと感じたため、41エポックで再構築し、素材とキャプションを修正しました。エポックを減らした代わりに、素材数を1.5倍(約4,500枚)に増やし、アニメ画風の統一を試みました。細部はやや雑で、指の精度も不安定です。顔の細部はHiRes.FixやLoRAで簡単に補正できるため、問題にはなりません。もう少しエポックを増やす必要がありますか?むしろ、エポックを増やすとボディ構造が不安定になる傾向があります。


ver.0.1

これはアニメスタイルモデルで、100エポック完全にファインチューニングした出力です。これは私の2番目の完全FTモデルです。

前回の試みよりも安定しているように感じますが、全体的な完成度はまだ十分ではありません。統合して調整したほうが良いかもしれませんが、しばらくは単独のFTを試します。

振り返ってみると、なぜEtudeFTがこれほど難しかったのか不思議です。おそらくベースモデルに問題があったのでしょう。

このモデルで生成された画像

画像が見つかりません。