EnvyBetterHands LoCon
詳細
ファイルをダウンロード
このバージョンについて
モデル説明
このモデルはLoConです。ロードするにはLycoris拡張機能をインストールする必要があります。
Lora Block Weight を使用しています。Additional Networks や SD Webui Lycoris を使ってもよいと思います。
更新 2023年4月27日: 学習のパフォーマンスに plateau(プラトー)に達したため、データセットにさらに多くの画像を追加中です。巻きついた指のようなより複雑な構図も含んでいます。おそらく学習率をさらに下げる必要があるため、今後は一段と遅くなるかもしれません。進捗があれば随時お知らせします。
ベータ2版向けプロンプトアドバイス:
これはバニラのStable Diffusion 1.5の上から完全に再訓練されたモデルです。同業者の方の助言に基づき実施したもので、他のモデルとの互換性が非常に高いことにも驚きました。私の観察では、モデルのスタイルを一切損なうことなく、手やときどき腕にのみ影響を与え、他の部分には一切影響を与えません。
強度1で最も効果的ですが、より高い強度(1.5、2など)にすると一部の画像では改善するものの、他の画像では悪化する場合があります。CFGスケールは変更不要です。これらの強度設定では、過度に生成される(overcook)ことはありません。
他のLoRAと自由に併用可能。
以前のデータセット(EnvyMix v1(およびおそらくRevAnimated))では、「nice hands, perfect hands」をポジティブプロンプトに含めると最良の結果を得ましたが、重みを増やすと逆に悪化します。「(extra fingers, deformed hands, polydactyl:1.5)」をネガティブプロンプトに含めるのが効果的です。他のモデルでは結果が異なる可能性が高い(YMMV)ため、自身のモデルで確認を。
「bad hands」のネガティブエンベッディングを使用すると、状況が悪化するようですが、この点は十分に検証していないため断言はできません。
やはり、このモデルに「奇跡」を求めるのは無理ですが、多数の画像を処理した結果、平均的に品質が向上することが確認できます。今後数晩の追加トレーニングによって、さらに改善しそうです。
アルファ3およびベータ1版向けプロンプトアドバイス:
本アドバイスはRevAnimated 1.2向けです。他のモデルでは結果が異なる可能性があります(YMMV)。
ある程度過剰に生成されますが、効果的な結果を得るには強度を1.0に設定する必要があります。これを緩和するにはCFG値を5〜6程度に下げるとよいです。私は動的スケーリング拡張機能を有効化し、CFG 5を「 mimicking(模倣)」モードに設定することで、CFGを9〜10に保っても良好な結果を得ています。
他のLoRAと組み合わせて使用したところ、非常に奇妙な結果が出たため、これもYMMVです。現時点ではシンプルなケースでの一貫性を最優先に試行中です。
不思議なことに、中立的な姿勢の手ではやや性能が劣化しているように感じますが、オブジェクトを挟むなどより複雑な動作では顕著に改善しています(それが実例画像にかくも多くの鍛冶屋や図書館関係者の画像がある理由です)。
プロンプトをシンプルに保つと、一般に良い結果を得やすくなります。
RevAnimatedでは、8枚中1〜2枚が使える画像となり、残りは結構近い結果が多く、インペインティングで修正可能なケースが多いです。
アルファ2版向けプロンプトアドバイス:
このモデルは今やより強力になり、強度1付近で最も効果的です。以前バージョンのように1.3に設定すると、表示が悪化します。
私のネガティブプロンプトは「(extra fingers, deformed hands:1.15), (worst quality, low quality, poor quality, bad quality:1.35)」のままです。
メインプロンプトに「nice hands」をそのまま入れるだけで、大きな成果を得られました。
アルファ1版向けプロンプトアドバイス:
プロンプトに「beautiful hands, perfect hands, fingernails」といった語を含めるべきです。これらの語をプロンプトの中央付近に入れ、強調は避けるのが最も効果的です。
アルファ1 LoConは、強度約1.3(私は現在RevAnimated 1.1で検証中。他のモデルでは動作が異なる可能性あり)で最も効果的です。
手を改善するためにネガティブエンベッディングを使わないでください。私は「badhandv4」をネガティブプロンプトから削除したところ、顕著に品質が向上しました。ぜひともネガティブエンベッディングを一切使わずに試すことをおすすめします。現在は長い間、ネガティブエンベッディングを使用していません。
私のネガティブプロンプトは「(extra fingers, deformed hands:1.15), (worst quality, low quality, poor quality, bad quality:1.35)」で、強度や語を一つずつ調整して実験を重ねて到達した結果です。概ね良好な性能を発揮するものと思われます。
以上すべてから、SD 1.5の手の問題に本質的な解決策が生まれる可能性があると前向きに期待できるようになりました。良いプロンプトを使いながらも、完璧とは言えませんが、ある程度の精度は達成しています。今後、ポジティブ・ネガティブプロンプトに一切追加情報なしに、良好な手が自然に生成されることを、このモデルが完成したと定義します。
それでは、定番のreadmeへと戻ります…
私が試している仮説は、MidJourneyの手の品質がこれほど向上した理由は、おそらく高品質な手の画像を専用に集めてネットワークを特別に訓練したためであり、他には誰も真似していなかった可能性があるということです。このLoRAはまだMidJourneyのレベルには達していませんが、数晩に渡って夜間学習を重ね、欠けている部分をデータセットに追加してきました。その結果、品質は順調に向上しています。そのため、利用者の方が早めに使っていただけるよう、今すぐ公開することにしました。これはイーリーアルファ版であり、性能が改善しなくなるまで、引き続き更新を続けます。
実例画像は選りすぐりです。 すべての手の生成が改善されるとは期待しないでください。むしろ一部の画像では悪化する可能性もあります。そのため、個々の画像ではなく、多数の画像で評価することをお勧めします。私と同じようにうまくいく場合、あなたの出力の多くが同じかそれ以上の品質になるでしょう(一部は別の形で失敗するかもしれません)。




















