bigASP 🧪 v2.5

詳现

ファむルをダりンロヌド

モデル説明

bigASP 🧪 v2.5

⚠これは通垞のSDXLモデルではなく、デフォルトでは動䜜したせん。⚠

150億のトレヌニングサンプルで、1300䞇枚以䞊の画像を甚いおトレヌニングされた非垞に実隓的なモデルです。基本的にはSDXLアヌキテクチャに基づいおいたすが、フロヌマッチングを甚いお品質ずダむナミックレンゞを向䞊させおいたす。

⚠⚠⚠譊告⚠⚠⚠

あなたは「ASPラボ」に足を螏み入れたした

bigASP v2.5は、䞀般利甚を目的ずしたモデルではなく、玔粋な実隓モデルです。

䜿甚は本質的に困難です。

このモデルの利甚を続けたい堎合は、以䞋の䜿甚ガむドに埓っおください。

䜿甚方法

珟圚、このモデルはComfyUIでのみ動䜜したす。䞊蚘の画像には䟋ずなるワヌクフロヌが含たれおおり、それをComfyUIのワヌクスペヌスにドロップするこずでロヌドできたす。もし動䜜しない堎合は、以䞋のように手動でワヌクフロヌを構築しおください

  • 基本的なSDXLワヌクフロヌから始め、モデルにModelSamplingSD3ノヌドを远加したす。䟋

    • Load Checkpoint → ModelSamplingSD3 → KSampler
  • その他の郚分は、通垞のSDXLワヌクフロヌず同じですポゞティブずネガティブ甚の2぀のCLIP゚ンコヌダヌ、空の朜圚倉数、サンプラヌ埌のVAEデコヌダヌなど。

解像床

サポヌトされる解像床を以䞋に瀺したす。性胜の良い順に倧たかに䞊べおいたす。これらの解像床より䜎くおも高くおも、動䜜する可胜性は非垞に䜎いです。

832x1216
1216x832
832x1152
1152x896
896x1152
1344x768
768x1344
1024x1024
1152x832
1280x768
768x1280
896x1088
1344x704
704x1344
704x1472
960x1088
1088x896
1472x704
960x1024
1088x960
1536x640
1024x960
704x1408
1408x704
1600x640
1728x576
1664x576
640x1536
640x1600
576x1664
576x1728

サンプラヌ蚭定

たず、通垞のSDXL生成ずは異なり、**新たなパラメヌタ「shift」**が存圚したす。

ShiftはModelSamplingSD3ノヌドのパラメヌタであり、ノむズスケゞュヌルを歪たせたす。1.0に蚭定するず䜕も倉わりたせん。1.0より高く蚭定するず、サンプラヌがスケゞュヌルの高ノむズ領域に長く時間を割くようになりたす。これにより、サンプラヌは画像の構造に曎倚の努力を傟け、现郚にはそれほど泚力しなくなりたす。

このモデルはサンプラヌずスケゞュヌラヌに察しお非垞に敏感であり、スケゞュヌルの高ノむズ領域に少しでも長く時間を割くこずで、倧幅に性胜が向䞊したす。これは通垞のSDXLずは察照的で、SDXLの倚くのスケゞュヌルはむしろその領域に時間を割かないように蚭蚈されおいたす。

これたで私が最も効果的だず感じた蚭定は以䞋の通りです。自分自身で調敎・実隓しおください。ただし、倚くの倱敗を芚悟しおください。

  • Scale=1、Sampler=Euler、Schedule=Beta
  • Scale=6、Sampler=Euler、Schedule=Normal
  • Scale=3、Sampler=Euler、Schedule=Normal

Euler以倖のサンプラヌではあたり成功しおいたせん。UniPCは動䜜したすが、䞀般に性胜が劣りたした。その他の倚くは倱敗するか、さらに悪化したした。ただし、私のテストはただ限られおいたす。他のサンプラヌが動䜜する可胜性もありたすが、このモデル倉態的モデルを誀解しおいる可胜性がありたす。

Betaスケゞュヌルが最も汎甚的に䜿えるオプションであり、Scaleパラメヌタの調敎は䞍芁です。Betaスケゞュヌルはノむズスケゞュヌルに「S」字の圢状を圢成し、前半は通垞よりも高ノむズ領域に時間を割き、埌半は䜎ノむズ領域に時間を割きたす。これにより、画像構造ず现郚の品質のバランスが良くなりたす。

Normalスケゞュヌルは、䞀般的にScaleが1より倧きい倀36が最適である必芁がありたす。6より倧きい倀ではメリットが芋られたせんでした。この蚭定では、サンプラヌがほずんど画像の構造に時間を割くため、现郚の品質が犠牲になりたす。

どの蚭定を䜿うかは、あなたの奜みや生成したい内容により異なりたす。「画像構造の品質」ずは、物䜓の党䜓的な圢や配眮が正しくなるかどうかを指したす。構造が正しく圢成されおいないず、䜙蚈な手足や倉圢した物䜓などがよく発生したす。クロヌズアップの堎合は構造はそれほど重芁ではなく、现郚に時間を割くよう蚭定を調敎できたす。䞭距離や遠距離の堎合は、構造がより重芁になりたす。

CFGずPAG

私の限られたテストでは、CFG倀が3.06.0の範囲で最も効果的でした。CFGは品質ず倚様性のトレヌドオフであり、䜎いCFG倀は倚様な画像を生成したすが品質が䜎く、高いCFG倀は逆です。ただし、CFGが2.0以䞋になるず品質が著しく䜎䞋し、実甚性がなくなりたす。

PerturbedAttentionGuidanceノヌドの䜿甚を匷く掚奚したす。このノヌドはModelSamplingSD3の埌に、KSamplerの前に配眮しおください。このノヌドにはscaleパラメヌタがあり、調敎可胜です。私は通垞2.0前埌に蚭定しおいたす。PAGを䜿甚する堎合、CFG倀を䞋げるのが䞀般的です。PAGを有効にしおいるずきは、CFGを2.05.0の範囲に保っおいたす。

CFGずPAGの正確な倀は、個人の奜みや生成したい内容によっお倉わりたす。これらに䞍慣れな堎合は、掚奚範囲の䞭倮倀からスタヌトし、埐々に䞊䞋に調敎しお、あなたの環境での挙動を理解しおください。

PAGは画像の品質ず信頌性を倧幅に向䞊させたすが、画像をより匷調・コントラスト豊かにする傟向があり、目的によっおは望たしくない堎合がありたす。倚くの芁玠ず同様に、バランスを取るこずが重芁であり、必芁に応じお無効にするこずもできたす。

ステップ数

2850私は倧䜓40前埌で動かしおいたすが、私は倉人です。

ネガティブプロンプト

これたで私が芋぀けた最良のネガティブプロンプトは単に「low quality」です。空のネガティブプロンプトやより耇雑なネガティブも動䜜したすが、「low quality」だけでも生成品質が倧きく向䞊したした。「deformed」や「lowres」などの他の単語は、私にはあたり効果がありたせんでした。

ポゞティブプロンプト

ここに぀いおは、十分にモデルを詊しおおらず、最適なプロンプティング方法を確定しおいたせん。ただし、このモデルは以䞋のような品質キヌワヌドでトレヌニングされおいたす

  • worst quality
  • low quality
  • normal quality
  • high quality
  • best quality
  • masterpiece quality

これらはトレヌニング䞭にタグ文字列やキャプションに挿入されたした。品質キヌワヌドをプロンプトのどこに眮いおも、モデルは基本的に気にしないでしょうが、先頭に近いほど効果が倧きくなりたす。耇数の品質キヌワヌドを含める必芁はなく、1぀のみで十分です。キヌワヌドに重みを付ける必芁もありたせん。

プロンプトに品質キヌワヌドを含めるのは必須ではありたせん。任意です。

「masterpiece quality」の䜿甚は掚奚したせん。このキヌワヌドはモデルが写真ではなくむラストやドロヌむングを生成しやすくなるためです。私は「high quality」がほずんどの甚途に十分であり、プロンプトの始めに「A high quality photograph of」をよく䜿っおいたす。

このモデルは、JoyCaption Beta Oneずタグ文字列を組み合わせた倚様なキャプションスタむルでトレヌニングされおいたす。理論的には、どんなプロンプティングスタむルでも䜿甚できたす。ただし、私の限られたテストでは、自然蚀語のキャプションが最も効果的であり、ずきどきタグ文字列を末尟に远加しお埮調敎するず良い結果を埗られたした。お気に入りのチャットボットに曞いおもらうか、私のカスタムプロンプト゚ンハンサヌ/ラむタヌhttps://huggingface.co/spaces/fancyfeast/llama-bigasp-prompt-enhancerを䜿甚しおください。

成熟したテヌマをプロンプトする堎合は、チャットボットが身䜓の郚䜍や行動を蚘述する際に䜿うような䞭立的な衚珟を詊しおみおください。モデルはスラングを理解するはずです。しかし、これたでの詊行では、スラングを䜿うず生成品質が逆に悪化する傟向がありたした。

このモデルは倚様な画像でトレヌニングされおいたすので、抂念のカバヌ範囲は抂ね良奜ですが、Fluxのようなむンタヌネット芏暡のモデルにはただ及びたせん。

ラボv2.5の違い

このモデルはv3の準備のために副次的にトレヌニングされた実隓モデルです。詊しおみたいあらゆる奇劙な芁玠が詰め蟌たれおいたす。

v2ず比范しお

  • キャプション - デヌタセットのキャプションは、以前のJoyCaptionではなく、JoyCaption Beta Oneを䜿甚しお生成されたした。
  • より倚くのデヌタ - v2の600䞇枚から1300䞇枚に増加。
  • アニメ - アニメ/フェッリヌなどの画像を倧量にデヌタセットに含めたした。
  • フロヌマッチング目的 - SDXLにワむダヌハンマヌを突き刺し、フロヌマッチングをダクトテヌプで貌り付けたした。
  • より倚くのトレヌニング - 4000䞇サンプルから1億5000䞇サンプルに増加。
  • 固定テキスト゚ンコヌダヌ - 䞡方のテキスト゚ンコヌダヌは完党に固定されたした。

では、なぜ

キャプションの倉曎は、デヌタ準備段階でBeta Oneが完成しおいたため、単に切り替えただけです。Beta Oneのパフォヌマンスず倚様性の向䞊が、このモデルのプロンプト柔軟性を高めるはずだず期埅しおいたした。しかし、テキスト゚ンコヌダヌが固定されおいるため、実際の圱響は䞍明です。

より倚くのデヌタは、より良いこずです。特に、既存の代替テキストが豊富で、抂念の倚様性を最倧限にバランスよく含む画像を倧量に远加したした。これは、トレヌニング䞭にモデルがより広範な画像ずキャプションスタむルに觊れるようにするためでした。

アニメの远加には二぀の理由がありたす。䞀぀は、写実的ず非写実的なモデルを分けるのではなく、統合されたモデルにしたいずいう願望です。GPT-4oのような倧芏暡モデルは䞡方のモダリティを同等に扱えるため、少なくずも「可胜」です。二぀目は、写実的偎がアニメ/フェッリヌ偎の抂念を吞収したいずいう意図です。埌者ははるかに広範なコンテンツず抂念を持っおいたす。䞀方、写実的デヌタセットは制限が倚く、それらでトレヌニングされたモデルは創造性を発揮しにくいのです。

フロヌマッチングは、Fluxのような珟代のモデルで䜿われる目的関数です。高品質な生成をもたらしたすが、同時にノむズスケゞュヌルが固定されたす。SDXLのノむズスケゞュヌルは壊れおおり、様々な問題を匕き起こしたす。その䞭でも最も顕著なのは、構造生成の劣化です。これが、SDXLベヌスのモデルが手足の重耇、溶けた物䜓、小さい「仲間」を生成しやすい䞻な原因です。たた、SDXLはダむナミックレンゞの高い画像、暗い画像、明るい画像の生成も苊手です。フロヌマッチングぞの移行で、これらすべおの問題が解決したす。

より倚くのトレヌニングは、より良いこずです。v2およびv1の最倧の問題は、倱敗する生成が倚かったこずです。倚くの実隓の末、これは䞻に二぀の芁因によるものだず刀明したしたSDXLの壊れたノむズスケゞュヌル、そしお䜕よりトレヌニング䞍足でした。PonyXLのようなモデルは、v2よりずっず長い時間トレヌニングされおいたす。トレヌニングサンプルを4000䞇から1億5000䞇に増やしたこずで、v2.5はPonyXLず同等のトレヌニングスケヌルに達したした。

テキスト゚ンコヌダヌを固定したのは、実はこのモデルの意図した特城ではありたせん。単にトレヌニングの䞍安定性に察凊しようずしお、結果ずしお固定しただけです。

成功した点ず倱敗した点

最倧の倉曎はフロヌマッチングでした。以前から、SDXLをv-predなどの他の目的に倉曎した詊みはありたしたが、フロヌマッチングに倉曎した䟋はおそらくありたせんでした。しかし うたくいきたした。私はこれを成功ず考えおいたす。フロヌマッチングがSDXLの出力品質にどれだけ貢献したかは、トレヌニング量の増加ず混同されるため刀断が難しいですが、画像のダむナミックレンゞの向䞊は明らかで、私は非垞に満足しおいたす。たた、前述したように、固定されたノむズスケゞュヌルが、v2.5がv2よりも歪んだ生成を枛らす倧きな芁因であるず考えられたす。

より倚くのトレヌニングも、間違いなくモデルの性胜向䞊に寄䞎したした。v2.5の倱敗率は著しく䜎䞋したした。

より倚くのデヌタずアニメなどの远加は、モデルの抂念ず創造性を拡倧しおいるように芋えたす。私は、芞術的で創造的でありながら、䟝然ずしお写実的な画像を倧幅に広い範囲で生成できるようになりたした。

しかし、v2.5は非写実的なコンテンツの生成胜力を実質的に埗られたせんでした。アニメスタむルの生成を詊みたこずはすべお倱敗したした。奇劙なこずです。

テキスト゚ンコヌダヌの固定は、利点ず欠点の䞡方をもたらしたす。固定するこずで、元の膚倧なトレヌニングで埗られた知識ず堅牢性を維持できたす。これは、私のような小芏暡な実隓にずっお非垞に有甚で有益です。

䞀方で、調敎が行われおいないため、プロンプトの忠実床が倧きく䜎䞋したす。v2.5は、「汗の粒」を芋お「粒の列」を生成しおしたうような混乱が頻発したす。

぀たり、トレヌドオフです。テキスト゚ンコヌダヌが固定されおいるため、v2.5はJoyCaption Beta Oneの改善をあたり享受しおいない可胜性がありたす。

LORAのトレヌニングずマヌゞ

正盎、このモデルをマヌゞできるかどうかはわかりたせん。これは暙準のSDXLずは異なる目的でトレヌニングされたため、マヌゞするずなにか倉なこずになるでしょう。しかし、誰かがこのモデルをDMD2ずマヌゞしおうたくいったずいう話もあるそうなので、䜕ずも蚀えたせん。

既存のLORAの䜿甚に぀いおも同様ですおそらく動䜜しないでしょうが、誰にも分かりたせん。

このモデルの異なるトレヌニング目的のため、LORAのトレヌニングも同様に動䜜しない可胜性が高いです。

私は確かにこれは奜きではありたせんが、このモデルはあくたで実隓甚に䜜られたものであり、LoRAなどのサポヌトは優先事項ではありたせんでした。v3は、既存のツヌルを備えたモデルを基に䜜られるか、もしそうしおもカスタムアヌキテクチャの道に進たざるを埗なくなった堎合は、ツヌルを添えおリリヌスしたす。

サポヌト

このような愚かな実隓やJoyCaption、そしお hopefullyv3を支揎したい堎合: https://ko-fi.com/fpgaminer

このモデルで生成された画像

画像が芋぀かりたせん。