bigASP 🐍

詳现

ファむルをダりンロヌド

モデル説明

bigASP 🐍 v2.0

写真玚のSDXLモデルで、ベヌスのSDXLを600䞇枚以䞊の高品質な写真で4000䞇回のトレヌニングサンプルを甚いおファむンチュヌニングしたした。すべおの写真はJoyCaptionでキャプション付けされ、JoyTagでタグ付けされおいたす。これによりbigASP 🐍は、短く単玔なものから長く詳现なものたで、幅広いプロンプトやコンセプトを理解し、高品質な写真的結果を生成できるようになりたす。

これはbigASP 🐍の2バヌゞョン目です。コミュニティがこのモデルをどのように掻甚するか、その匷みず匱みを孊ぶのが楜しみです。生成結果やフィヌドバックをぜひ共有しおください

特城

  • 自然蚀語ずタグベヌスの䞡方のプロンプト察応バヌゞョン2は、booruスタむルのタグだけでなく、自然蚀語プロンプト、あるいはその組み合わせも理解できたす

  • SFWずNSFW察応このバヌゞョンのbigASP 🐍は、200䞇枚のSFW画像ず400䞇枚のNSFW画像を含んでいたす。目を惹くために着食るそれずも目を惹くために脱ぐあなた次第です。

  • 倚様性bigASP 🐍は意図的に倚様なデヌタセットでトレヌニングされおおり、私たちの矎しい皮族のあらゆる色、圢、サむズを生成できたす。サマヌサむドな顔ずはさようなら

  • アスペクト比バケットリングワむドスクリヌン、正方圢、瞊向き、bigASP 🐍はすべお察応可胜です。

  • 高品質なトレヌニングデヌタトレヌニングデヌタの倧郚分は、SDXLのネむティブ解像床を超える高解像床のプロフェッショナル玚写真で構成されおおり、すべお元の品質でダりンロヌドされ、远加の圧瞮は䞀切行っおいたせん。bigASP 🐍は1ピクセルも芋逃したせん。

  • 長文プロンプト察応プロンプトで最倧225トヌクンたでサポヌトしおトレヌニングされおいたす。名前通り、BIGなaspです。

  • オプション矎的/品質スコアバヌゞョン1ず同様、このモデルは品質スコアを理解し、生成の質を向䞊させるのに圹立ちたす。䟋えば、プロンプトの先頭にscore_7_upを远加するず、生成の品質をガむドできたす。詳现は以䞋をご芧ください。

新機胜バヌゞョン2

  • 自然蚀語プロンプトを远加モデルの制埡胜力を倧幅に拡匵し、v1に察する倚くの䞍満を解消し、さらに倚くのコンセプトをモデルが理解できるようになりたした。

  • 画像数が3倍以䞊に増加バヌゞョン2では670䞇枚の画像バヌゞョン1は150䞇枚。

  • SFW察応デヌタセットに200䞇枚のSFW画像を远加したした。bigASPの汎甚性ず理解範囲を広げるためです。これたでのテストでは、bigASPは自然写真においお非垞に優れおいたす。

  • 長期間のトレヌニングバヌゞョン1はややトレヌニング䞍足を感じたした。バヌゞョン2では4000䞇サンプルバヌゞョン1は3000䞇でトレヌニングしたした。この結果、モデルの安定性が倧幅に向䞊したした。

  • スコアタグがオプションにトレヌニング䞭にランダムにスコアタグがドロップされたため、スコアタグを指定しなくおもモデルは正垞に動䜜したす。

  • 品質スコアモデルの曎新画像のスコアリングに䜿甚されるモデルを曎新し、若干の改善ず新しいデヌタ範囲ぞの察応を行いたした。私の経隓では、「良い」画像の範囲が広がり、スコア5からが「良い」の基準ずなりたした。そのため、プロンプトで指定するスコアをより柔軟に蚭定でき、出力の倚様性がさらに向䞊するでしょう。

  • 男性向けデヌタの増加倚くの人にずっお驚きかもしれたせんが、䞖界人口のほが50%は男性です私たちのモデルで男性が過小評䟡されおいるのは奇劙です。バヌゞョン2では男性の䜓型に焊点を圓おた画像を倧幅に远加したした。ただ改善の䜙地はありたすが、v1よりはたしです。

掚奚蚭定

サンプラヌDPM++ 2M SDE たたは DPM++ 3M SDE

スケゞュヌルKerras たたは Exponential。⚠譊告⚠ Normalスケゞュヌルでは䞍良出力が発生したす。

ステップ40

CFG2.0 たたは 3.0

Perturbed Attention GuidanceComfyUIなど少なくずもいく぀かのUIで利甚可胜は時折有効なので、詊しおみおください。特に顔や耇雑なシヌンで圹立ちたす。ただし、画像を過剰に加工しおしたう可胜性があるため、PAGを䜿甚するずきはCFGを䞋げおください。

⚠譊告⚠ バヌゞョン1から移行される堎合、このバヌゞョンの掚奚CFG蚭定は倧幅に䜎めです。

察応解像床参照甚画像数

832x1216: 2229287
1216x832: 2179902
832x1152: 762149
1152x896: 430643
896x1152: 198820
1344x768: 185089
768x1344: 145989
1024x1024: 102374
1152x832: 70110
1280x768: 58728
768x1280: 42345
896x1088: 40613
1344x704: 31708
704x1344: 31163
704x1472: 27365
960x1088: 26303
1088x896: 24592
1472x704: 17991
960x1024: 17886
1088x960: 17229
1536x640: 16485
1024x960: 15745
704x1408: 14188
1408x704: 12204
1600x640: 4835
1728x576: 4718
1664x576: 2999
640x1536: 1827
640x1600: 635
576x1664: 456
576x1728: 335

プロンプトの曞き方

bigASP 🐍 バヌゞョン2は、詳现な自然蚀語プロンプトずbooruタグプロンプトの䞡方をサポヌトするようトレヌニングされおいたす。぀たり、以䞋のすべおのスタむルのプロンプトが動䜜したす

A photograph of a cute puppy running through a field of flowers with the sun shining brightly in the background. Captured with depth of field to enhance the focus on the subject.
Photo of a cute puppy, running through a field of flowers, bright sun in background, depth of field
photo (medium), cute puppy, running, field of flowers, bright sun, sun in background, depth_of_field

過去にbigASP v1をご利甚の堎合は、これらのタグはすべお匕き続き動䜜したすしかし、今ではタグだけでなく、より詳现な自然蚀語でご垌望の内容を説明できるようになりたした。

bigASPがよく理解するプロンプトの曞き方に぀いおアむデアが必芁な堎合は、ご自身のお気に入りの画像をJoyCaptionに通しおみおくださいhttps://huggingface.co/spaces/fancyfeast/joy-caption-alpha-two bigASP v2はJoyCaptionAlpha Twoを䜿っお短い、䞭皋床、長いなど倚様なキャプションを生成するようトレヌニングされおいたす。そのため、JoyCaptionのすべおの蚭定が圹立ちたす。

たた、ギャラリヌ内の画像のメタデヌタをチェックするず、ヒントが埗られたす。可胜な限り、画像にはComfyUIのワヌクフロヌを䞀緒にアップロヌドしおいたす。

最埌に、スコアリングに぀いお。bigASP 🐍 v2は、v1ず同様、PonyDiffusionの玠晎らしい取り組みに着想を埗お、「スコアタグ」でトレヌニングされおいたす。぀たり、score_8_upのようなタグを理解し、生成したい画像の品質を指定できたす。bigASPのデヌタセットのすべおの画像は0〜9のスコアが぀けられ、0はトレヌニングから陀倖され、9が最䞊玚です。したがっお、プロンプトの先頭にscore_7_upず曞くこずで、「品質7以䞊を垌望する」ずbigASPに䌝えおいるこずになりたす。

v1ずは異なり、このバヌゞョンではプロンプトにスコアタグを必須ずしたせん。指定しない堎合、bigASPはその広範な品質の範囲内で自由に生成したす。そのため、良いものも悪いものも期埅できたす。しかし、プロンプトの先頭に䜕かしらのスコアタグを付けるこずを匷く掚奚したす。私は通垞、score_7_upを䜿甚し、䞀般的に高品質な結果を導きながら、bigASPにある皋床の自由床を䞎えおいたす。最良の品質だけを求めるならscore_9、より倚様性を求めるならscore_5_upをお勧めしたす。この説明がわかりやすければ幞いです耇数のスコアタグを指定するこずも可胜ですが、1぀で十分です。たた、䜎いスコアをネガティブプロンプトに入れお効果を詊すこずもできたす。䟋えば、score_1, score_2, score_3など。

泚意スコアタグを䜿甚する堎合、プロンプトの先頭に配眮しなければなりたせん。

泚意プロンプトにbooruスタむルのタグを䜿甚する堎合、䞀郚のタグは括匧を甚いたす䟋photo (medium)。倚くのUIでは括匧をプロンプトの重み付けに䜿甚したすそのため、ComfyUIやAuto1111などのツヌルを䜿甚する堎合は、括匧を゚スケヌプするこずを忘れないでください。䟋photo \(medium\)。

䟋題プロンプト

SFW, chill sunset over a calm lake with a distant mountain range, soft clouds, and a lone sailboat.
score_7_up, Photo of a woman with blonde hair, red lipstick, and a black necklace, sitting on a bed, masturbating, watermark
score_8, A vibrant photo of a tropical beach scene, taken on a bright sunny day. The foreground features a wooden railing and lush green grass, with a large, twisted palm tree in the center-right. The background showcases a sandy beach with turquoise waters and a clear blue sky. The palm tree has long, spiky leaves that contrast with the smooth, curved trunk. The overall scene is peaceful and inviting, with a sense of warmth and relaxation.
score_8_up, A captivating and surreal photograph of a cafe with neon lights shining down on a handsome man standing behind the counter. The man is wearing an apron and smiling warmly at the camera. The lighting is warm and glowing, with soft shadows adding depth and detail to the man. Highly detailed skin textures, muscular, cup of coffee, medium wide shot, taken with a Canon EOS.
score_7_up, photo \(medium\), 1girl, spread legs, small breasts, puffy nipples, cumshot, shocked
score_7_up, photo (medium), long hair, standing, thighhighs, reddit, 1girl, r/asstastic, kitchen, dark skin
score_8_up, photo \(medium\), black shirt, pussy, long hair, spread legs, thighhighs, miniskirt, outside
Photo of a blue 1960s Mercedes-Benz car, close-up, headlight, chrome accents, Arabic text on license plate, low quality

プロンプト䞊玚者向け

バヌゞョン1ず同様、このバヌゞョンのbigASPはJoyTagが䜿甚するすべおのタグを理解したす。v2のトレヌニング䞭に芋られたタグの䞀芧各タグの出珟回数を含むを参照するず圹立぀堎合がありたすhttps://gist.github.com/fpgaminer/0243de0d232a90dcae5e2f47d844f9bb

もちろん、バヌゞョン2はJoyCaptionのおかげで、より自然なプロンプトを理解できるようになりたした。぀たり、このバヌゞョンのbigASP 🐍が理解できる新しいコンセプトの宝庫が開かれおいたす。倚くの人がv1のタグリストをモデルの機胜を探求するのに圹立おたした。自然蚀語の堎合、同様のアプロヌチずしお、トレヌニング䞭にモデルが芋たキャプションのコヌパスに察しお「n-gram」解析を行うこずです。これは、よく䜿われる「単語の組み合わせ」を怜出する方法です。以䞋がそのリストで、各テキスト断片の出珟回数を含んでいたすhttps://gist.github.com/fpgaminer/26f4da885cc61bede13b3779b81ba300

n-gramリストの最初の列は考慮する単語数1〜7です。2列目はテキスト、3列目はその単語組み合わせが出珟した回数です1぀のキャプション内で耇数回出珟するため、画像数より倚い堎合がありたす。なお、この分析では「名詞句」を1぀の単語ずしお扱いたす。䟋her right side、his body、water droplets。これらすべおは、統合されたコンセプトを衚すため1぀の「単語」ずしお数えられたす。したがっお、リスト䞊にtattoo on her right sideが3単語ずしお蚘茉されおいるこずに驚かないでください。たた、この分析のためにテキストを凊理する過皋で、䞀郚の句読点が欠萜しおいる堎合がありたす。

さたざたな゜ヌスreddit、flickr、unsplash、instagramなどや、特定のサブレディットv1ず同様が蚀及可胜です。

NSFW、SFW、Suggestiveなどのタグは、生成内容をガむドするのに圹立ちたす。

基本的に、bigASP 🐍は明瀺的に蚀及されない限りりォヌタヌマヌクを生成したせん。トリガヌワヌドは偶然にもwatermarkです。ネガティブプロンプトにwatermarkを远加するず、さらにりォヌタヌマヌクの生成を回避できる可胜性がありたすが、私のテストではほずんどのプロンプトでりォヌタヌマヌクは非垞に皀です。

bigASP 🐍は、The person is holding a sign with the text "Happy Halloween" on it.のような蚀語を䜿っお、指定したテキストを生成できたす。テキストを提瀺する方法はさたざたですが、画像に衚瀺させたいテキストは必ずクォヌテヌションマヌクで囲んでください。ただし、これはSDXLであるため、良いテキストを埗るには倚くの詊行を重ねる必芁がありたす。たた、画像が耇雑になればなるほど、SDXLのテキスト生成胜力は䜎䞋したす。しかし、この叀びた子には玠敵なパリトリックです

䞀郚のカメラメヌカヌ・モデルや焊点距離、絞り倀などもモデルは理解しおいたす。その効果は䞍明です。DSLRのようなタグを䜿うこずで、モデルを「プロフェッショナルな写真」に近づけるこずができたすが、泚意点ずしお、カメラが画像内に描かれおしたう可胜性がありたす。

特城で述べたように、bigASP 🐍は長文プロンプトのサポヌトでトレヌニングされおいたす。NovelAIが発明し、䞁寧に文曞化した技術を甚いおおり、これはプロンプトがCLIPの最倧トヌクン数75を超える堎合、ほずんどの生成UIで採甚されおいる技術ず同じです。デヌタセットにはさたざたな長さのキャプションがバランスよく含たれおいるため、数トヌクンから225トヌクンたでの長さはすべおうたく動䜜したす。ただし、この技術の䞀般的な泚意点に留意しおください。

制限事項

  • オフセットノむズ未察応申し蚳ありたせん、次バヌゞョンで怜蚎したす。

  • アニメ未察応このモデルは完党に写真甚です。将来のバヌゞョンでアニメを远加し、モデルの理解範囲を広げる可胜性がありたす。

  • 顔・手・足ご存知の通りです。

  • VAEの問題SDXLのVAEは酷い。誰もが知っおいたす。しかし、写真ではその匱点が特に顕著です。bigASPは非垞に高密床なディテヌルを生成するため、VAEの匱点が際立っおしたいたす。これに぀いおは私が察凊できるこずはほずんどありたせん。

  • 奇跡は期埅しないでください これはSDXLなので、通垞の挙動を想定しおください。良い生成物ず䞭途半端な生成物の比率は1:24、䜓の恐怖芁玠がかなり倚く、などです。䜕の理由もなくうたくいくプロンプトもあれば、どんなに調敎しおも悪倢のような結果になるプロンプトもありたす。bigASPのこのバヌゞョンでは耇数のキャラクタヌ凊理がv1より改善されおいたすが、ただ粗いたたです。このような叀いアヌキテクチャのあり方です。私は珟圚、bigASPはここで達成可胜な限界に近いず思いたす。

トレヌニング詳现バヌゞョン2

バヌゞョン2のトレヌニングに関するすべおの现郚は以䞋に蚘茉されおいたすhttps://civitai.com/articles/8423

トレヌニング詳现バヌゞョン1

big SDXL ファむンチュヌニングのトレヌニング方法に関する詳现は、ほずんど存圚したせん。そのため、コミュニティの圹に立おるよう、私のすべおの詳现をここで共有したす。

bigASPは玄1,440,000枚の写真でトレヌニングされ、すべおの画像はそれぞれのアスペクト比バケットよりも倧きな解像床を持っおいたした。各画像のディスク䞊のサむズは玄1MBで、100䞇枚あたりのデヌタベヌスは玄1TBになりたす。

各画像は以䞋の凊理を経たす品質モデルで0〜9の評䟡を受け、JoyTagでタグ付けされ、OWLv2を「氎印」ずいうプロンプトで䜿甚しお画像内の氎印を怜出したす。OWLv2は、ファむンチュヌニングされたビゞョンモデル以䞊に優れた性胜を発揮し、氎印のバりンディングボックスを提䟛するずいう远加の利点がありたす。粟床は玄92です。このバヌゞョンでは実斜しおいたせんが、将来的にはバりンディングボックスを䜿っおトレヌニング䞭に「損倱マスキング」を実斜可胜で、これはSDに氎印を隠すこずを意味したす。珟時点では、氎印が怜出された堎合、トレヌニングプロンプトに「watermark」ずいうタグが含たれたす。

評䟡スコアが0の画像は完党に削陀されたす。私は、特定の画像をこのスコア範囲に萜ずすようにスコアリングモデルを特別にトレヌニングしたした。デヌタセットにどれほど倚くのゎミが玛れ蟌むか、そしおそれらのほんのわずかな痕跡でもトレヌニングを倧きく乱す可胜性があるこずに驚くでしょう。サムネむル、ビデオプレビュヌ画像、広告など。

bigASPはSDXLの論文で定矩されたアスペクト比バケットず同じものを䜿甚しおいたす。すべおの画像は、瞮小しおもバケットのどの寞法よりも小さくならないように、最も適したバケットに分類されたす。その埌、スケヌリングされた画像はランダムにクロップされたす。元の解像床ずクロップ情報は、VAEで゚ンコヌドされた画像ず共にディスクに蚘録され、最終的に朜圚倉数はgzipで圧瞮されたす。gzipは玄30のスペヌス節玄をもたらすこずがわかりたした。これにより、トレヌニングデヌタセットは100䞇枚あたり玄100GBに削枛されたす。

トレヌニングはdiffusersラむブラリを元にしたカスタムトレヌニングスクリプトで実斜したした。カスタムスクリプトを䜿甚したのは、内郚のメカニズムを完党に理解し、必芁な調敎を自由に実装するためです。たた、SD1.5のトレヌニングで䜿甚しおいたスクリプトがあったため、倧きな飛躍ではありたせんでした。ただし、いく぀かのバグのある実行の埌に発生する现かい問題のデバッグに倚くの時間を費やさなければなりたせんでした。これらのミスはすべお「高䟡」でした。しかし、私にずっお、ミスは孊習の代償です。

私は、トレヌニングプロンプトが最終モデルの実際の䜿甚におけるパフォヌマンスに非垞に重芁だず考えおいたす。カスタムのDatasetクラスは、トレヌニングプロンプトの生成に倚くの䜜業を担圓しおいたす。人々は短いプロンプトから長いプロンプト、コンマやアンダヌスコア、タむポを含むあらゆる皮類のプロンプトを䜿甚したす。

私はプロンプトを含む倚数のAI画像を抜出し、ナヌザヌのプロンプトの統蚈を分析したした。プロンプトの分垃はほが正芏分垃で、平均タグ数は32、暙準偏差は19.8でした。したがっお、私のDatasetクラスはこの分垃を反映しおいたす。各トレヌニングサンプルに察しお、この分垃からランダムな敎数を遞び、そのサンプルで䜿甚するタグ数を決定したす。画像のタグをシャッフルした埌、その数たで切り詰めたす。

぀たり、トレヌニング䞭、モデルは「1girl」だけから224トヌクンの膚倧なプロンプトたでをすべお芋るこずになりたす。そしお、ナヌザヌの现郚を補完する方法を孊ぶはずです。

watermarkのような特定のタグは優先され、存圚する限り垞に含たれるため、モデルはそれらのタグを匷く孊習したす。

danbooruのタグ゚むリアスリストを䜿甚しお、タグをランダムに同矩語に倉曎するこずで、bigASPは人々が抂念を指すさたざたな方法を理解できるようにしおいたす。おそらく。

そしお、もちろんスコアタグです。Pony XLず同様に、bigASPはトレヌニングサンプルのスコアを「score_X」ず「score_X_up」の圢匏のタグの範囲ずしお゚ンコヌドしたす。ただし、Pony XLが遭遇した問題を避けるため、トレヌニングプロンプトにはランダムな数のスコアタグのみを含めたす。これにより、モデルは「score_8、score_7、score_6」などのすべおのタグをプロンプトに含めなくおも正しく動䜜するように孊習されたす。単䞀、たたは少数のスコアタグが存圚するこずにすでに慣れおいるからです。

10の確率でプロンプトは完党に削陀され、空文字列に蚭定されたす。UCG、ご存知の通りです。泚StabilityのトレヌニングスクリプトやHuggingFaceのスクリプトでは、プロンプトを空文字列に蚭定するのではなく、埋め蟌み空間で「zero」ず蚭定しおいるこずを発芋したした。これはSD1.5のトレヌニング方法ずは異なり、ほずんどのSDフロント゚ンドの掚論方法ずも異なりたす。私の理論では、SDXLが「zero」のドロップでトレヌニングされ、空プロンプトのドロップでトレヌニングされるず、実際には倧きな問題になる可胜性がありたす。぀たり、掚論時に空プロンプトを䜿甚するず、モデルは「平均画像」からではなく、トレヌニング䞭にキャプションが存圚しなかった画像のみから逞脱するように求められるこずになりたす。それは正しくないように思えたす。したがっお、bigASPでは空プロンプトのドロップでトレヌニングしたす。

さらに、Stabilityのトレヌニングスクリプトでは、SDXLの他の条件付けoriginal_size、crop、target_sizeもドロップされおいたす。kohyaのスクリプトではこの挙動は芋られなかったため、私は䜿甚しおいたせん。それがどのような利点をもたらすのか、私には完党にはわかりたせん。

トレヌニング䞭、モデルがさたざたなバッチ内のプロンプト長に遭遇するようにしたした。぀たり、各トレヌニングサンプルのプロンプト自䜓は確かに長さが異なりたすが、バッチ内の最も長いプロンプトに揃える必芁がありたす。そのため、バッチ凊理埌もモデルがさたざたな長さのプロンプトを芋続けるこずが重芁です。そうでないず、特定のプロンプト長の範囲にのみ過剰適合しおしたう可胜性がありたす。トレヌニングバッチをスキャンするための簡単なPythonノヌトブックを䜿甚しお、良い分垃を確認したした25のバッチが225トヌクン、66が150トヌクン、9が75トヌクンでした。ただし、今埌の実行ではこれをよりバランスよく調敎しおみるかもしれたせん。

残りのトレヌニングプロセスは比范的暙準的です。私の実隓ではmin-snr損倱が最も効果的でした。玔粋なfp16トレヌニングは私の環境では機胜しなかったため、モデルをfp32で維持したたた混合粟床を䜿甚せざるを埗たせんでした。朜圚倉数はすでに゚ンコヌドされおいるため、VAEを読み蟌む必芁がなく、貎重なメモリを節玄できたす。トレヌニング䞭のサンプル画像の生成には、別マシンを䜿甚し、保存されたチェックポむントを取埗しおサンプル画像を生成したす。これにより、トレヌニングマシンのメモリず蚈算リ゜ヌスを節玄できたす。

最終的な実行では、有効バッチサむズは2048、EMAなし、オフセットノむズなし、PyTorchのAMPfloat16のみ、bfloat16ではなく、孊習率1e-4、AdamW、min-snr損倱、重み枛衰0.1、線圢りォヌムアップ100,000サンプル埌のコサむンアニヌリング、UCG率10、テキスト゚ンコヌダ1のトレヌニングを有効化、テキスト゚ンコヌダ2は固定、min_snr_gamma=5、PyTorch GradScaler初期スケヌリング65k、β1=0.9、β2=0.999、eps=1e-8。すべおはSDXL 1.0から初期化されおいたす。

バリデヌション甚デヌタセットには2048枚の画像を䜿甚したした。バリデヌションは50,000サンプルごずに実行し、モデルが過剰適合しおいないか、ハむパヌパラメヌタ遞択を支揎したす。異なる損倱関数での実行を比范するために、バリデヌションは垞に基本損倱関数で実行したすたずえトレヌニングでmin-snrを䜿甚しおいおも。500,000サンプルごずにチェックポむントを保存したす。私はサンプル画像を100䞇ステップごずに確認するのが実際には圹立぀ず感じたため、このプロセスは每隔チェックポむントで実行されおいたす。

安定したトレヌニング損倱もログに蚘録しおいたす私はWandbを䜿甚しお実行を監芖しおいたす。安定したトレヌニング損倱は、バリデヌション損倱ず同時に蚈算されたす連続しお。これはバリデヌションパスに䌌おいたすが、バリデヌションデヌタセットではなく、トレヌニングデヌタセットの最初の2048枚の画像ず固定シヌドを䜿甚したす。これにより、安定したトレヌニング損倱が埗られたす。SDのトレヌニング損倱は非垞にノむゞヌですが、この指暙はトレヌニング損倱の進捗をはるかに正確に瀺しおくれたす。

私が䜿甚しおいるバッチサむズは、オンラむンで芋られるファむンチュヌニング実行のいく぀かの倀ず比范しお非垞に倧きいです。しかし、これは他のモデルのトレヌニング経隓に基づいおいたす。倧きなバッチサむズは長期的に有利ですが、短期的には䞍利なため、小芏暡ベンチマヌクではその有効性を枬定するのが難しいです。今回のケヌスでは、それが有利だったず信じおいたす。SDXLの完党な実行は非垞に高䟡で、倚くの実隓を詊すこずができたせん。しかし、倧きなバッチサむズの即時的な利点の䞀぀は、最適化ず募配同期が頻繁に発生しないため、むテレヌション速床が速くなるこずです。

トレヌニングはクラりドでレンタルした8xH100 sxm5マシンで実斜したした。このマシンでは、むテレヌション速床は玄70画像/秒です。぀たり、この実行党䜓は玄5日間の連続蚈算を芁したした。私のようなアマチュアにずっお驚異的な数倀です。ハグを送っおください。私は痛いです。

クラりドでのトレヌニングを実斜したこずは、事前蚈算された朜圚倉数を䜿甚する倧きな動機ずなりたした。トレヌニングを開始するには、デヌタをマシンに転送するのに玄1時間かかりたす。理論的には、トレヌニングデヌタを最初のパストラッキングしお即座にトレヌニングを開始するコヌドを蚭定できたす。8xH100でも100䞇枚の画像を凊理するのに4時間かかりたすので、デヌタはトレヌニングよりも速くストリヌミングできたす。これにより、マシンは無駄に電力を消費せずに埅機したせん。

事前蚈算された朜圚倉数の欠点は、゚ポックごずに朜圚倉数を倉化させるこずによる正則化の欠劂です。モデルぱポックごずに非垞に倚くのプロンプトのバリ゚ヌションを芋たすが、画像の異なるクロップやVAEサンプリングの倉化を芋るこずはありたせん。今埌の実行では、ロヌカルのGPUで朜圚倉数を継続的に再゚ンコヌドし、曎新された朜圚倉数をクラりドマシンにストリヌミングするこずを怜蚎しおいたす。これにより、朜圚倉数は数゚ポックごずに倉化したす。今回の実行では過剰適合を怜出しなかったため、どちらでも倧きな問題ではないかもしれたせん。

最埌に、損倱曲線です。異なるデヌタセット間でバリデヌション損倱にかなり倧きな分散があったため、他の人が比范するのは難しいでしょうが、参考たでに

このモデルで生成された画像

画像が芋぀かりたせん。