PixArt-Sigma-1024px_512px-animetune

125

1.7K

512px_0.7 1024px_v04 1024px_v0.31 1024px_v0.2 1024px_v0.1 1024px_v0.0 512px_0.6 512px_v0.5 512px_v0.4 512px_v0.3 512px_v0.2 512px_v0.1 512px_v0.0

詳細

ファイルをダウンロード

このバージョンについて

プリューナードモデル fp16 (1.15 GB)：推論用モデル、200エポック。

プリューナードモデル bf16 (9.13 GB)：微調整用 Diffusers モデル + onetrainer 設定データ。

トレーニングデータ (86.05 KB)：ComfyUI ワークフロー。

● 40万枚の画像データセットでトレーニングしました。

以前よりも安定性が向上したと感じています。

また、最初の2枚の画像を除き、今回のサンプル画像はSD1.5とi2iを用いて生成されています。

最近、Pixartの構図とSD1.5のスタイルの融合を楽しんでいます——とても面白いです。

また、i2i用のSD1.5マージモデルも作成したので、興味があればぜひお試しください。

以下は以前と同じ説明です。

参考用にいくつかのワークフローもアップロードしました。

サンプル画像にはComfyUIで確認可能なワークフローが埋め込まれていますが、最近はスペース節約のためJPGに変換されたため、一部が読み込まれないことがあります。以下の拡張機能をインストールすると確認できます。

https://github.com/Goktug/comfyui-saveimage-plus

TIPOを使用した自動プロンプト生成用ワークフロー、汎用品質プロンプトの実験的ワークフロー、簡略化ワークフローが用意されています。推論には正解の方法は一つではなく、異なる手法を試すのが面白いでしょう。

タグには多くの制約がありますが、自然言語では指示の自由度が高くなります。理想の品質プロンプトを探求する価値があるかもしれません。

1024pxモデルは最終的に優れた推論結果を提供する可能性がありますが、その到達には多くの失敗と時間がかかります。結果が未知のまま1024px画像を連続生成するのは苛立ちます。このモデルはそのプロセスを支援することを目的としています。

このモデルにはいくつかの潜在的用途があります：

● 推論速度が速く、タグ互換性があるため、1024pxモデルで推論を実行する前のプロンプトテストに使用できます。

● 512pxモデルで良好な構図を作成し、1024pxモデルでアップスケールします。

● 512pxモデルと1024pxモデルをマージして、速度と詳細をバランスよく約768pxで生成します。（信頼性は不明で、うまく機能しない可能性があります。）

このモデルの標準サイズは512pxです。

SD1.5のように512x768のアスペクト比が適しています。

ただし、長辺が768pxになるとやや崩れます。安定性が重要であれば、512x512pxを基準とし、384x640などのアスペクト比を調整することをお勧めします。

768pxや1024pxはトレーニングされていないため、結果は酷くなります。

ベースモデルは512pxでも非常に高品質です！

通常、中間段階のプリトレーニングモデルやライトバージョンは学習不足または美的魅力に欠けることが多いですが、このベースモデルは異なります。これまで見た中で最も美的なモデルです。

● プロンプトが思いつかない場合は、以下のプロンプト自動生成ツールをお試しください。

https://huggingface.co/spaces/KBlueLeaf/TIPO-DEMO

● また、このモデルは品質タグやネガティブプロンプトでトレーニングされていません。

スケッチやモノクロ画像など、潜在的に有害な影響を持つ画像もトレーニング対象ではありません。

ただし、すべての40万枚の画像は高品質であるため、どのタグも品質向上に寄与する可能性があります。タグが多いほど良いです。

● ネガティブプロンプトとして使用できるタグがいくつかある可能性があります。

以下の様なスタイル関連のタグをネガティブプロンプトに含めることで、別のスタイルに切り替えることができます。

1990s (style), 00s, 10s, simple background, anime screencap, realistic, figure など…

● 安定した品質のプロンプトを作成するのが面倒な場合は、以下の様なプロンプトを使用すると出力の安定に役立つかもしれません。皮肉にも、このようなタグは結局品質タグとして機能します。lol

"nikke, azur lane, blue archive, kancolle, virtual youtuber, arknights, girls' frontline"

モデル説明

4/7 1024pxモデル更新！1024px_v0.4 詳細は1024px_v0.4タブをご確認ください。

512pxモデルと比較して、やや安定性が低く、アーティファクトが発生しやすいですが、構図の自由度が高くなります。新しいバージョンはより多くの概念を学習していますが、美的な結果を求める場合はv0.2以前の方が適している場合があります。

3/5 512pxモデル更新！512px_v0.7 詳細は512px_v0.7タブをご確認ください。

個人的には512pxモデルを推奨します。512pxモデルははるかに多くの概念を学習しています。私は、512pxモデルを使って試行錯誤の推論を行い、良い画像を生成した後、1024pxモデルやSD1.5を用いたi2iでアップスケールする、または同じプロンプトを1024pxモデルで試すというワークフローが好きです。

2/11 1024px&512pxワークフロー更新！TIPOワークフローとSD1.5 i2iも追加しました。TIPO：プロンプト作成の手間を減らし、簡単に画像を生成できるため、強く推奨します。SD1.5 i2iワークフローは、ディテールの向上やスタイルの変更に役立ちます。モデルを選ぶ楽しみがあります。これはPixArtとSD1.5の両方の強みを活かしています。「推奨リソース」の「TinyBreaker」はその完璧な例で、その可能性を追求してさらに洗練されています。こちらもぜひご確認ください。

また、i2i用にSD1.5モデルを実験的にマージしたので、興味があればお試しください。

/model/1246353

PixArtとSDXLを組み合わせる方法も発見されました。

https://github.com/kantsche/ComfyUI-MixMod

/model/1565538/a-pile-of-junk-mixmod-workflow

■これは実験的なファインチューニングです。

注意：このファインチューニングモデルは非常に難易度が高いです！

品質は良くありません！！過度な期待はしないでください！

初めてPixArt-Sigmaに興味がある場合は、オリジナルモデルの推論が可能なワークフローをご覧になることをお勧めします。たとえ私のモデルが優れていないとしても、他の人が作成した驚異的なファインチューニングモデルを使ってみてください！

私は「Comfy Sigma Portable」が、これまでComfyUIを使ったことのない方でも使用できると考えています。面倒なインストールは必要ありません。ダウンロードしてすぐに試せます！

マージはComfyUIで行えます。「モデルを簡単にマージするツール」もシンプルで優れています。

●Forgeにも以下の拡張機能が利用可能です。SDNextでも推論が可能です。

スマートな解決策ではありませんが、Forgeでのファインチューニングモデルの使用方法をガイドとして用意しました。参考にしてください。2/16：最近の更新により、私のモデルを追加して推論できるようになりました。このような機能豊富で使いやすい拡張機能を開発していただき、感謝します。

https://github.com/DenOfEquity/PixArt-Sigma-for-webUI

https://civitai.com/articles/11612

「推奨リソース」の『anime sigma1024px』は柔軟で美的なアニメモデルです。お試しください。

PixArtに少しでも興味を持っていただければ嬉しいです。PixArtには可能性があります。

私の願いは、より多くの人が可能性を持つベースモデルを発見し、その可能性がさらに広がることです。そのお手伝いができれば幸いです。

PixArt-Sigmaはシンプルで軽量、300トークンでの学習が可能です。このような条件を満たすモデルはほとんどなく、訓練制限が極めて少ない希少なモデルです。ハードウェア要件がSD1.5とほぼ同じなので、誰でも学習に参加でき、個人でもわずかな負担で大規模な実験が可能です。推論時にも300トークンの恩恵を受けられ、モデルサイズが小さいためマージ実験が容易です。これは1024px対応、DIT、T5、SDXL VAE、コントラスト処理の改善を備えたSD1.5モデルのようなものです。私はこのようなモデルを求めていました。PixArtはその基準を満たしています。

■私はonetrainerを使用して学習しました。

ファインチューニングは、主にアニメ画像を含む7万枚または40万枚のデータセット（AI生成画像は使用していません）で実施し、すべてのbooruタグで学習しています。学習解像度は512pxまたは1024pxです。PixArtは高品質でありながら要件が低いため、学習に適しています。12GB VRAMで十分です。学習の詳細はページ下部に記載していますのでご参照ください。Onetrainerの設定データもアップロード済みです。

■性的な画像も生成される可能性があるため、ご注意ください。

■以下は最近の私が好みの推論設定です。必要に応じて更新します。

これは最適な解決策ではありません。いろいろ試してみてください！

booruタグと自然言語の両方を使用できます。

●SD1.5 i2iを使用するのは良いアイデアです。このアプローチはPixArtの制限を回避します。

PixArtは構図力が優れていますが、手のディテールなどはしばしば難しくなります。i2iでSD1.5と組み合わせることでディテールが改善され、両モデルの強みを活かせます。

さらに、SD1.5モデルを切り替えることで、リアリスティック、2.5D、アニメなどあらゆるスタイルに柔軟に移行できます。リソースに余裕があれば、SDXLと組み合わせるのも優れた選択肢です。

●サンプル画像にはComfyUIで閲覧可能なワークフローが埋め込まれていますが、最近はスペース節約のためJPGに変換したため、一部読み込めない場合があります。以下の拡張機能をインストールすると確認できます。

https://github.com/Goktug/comfyui-saveimage-plus

●サンプラー：「SDE cfg2.5-6 step12-20」、「Euler cfg_pp」または「Euler A cfg_pp」cfg 1.5-2.5 step30-50

スケジューラ：「GITS」または「simple」

●Euler、Euler_CFG_PP、DEIS：シャープで構図が優れ、崩壊の美しさを楽しめます。

Euler_A：最も安定しており、ポーズやユニークなコンセプトに最適ですが、驚きは少ないです。

DPM++_SDE：中間的な選択肢—ダイナミックでありながら安定しています。

●GITSは豊かなテクスチャを提供し、Simpleは安定した生成品質を保証します。SDEはデータセットに忠実、Eulerはシャープ、Euler Aは安定性を提供します。

私は一般的にGITS +「Euler」、「Euler cfg_pp」または「SDE」を好みます。

「GITS + Euler」または「Euler cfg_pp」は非常にシャープです。

「GITS + SDE」はダイナミックです。

「simple + Euler AまたはSDE」は安定しており、忠実度が向上するように感じられますが、コントラストが高くなることがあります。

●GITSは驚異的なディテールを生み出しますが、時折崩壊したり、プロンプトに従わなくなることがあります。私は自然言語で雰囲気を重視したいときにGITSを好みます。一方、Simpleは安定しており、プロンプトに忠実に従うため、キャラクター制作にはより適しています。

●512x512や1024x1024とやや異なる解像度も許容可能です。512x768や1024x1536のような解像度ではわずかな問題が生じる可能性がありますが、実用的です。より安定した結果を得るには、832x1216などの標準に近い解像度を推奨します。

私は安定性より大きな解像度を重視するため、非標準の解像度を選びがちです。

●プロンプトが思いつかない場合は、以下のプロンプト自動生成ツールをお試しください。

https://huggingface.co/spaces/KBlueLeaf/TIPO-DEMO

Command R+はプロンプトを検閲または拒否しないため、明示的な自然言語プロンプトに最適です。公式サイトでアカウントを作成すれば無料で試せます。

●特定のタグの効果が強すぎる場合は、その重みを下げたり、他のタグの重みを上げてみてください。機能していないのではなく、過剰に強調されている可能性があります。これで問題が解決することがあります。

キャラクターのユニークなタグには注意してください。非常に強力な影響を与える可能性があります。

キャラクタータグはスタイルまで変えることがあります。状況に応じて、キャラクタータグを最後に置き、「1girl」「緑の髪」「学校制服」などの一般タグで特徴を補足すると、柔軟性が高まります。

●否定プロンプトは学習されていません。さまざまなプロンプトを試してください！

下記のデータセット内容で説明されていますが、リアリスティックなテクスチャが好きでない場合は、「realistic」「figure」などの用語を含めてみてください。

否定プロンプトに「anime screencap」を追加すると、平面的な仕上がりを軽減できます。

私は制約を嫌い、多様性を優先するため、否定プロンプトは最小限に抑えています。

最近は、初期ステップで否定プロンプトを無効化し、後期ステップから適用するワークフローを好んでいます。これにより、初期段階での構図問題が減り、後期でスタイルを自由に調整できるため、全体的な品質が向上します。

ただし、私の考えは珍しいものです。必ずしも従う必要はありません！多くの否定プロンプトでより良い結果が出る可能性もあるので、試してみてください！

ステップ数が少ない場合、構図がうまくいかない傾向があります。

●最低でも20ステップ以上あると良いでしょう。最近は50ステップを固定しています。

プレビュー時は、15–25ステップで停止して進行状況を確認します。

良いシードを見つけたら、必要に応じてCFGを調整しながら50または100ステップで洗練します。

後期ステップではほとんど変化がなく、結果を予測できるため、効率と品質を両立できます。

ただし、ステップ数が多いと崩壊は減りますが、過剰に調整されてしまうこともあります。コントラストのバランスを考えると、30ステップ程度が良いかもしれません。

ちなみに、作品タイトル用のタグで学習していませんが、キャラクタータグに作品タイトルが含まれることがあります。特にモバイルゲームでその傾向が強いです。私は偶然作品タイトルを追加したところスタイルに変化があったため、効果がある可能性があります。

●最低でも20ステップ以上あると良いでしょう。最近は50ステップを固定しています。

プレビュー時は、15–25ステップで停止して進行状況を確認します。

Uni-pcは約20ステップで良好な結果を得られるため、より高速です。i2iをベースにする場合、splitsigmasなどの手法で半分のステップで終了してからi2iを行うのも良い考えです。

良いシードを見つけたら、必要に応じてCFGを調整しながら50または100ステップで洗練します。

後期ステップではほとんど変化がなく、結果を予測できるため、効率と品質を両立できます。

安定した品質のプロンプトを考案するのが面倒な場合は、以下のようなプロンプトを使うと出力が安定する可能性があります。皮肉なことに、こういったタグは最終的に品質タグとして機能します。lol

" nikke, azur lane, blue archive, kancolle, virtual youtuber, arknights, girls' frontline"

●品質向上に使用している自然言語プロンプトを共有します。プロンプトの最後に追加してみてください。すでに私のワークフローに組み込まれています。ゲームタイトルタグを最後の行に追加するのが良いと思います。

■一貫した高品質

滑らかで光沢のある肌、鮮やかで自然な色調を備えた非常に詳細なキャラクター。自然なプロポーションと正確な構図で、ダイナミックで表情豊かなポーズ。柔らかく均衡の取れた照明が深みと温かみを強調し、周囲の光がキャラクターと繊細に反応し、調和の取れた環境とのつながりを生み出します。豊かな表情が感情と存在感を伝え、ソフトなハイライトがキャラクターの曲線とディテールを際立たせ、深みと自然な輝きを加えます。

■ダイナミックな構図

滑らかで輝く肌と鮮やかでバランスの取れた色調を備えた非常に詳細なアニメ風キャラクター。完璧な解剖学的構造と自然なプロポーションで、ダイナミックで表現力豊かなポーズをとっています。構図は視覚的に魅力的で、キャラクターのデザインには繊細なテクスチャと精巧なディテールが施されています。柔らかく繊細な照明が深みと温かみを強調し、周囲と調和して没入感のある空気感を形成します。背景は豊かでダイナミックに詳細に描かれ、キャラクターを圧倒することなくシーンを補完する魅力的な要素が満ちています。微妙なハイライトとシャドウがキャラクターの曲線、衣装、特徴を強調し、リアリティと輝きを加えます。全体として、芸術的なスタイルと現実的で説得力のある存在感の完璧なバランスを捉えています。

●この巨大で混沌とした否定プロンプトは実際に効果があるかもしれません。ただ、他のモデルからコピーしたもので保証はありませんが、何らかの効果はあるようです。

構図や解剖学が奇妙に見える場合は、否定プロンプトを削除してみてください。複数回、否定プロンプトが逆効果になることを確認しています。

■amputated, bad anatomy, bad proportions, blurry, dated, deformed, extra limbs, fused fingers, low quality, malformed limbs, missing limbs, mutated, ugly, overexposed, underexposed, flat colors, low detail

■512pxモデル。

このモデルの標準サイズは512pxです。

SD1.5のように512x768の比率が適しています。

768pxや1024pxは学習されていないため、結果は壊滅的になります。

ベースモデルは512pxでも非常に高品質です！

通常、途中のプリトレーニングモデルやライトバージョンは学習不足や美的魅力に欠けることが多いですが、このモデルは異なります。これまで見た中で最も美的なモデルです。

訓練および推論のハードウェア要件が低く、高速であるため、私が探していたSD1.5の後継モデルになる可能性があると感じています。このモデルが大好きです。

正直、2Dキャラクターに焦点を当てた画像生成では、512pxと1024pxの差はほとんどありません。高解像度が明確に必要なコンセプトでない限り、512pxで十分です。

■ 1024pxモデル。

時間を無駄にしたくない場合は、まず512pxモデルを使ってどのプロンプトが効果的かを練習するのが良いでしょう。

マージ（統合）も面白いかもしれません。

リアリスティックなモデルとマージすると、時として解剖学的な正確さが改善されることがあります。

興味深いマージ実験の例：

1024pxと512pxモデルを0.5の比率で単純にマージします。これにより768pxのスケールで生成できます。768x768、576x960、あるいは640x1024などの解像度を試してみてください。768x1024は時折崩れることがありますが、たまに成功することもあります。

プレビューにブロックノイズやラインノイズがなければ問題ありません。これらのノイズが現れ、生成画像に奇妙なアーティファクトが現れ始めた場合、それが解像度の限界です。

このアプローチは速度とディテールのバランスを取っていますが、マージの安定性については完全には自信がありません—いくつかの問題がある可能性があります。それでも、興味深い実験として試す価値はあります。

※ちなみに、旧バージョンが劣っているとは思いません。

訓練が進むにつれて、モデルはより多くの概念を学習しますが、段々とPixArtの美的感覚から逸脱していきます。

したがって、旧バージョンの方が場合によってはより良いバランスを持っているかもしれません。

好みの問題なので、あなたが最も気に入ったバージョンを使ってください。

個人的には、古いバージョンのサンプル画像で気に入ったものが多くあります。最新バージョンでそれらを再現できるか自信がありません、笑。

■私はdanbooruタグで訓練しています。

1girlのような汎用タグのみを学習しており、アーティストやアニメ作品のタグは訓練していません。

少ないタグ数ではひどい結果になることがあります。

人気のあるタグは一般的に品質が高いです。

例：視線（viewerを見て）、上半身、輝く肌、アニメスクリーンキャップなど。

効果が強すぎると感じたら、重みを下げるのも良いでしょう。

タグを自動生成できるツールを使って、さまざまなタグを生成してみるのも面白いでしょう。

これはタグがどれだけ学習できるかを試す実験です。

私の訓練品質はそれほど高くありませんが、予想以上に学習しています。

場合によっては、他のモデルでは難しい表現ができるかもしれません。

T5を微調整しなくても、いくつかの新しい概念を追加することが可能です。

ベースモデルは過度に検閲されておらず、Cascadeのように高露出の衣装を問題なく扱い、時にはヌードを生成することもあります。

他のモデルとは異なる感覚で面白いです。

データセットが小さいため、まだすべてのタグを認識できていません。

自然言語は依然として十分に機能します。ベースモデルとは異なる興味深い側面があるかもしれません。

とても楽しいです。私はChatGPTにテーマを与えて自然言語プロンプトを作成しています。

■リアルまたはAI的な見た目が強く出るケースがあります。

ネガティブプロンプトに「realistic」を追加すると良いかもしれません。

一方、アニメ以外のスタイルを試すのも面白いでしょう。

元々意図されていなかった分野で新たな発見が生まれます。

完璧さを過度に期待する必要はありません。

このモデルはまだ未熟です。崩れた結果の方が面白いことが多いです！

■スタイルに一貫性がありません。品質が低く、固定された設定やプロンプトがありません。

●既存のモデルに対して優位性がなく、データセットが狭いです。

●不完全で非常に難しいモデルですが、興味があればぜひ試してください。

●人物の身体が崩れるのは検閲の問題ではなく、私の微調整が不十分なためです。ご容赦ください！笑

今後も改善を続けていきます！

●マージは問題ありません。面白い結果があればぜひ共有してください！

512pxモデルを差分マージで1024pxモデルに統合できると思います。比率が大きすぎると崩れる可能性がありますが、コンセプトやスタイルを強化するのに役立つかもしれません。

■データセットの注意点：

●「realistic, figure, anime screencap」

これらは私が意図的にスタイル学習のためにトレーニングした唯一の3つのタグで、これらを使用すると特定のスタイルが強制されます。

「anime screencap」はTVアニメスタイルになります。

●ネガティブプロンプトに「realistic, figure」を入れると、アニメスタイルが強制されます。

しかし、他の2Dスタイルは一貫性がなく、キーワードによってスタイルが変わります…

●私の理解では、性的なコンテンツはビジュアルノベルゲームのスタイルになりやすく、自然言語はAIまたは2.5Dに傾向があります。

「looking at viewer, upper body, shiny skin」などのタグは多くの画像に付与されているため、品質が高くなる可能性があります。AI画像スタイルに近いと感じます。

「blush」も広く使用されており、ビジュアルノベルゲームや日本の2Dアーティストのフラットなスタイルになりがちです。

●私のデータセットには、ビジュアルノベルゲーム、リアル人物、フィギュア、2.5D、アニメスクリーンキャップ、AI画像が含まれています。

このような幅広いデータでトレーニングしたため、スタイルがタグにリンクしており、制御が少し難しくなるかもしれません…

●背景タグがなければ、画像は白背景になることがあります。

これは、プロンプトに指定されていない要素が画像に漏れにくいためです。

プロンプトが短いと、結果が曖昧でぼやけてしまうことがあります。生成したい画像の種類を示すキーワードを追加してください。

●以下のような、念頭に置いている風景のタグを含めることをお勧めします。

さらに、そのタグに基づいて背景にどのような要素が必要か考え、それらを追加してください—たとえば、部屋に植物、街に車など。

背景が主役になり、キャラクターが小さく見える場合は、「solo focus」といったタグを使うことでキャラクターを主役として強調できます。「landscape」タグは背景を主役にしやすいです。キャラクターが主役なら、使用しないほうが良いでしょう。

「outdoors, scenery, landscape, indoors, bedroom, building, car, crowd, forest, beach, city, street, day, night, from above, from below」

■参考までに、私のシンプルなComfyUIワークフローとOneTrainerの訓練設定データも共有します。

ComfyUIで推論を行うには、「ExtraModels」プラグインをインストールする必要があります。私が使用している「vae」と「T5」のURLも共有します。

他のWebUIで使用できるかは不明ですが、他の人がワークフローを共有しているので、それらを参考にするのも良いでしょう。

■ExtraModels

https://github.com/city96/ComfyUI_ExtraModels?tab=readme-ov-file#installation

■vae

https://huggingface.co/madebyollin/sdxl-vae-fp16-fix/blob/main/diffusion_pytorch_model.safetensors

■T5

https://huggingface.co/theunlikely/t5-v1_1-xxl-fp16/tree/main

SD3のT5と同じなので、SD3の8bit T5もおそらく使用できます。これだと読み込みが速くなります。

■ベースモデル（他の解像度を試す場合にダウンロードしてください）

https://huggingface.co/PixArt-alpha/PixArt-Sigma/tree/main

■1024pxのdiffuserモデルは訓練中に必要です。これをベースモデルとして指定して訓練してください。

https://huggingface.co/PixArt-alpha/PixArt-Sigma-XL-2-1024-MS

■512pxモデル。

https://huggingface.co/PixArt-alpha/PixArt-Sigma-XL-2-512-MS

1024pxモデルと比較して、ハードウェア要件が低く、訓練速度は約4倍速いため、より多くの人が訓練できます。トランスフォーマー以外は1024pxモデルと同じデータを使用しているため、上記のURLからデータを転送してください。

■GPUに余裕がある場合、T5をGPUに読み込むと推論が速く、負荷が軽減されます。

T5を4bitに変換すると、より低いスペックでも推論が可能です。

12GBのGPUで問題ありません。4bitに変換すれば8GBのGPUでも読み込める可能性があります…もしダメでも心配しないでください！システムRAMに読み込めます！

ComfyUI ManagerでExtraModelsをインストールしてもエラーが発生した場合、

ExtraModelsのURLの手順に従い、

VENVを有効化して再びrequirementsをインストールしてください。

T5を4bitに変換したとき、bitsandbytesでエラーが出ましたが、requirementsを再インストールしたら解決しました。

私も詳しくないので、インストールのサポートは難しいかもしれません…

■私はcivitai初心者です。ご意見があればぜひ教えてください。

訓練は苦手ですが、PixArtの可能性をできるだけ多くの人に共有できれば嬉しいです。

PixArt-Sigmaには可能性があります。

私の夢は、より多くのPixArtモデルが登場することです。皆さんが訓練したモデルも見てみたいです！

訓練要件は低く、12GBで十分です！

総ダウンロード数は1000回を超えました。私の未熟なモデルにご関心いただき、ありがとうございます！多くの「いいね」に感謝します。m(＿＿)m

バズもありがとうございました！

この微調整自体は特に並外れたものではありませんが、私の訓練に関する情報がPixArtに興味のある誰かの役に立てば幸いです！

■以下に、私の訓練に使用したGPUと訓練時間のリストを示します。訓練の参考にしてください！

詳細な設定を知りたい場合は、OneTrainerの設定データをダウンロードしてください。

GPU: RTX 4060 Ti 16GB

■512px

バッチサイズ：48

70,000 / 48 = 1,500ステップ

1エポック：5時間

15エポック：75時間

GPU使用量：13GB

このバッチサイズとエポック時間では、SD1.5と速度はそれほど変わらないと思います。速いです。

512pxモデルはSD1.5の後継モデルのように感じます。

■1024px（テスト）

バッチサイズ：12

70,000 / 12 = 5,833ステップ

1エポック：30時間

5エポック：150時間

GPU使用量：15GB

正確に4倍かかっていないのは、バッチサイズの違いによるものです。

私の環境では、1024pxのSDXLモデルの訓練は不可能だと感じたため、試しておらず、速いか遅いかわかりません。しかしバッチサイズは良いと思います！

■フルファインチューニング：12GBでも1024pxの訓練は問題ありません。

私は16GBを持っているため、バッチサイズは少し大きめです。

バッチサイズを下げると、VRAM使用量が大幅に減少します。

バッチサイズを1または2にすれば、8GBでもおそらく大丈夫です。

私はCAMEをオプティマイザとして使用しており、少しGPU使用量が増えますが、品質が良くて気に入っています。

AdafactorやAdamW8bitを使用すると、VRAM使用量が大幅に減ります。

テキストエンコーダーであるT5は非常に巨大であるため、現在は訓練に多くのVRAMが必要で難しいかもしれません…

SD3の登場により、この議論は進み、訓練方法が確立されるでしょう。それまでは、大量のVRAMが必要かもしれません…

フルファインチューニングの設定ガイドが必要な場合、これらを参考にしてください。

ただし、過学習する可能性や、PCの仕様によっては困難な場合があります。

これらを参考にしながら、自分に最適な設定を見つけてください。

私はGPU使用量を減らすためにBF16訓練に切り替えて、同じ設定を達成できたので、それを使用しています。

https://github.com/PixArt-alpha/PixArt-sigma/blob/master/configs/pixart_sigma_config/PixArt_sigma_xl2_img512_internalms.py

https://github.com/PixArt-alpha/PixArt-sigma/blob/master/configs/pixart_sigma_config/PixArt_sigma_xl2_img1024_internalms.py

注意！

■OneTrainerで訓練する場合、トークン数は120に制限される可能性があります。

タグ訓練では、タグのシャッフルが行われるため、影響は最小限です。

正直、タグでは120トークンで問題は一度もありませんでした。

しかし、自然言語ではキャプションの長さが重要であるため、意図しない切り捨てが発生する可能性があります。

■関連部分：「max_token_length=120」この値はトークンの制限です。

https://github.com/Nerogar/OneTrainer/blob/23006f0c2543e52a9376b0557e7a78016d489acc/modules/dataLoader/PixArtAlphaBaseDataLoader.py#L244

■xformersの場合、256トークンを超えるとエラーが発生しました。sdpでは300トークンまでは問題ありませんでしたが、512トークンでは生成画像が崩れました。

より多くのトークンが必ずしも良い結果をもたらすとは限りません。

キャッシュサイズの増加により、コストパフォーマンスが見込めない場合は、120トークンで十分かもしれません。

品質の向上は保証されませんが、調査する価値はあるかもしれません。

確実な保証はありませんので、誤りがあればお知らせください！

ご質問がありましたら、遠慮なくお尋ねください！

日本語での質問も大丈夫ですので、お気軽にお声がけください～

このモデルで生成された画像

並び替え

画像が見つかりません。

モデルタイプ	チェックポイント
ベースモデル	PixArt E
公開日	3/5/2025