Pixel Art Style (illustrious by Skormino)

詳細

ファイルをダウンロード

モデル説明

変更履歴

バージョン 7.05 🔨

推奨使用方法:

ComfyUIでカスタムノードを使用することを引き続きお勧めします——これは正しいアプローチだと信じています。私のカスタムノードの使い方

  • モデル: Plant Milk Model Suite Walnut | indexed v1

  • CFG: 3–4

  • ステップ: 28+

  • サンプラー: Euler | EulerA

  • スケジューラ: Simple | sgm_uniform

私のトリガー語の後にプロンプトを記述してください: masterpiece, pixpix, 8-bit, pixel_art

品質タグを多用しないでください——それらは滑らかな画像用に設計されていますが、ピクセルは本質的に四角形です。品質タグを多用するとどうなるか、気づいていますか?

VAE:

私は通常、組み込みVAEを使用していましたが、Comfyをアップデートした後、利用可能な最初のVAEであるlunaXLILNAIVAE_lunaを使うしかありません。たとえ試したいとしても、それが効果をもたらすのかどうか確認できません。

VAEの話題ですが、最近SDXLベースのVAEを見つけました。ピクセル化されていますが、結果は素晴らしく、SDXL自身は古くなっている上、そのVAEは私のLoRAと競合します。自分自身でVAEをトレーニングしたい——約6人がハードウェアを提供してくれましたが、いつも何かがうまくいかず、まだ外部機器で何も実行できていません。

私のデータでトレーニングされたVAEは、LoRAよりも優れた結果を生み出すと確信しています。

しばらくこのことに取り組めていません。怠惰に押しつぶされています。

テストモデル:

72枚の画像(以前のトレーニングには含まれていないため、他のバージョンとは明確な差異が生じるはずです)を使用しています。

このバージョンは興味深い水平風景と珍しいキャラクターを生成する点が気に入っています。女の子の目にはたまに問題がありますが、なぜか理解しています——明確にデータセットの問題です。これを修正するには、新しいモデルを一から作成する必要があります。

過去3か月間、ひどい無気力に突き落とされてきましたが、いくつかの技術的な真実に気づきました。たとえば:データセットに1枚でも品質の怪しい画像を含めると、他の完璧な画像はほぼ効果を発揮しなくなることをご存知ですか?悪いものが良いものを引きずり下ろします。ニューラルネットワークは見たものを決して忘れず、怪しい要素があれば、すべての生成に現れます。つまり、良さそうに見える画像があっても、アーティストが意図的に描いた何かが生成ごとにアーティファクトとして現れるため、結果は結局中途半端になります。

データセットが大きくなるほどリスクも高まります。トレーニング中に画像に隠された欠陥があるかどうかは、誰にもわかりません。しかし、画像の数は、何かを描く方法の多様性を決定します。哲学的な話はこれ以上続けられませんが、ここでやめておきます。

ちなみに、Pony用のバージョンをリリースしようとしていました——面白い結果が得られますが、PonyにはIllustriousよりもはるかに大きなデータセットが必要なため、データセットが本当に印象的になるまで待つことにします。

ここまで読んでくれて、ありがとうございます。

ここで、私のTelegramチャンネルを宣伝したいと思います:t.me/pip_inastall_r

私の作品を評価してくれる方々とコミュニケーションを取りたいのです。便利なメッセンジャーを使うのは最適な方法でしょう。もし人が参加してくれれば、さまざまな素材を頻繁に共有します——データセットも(十分な関心があれば)。

小さな画像を作成してみてください——結果は私にとって素晴らしいです。

バージョン 6.3

このバージョンは、データセットv4とv5を使用してトレーニングしましたが、何より自分自身で新しいことを学びたかったのです。通常の12エポックと1回の繰り返しではなく、逆に1エポックで12回繰り返しました。個人的には結果に満足——エポックの一般化が改善をもたらさず、723枚の画像のみでトレーニングしたにもかかわらず、最終出力はデータセットのクローンのようには見えません。

念のため、生成時のパラメータとして私の推奨を記載します:Euler_asimpleチェックポイント:PlantMilkSuite_walnut。ステップ数は任意ですが、通常は多いほど良く、26ステップで十分な場合が多いです。CFGはモデルによって異なりますが、私の好きなモデルではCFG 4が最適です。独自のLoRAを追加したい場合、よく考えてください——そのLoRAはスムージングを伴ってトレーニングされていますか?ピクセルはぼかし圧力で消えてしまう可能性があります。ピクセルを殺してしまうLoRAは避けるのが最善です。

また、どのチェックポイントでもLoRAを有効化できますが、私がこれまで触れたほとんどのLoRAは私のモデルと相性が良くありません。この点を心に留めておいてください。

残念ながら、プロンプトにアーティストタグを使う方にとっては、それらのタグも画像をぼかしてしまう可能性があります。最良の解決策は、アーティストタグを一切使用しないことです。私のプロンプト推奨:**"pixpix, 8-bit, pixel_art"で始めて、"masterpiece"**で終える——これにより画像はシャープに保たれ、ピクセルは死にません。

次に、私にとってやや繊細な話題です。CivitAIの統計によると、私のモデルは酵母のように成長しているようです。実装やさらなる開発のアイデアは山ほどありますが、ここでいくつかの細かな点を説明します。

まず、速度が足りずイライラしています。もし誰かがコンピューティングパワーを提供してくれるなら、メッセージをください——全員に返信します。

次に、トレーニング用のベースモデルを多数試しました。信頼して言っておきますが、Illustriousはピクセルアートに最適なモデルではありません。私はSDXL、PONY、Illustriousを試しました。以下が私の発見です:

  • Ponyは興味深い事例です——世界の理解が完璧ではないかもしれませんが、芸術的出力は印象的で、特に素材吸収能力が秀逸です。Ponyは「ゲーム開発」分野に最も近いモデルです。これは非常に重要です。もちろん、PonyはNSFWコンテンツに関してはIllustriousに大きく劣ります。Illustriousはアニメやキャラクターをよく理解していますが、背景の描写はPonyに劣ります。

  • SDXLについては?正直、何をすれば良いかわかりません。私にはあまりにも複雑すぎました。正直、何をすべきかわかりません。単に楽しくアップロードして、みなさんで遊んでみてください。

ちなみに、私のLoRAを使って作品を公開してくれる方がいたら、本当に感謝します。これは私にとって重要です——一緒に何を達成しているかを確認できるからです。私が良い結果を得るのは一時的なことですが、あなたが同じ結果を得られることこそが本質です。しかし、半分以上は生成結果がそれほど良くありません。私が投稿しているのは、生成したものの上位10%だけだからかもしれません?誰にもわかりません。

このトレーニングには「ゲームグラフィックス用にトレーニングする」という明確な目標はありませんでした。単に画像の混合物を組み合わせ、ピクセルアートの本質を一般化しただけです。しかし、このテーマは私が予想した以上に広がりました。私の理解が、AI生成ピクセルアートの全般的な問題を解決できるかもしれません。しかし、前述したように、私はハードウェアの不足に苦しんでいます。

現在のモデルが存在するのは、かつて友人から20,000のbuzzを運よく購入したからです。だから、現在すべてのモデルをCivitAIでトレーニングしていますが、最小のトレーニングでさえ500buzzかかるため、かなり高価です。そして、試したいことがたくさんあります。

最も悲しいのは、トレーニング用にサイトにアップロードできる画像が1,000枚までに制限されていることです。これを解決するにはローカルトレーニングに移行するしかありません。もし誰かが協力してくれるなら、メッセージをください。あなたを通じてトレーニングできるかもしれません。

モデル下にぜひコメントを残してください——特に現在のモデル状態についての批判的なフィードバックは、とても大切にしています。

誰かがComfyUI用のカスタムノードのリンクを送ってくれました。そのツールを試してみましたが、私が使っているものよりリソースを多く消費しますが、機能面では優れています。ただ、セットアップが難しいです。この分野には多種多様なノードがあり、既存のものだけに限定する必要はありません。例えば、私は実験が好きで、GPTチャットを使って独自のツールを作ることもあります。これは、並べ替えや自動化タスクにおいて非常に役立ちます。鍵となるのは、その背後にあるアルゴリズムを理解することです。
https://github.com/HSDHCdev/ComfyUI-AI-Pixel-Art-Enhancer/tree/main

以下は、古いバージョンを使っている場合に理論的に役立つ可能性のある情報です。多少古臭く感じるかもしれませんが、記録として残しておきたいと思います。

私のモデルがうまく動かない場合、原因はさまざまです——選択したモデル、ComfyUIでの設定ミス、または壊れたForge/Automaticインストールなど。否定的なレビューを残す前に、まずコンピューターを再起動することをお勧めします。信じられないかもしれませんが、これでVAEデコードの問題が解決したことがあります。

何か具体的で重大な問題が発生している場合は、遠慮なくコメントに記してください。どんな問題も解決可能です。さらに、プロンプトとネガティブプロンプトは結果に決定的な影響を与えます。

生成結果の画像をモデルの下に直接アップロードしてください。どんなにがっかりする結果でも、私が見ることができます。幸い、CivitAIは画像をダウンロードでき、私の側からあなたのワークフロー全体を共有できるため、問題の診断に十分な情報が得られるでしょう。私は少し執着しています——毎日モデルのページをチェックして、状況を確認しています。

バージョン 5.0

申し訳ありませんが、私は正直、この人生を生きるのにあまりにも怠惰です。ここでお伝えしたいのは、掲載されたすべてのアートはWD TAGGERノードを使って作成されています。

たくさん話したいことがあります。少なくとも、私はピクセルアートに特化したカスタムノードを作成しました。これはComfyUIでピクセル化作業に完璧に役立ちます(もちろん、私のノードは色数を変更しませんが、必要に応じてあなた自身で後処理を設定できます)。

忘れていたことを思い出しました:pixpix8-bitpixel_artの3つのトリガー語をすべて使ってください。

これらがなければ、LoRAはまったく機能しない可能性があります。

ノード自体へのリンクをここに記載します:https://civitai.com/articles/17203

そのシンプルさが、これを不可欠なものにします。

私はPlantMilkSuite_walnutモデルが大好きです。

Euler_aサンプラーとsimpleスケジューラをお勧めします。

しかし、ここに本当に沸き上がっていることがあります…

「LoRA」方式でピクセルアートをトレーニングすることは、モデルの一部にしか影響を与えないようなものです。私はモデルの本来の理解を変えているわけではありません。私が提示した多くの結果は興味深いかもしれませんが、モデル自身は自分の知っていることを知っているだけで、このようなトレーニングでは不要な要素が完全に置き換えられることはありません。モデルの主な知識の残骸が十分に残っており、目の中に丸や線を描き、ピクセルアートではなく「目」に見せようとしてしまうのです。全体的に説明しにくいですが、私の状況の本質は以下の通りです:

非常に大量のデータセットを手動でトリミングする必要があります。しかし、この作業を終えても、私がずっとCivitAIでトレーニングしてきたという事実は変わりません。そして、このサイトは1,000枚以上の画像をアップロードすることを許可していません。技術的に言えば、唯一の救済策はローカルトレーニングまたはレンタルサーバーでのトレーニングですが、私は情熱と固定観念だけで動く、貧弱な存在です。あなたに理解してほしいのは、私はAMD RX 6750(VRAM 12GB)を持っていることです。1枚の画像を生成するのに1分から2分半かかります。このようなハードウェアでもローカルトレーニングを試みていますが、おそらくハードウェアのアップグレードなしには成果は得られないでしょう。

正直、トレーニングのテーマに深く入り込む中で、多くの興味深いことを発見しました。たとえば、ファインチューニングというトレーニング方法があります。これは私が現在利用できない方法ですが、ハードウェアを手に入れたら、このような強力なツールを習得するのに協力してくれる人を見つけられるかもしれません。もしそうなれば、モデルのすべてのブロックやレイヤー、そしてすべてのピクセルに触れながら再トレーニングできれば、誰もが利用できるより優れたものを創り出せるでしょう。

このようなことは、おそらく口にすべきではないのかもしれませんが、レトロディフュージョンという概念があります。これに関しては、Aseprite用のプラグインや、夢にも見られないほどの機能やトリックがあるという点だけを言いたいです。私が唯一言いたいのは、そのサービスが途方もなく高価だということです(65ドル!?)。どれほど努力し、神経をすり減らしても、まず自分の過去の自分を助けたいと思っています。私はただ、ピクセルグラフィックでゲームを作りたかっただけで、神経ネットワークに足を踏み入れたのです。今はトレーニングをし、現在の制限の中でも使える抜け穴を推測し、将来的には、自分自身の努力と汗と涙で十分な資金を稼いで新しいハードウェアを手に入れれば、誰よりも優れた結果を達成できると本気で信じています。

念のためお伝えしますが、このバージョンのトレーニングには、完全な新規画像が257枚だけ使用されており、これによりこのバージョンは他のバージョンと明確に区別されます。また、AlphaとDimは64に設定されており、そのためLoRA自体が非常に強力です。
さらに、上記のほか、CivitAI内でトレーニングを極めて安価にする方法を自分自身で見つけました。このモデルは私にとって極めて重要なものでした。必要なのは、画像を1984ピクセル以下にトリミングするだけでした。

実験を恐れないでください;私は時々、低い影響レベルでランダムなLoRAモデルをテストします。0.1から0.3のような値はピクセル画像をあまり乱すことなく、必要な雰囲気を画像に加えることができます。

ちなみに、バージョン4にはアーティスト名に関連する機能的なタグがしっかり備わっていたと聞きました。バージョン5以降でこの点に問題がある場合、お詫びします。私はそうした機能について考えたこともなく、技術的にもそれらの使い方を完全には理解していません。

ForgeやAutomaticのユーザーの立場に共感します。なぜなら、あなたたちに何も提案できないからです。これらのインターフェースは使用できないため、あなた向けの推奨事項は一切ありません。

説明がごちゃごちゃしていて申し訳ありません。あまりにも疲れて、整理する気力がありません。以下に古いノートを残しておきます。もしあなたが旧バージョンを使っているなら、役立つかもしれません。
------------------------------------------------------------------------------------------------------

8ビットトークンで生成を試すことを強くお勧めします。私は当初、何かがおかしいのではないかと思っていましたが、実際には生成に役立ちます。ただし、ここで重要なのは、あなたの目的と、このようなグラフィックが必要かどうかです。

以下の値で結果に満足しています:
euler_a

sgm_uniform

ステップ:36

モデル:PlantMilkSuite_walnut または WAI-NSFW-illustrious-SDXL

トレーニングデータセットは、各ピクセルが8x8に等しいアートワークで構成されています。これは重要です。「完璧な」ピクセルが必要な場合、0.125でリサイズし、その後8.000で再リサイズすることを推奨します(係数に抵抗を感じる場合、またはパーセンテージ操作を使用している場合は12.5%とお考えください)。リサイズには最近傍法を使用してください。

驚いたことに、このモデルはピクセルに関連する単語なしでもピクセルを生成できます。この仕組みは次の通りです。「pixel_art」という単語は、モデルにピクセルアートのように描画したいという欲求を刺激しますが、実際には私はモデルにピクセルアートを教えたわけではありません。トレーニング時に指定したトリガーワードは「pixpix」だけで、私自身はLoraが正しく機能するためにはそれを入力する必要はありません。Loraを有効にしているだけで十分です。

「Pixel_art」や類似の単語は、依然としてニューラルネットワークの作業を容易にします。なぜなら、ピクセルアートに特徴的な輪郭や制限が現れるからです。

あなたにあまりにも多くのことを求めているかもしれません。私のモデルでできるだけ多くの作品を公開してください。コメントを残し、嫌いな点や見てみたい点を教えてください。私はあなたのすべての声に耳を傾け、あなたのすべての作品を喜びます。あなたの活動に感謝します。おかげで、私はさらに多くのテストの機会を得られています。

私はあなたに普遍的なツールを提供したかったのです。あなたの支援がなければ、反響を生み出すには多大な労力と時間がかかります。

次に予定しているのは:テスト、テスト、そしてさらにテスト。さまざまなパラメータがトレーニングに役立つ可能性があります。私はまだトレーニング資料で何が起きているかを説明しようともしていません。まあ、まあ、まあ。そもそもそれが必要なのかさえわかりません。

バージョン 4.0

このバージョンは非常に広範なデータを備えており、488枚の画像で構成されています。現在の状態では、価値のある結果を示すことができます。しかし、私はこのバージョンを別の視点から見てみたかったのです。以前のポリシーでは、dimとalphaパラメータを段階的に増やしていましたが、このバージョンではそれらをalpha 32 x dim 48に変更しました。これはモデルを実装するのに十分でしょうか?この質問に答えにくいのは、私が特定の誰かに求められている具体的な実務タスクを持っていないからです。したがって、私はこのLoRAモデルにおいて自分自身やあなたを制限しません。

バージョン 3.1

いくつかの点を確認したかったため、このバージョンが登場しました。このバージョンの特徴は、データセットが以前のバージョンとは全く異なる点です。スタイルも実際には異なり、これが非常に重要です。ただし正直なところ、なぜピクセレーションが半分のケースでうまく機能せず、私が求めるレベルに達しないのかわかりません(結果を得られると信じていたのに、今回はそうならなかったようです)。私の行動にどれほどの意味があるかは、時間だけが教えてくれるでしょう。どうか、この本質的にまったく新しい(ただしテスト用)スタイルを、私と一緒に評価してください。ちなみに、私が指定したすべてのトリガーワードを使うことをお勧めします。いずれにせよ、私は良い結果を得ています。
なぜこれを3.1と名付けたのか?他のバージョンより真剣に作られていません。

バージョン 3

可能な限りデータセットを修正しました。280枚の画像を扱うのは簡単ではありません(間違いが十分にありました)。このプロジェクトの目標は、モデルの可能性を広げることでした。モデルに与える顔の数が多ければ多いほど、同じものを繰り返し描く可能性は減ります。その後、さらにいくつかの作品を追加することにしました。その後、大きな違いに気づきました。Loraの2番目のバージョンは、ピクセレーションだけでなく制限されたパレットも含んでいました。バージョン3はこの点だけでなく、いくつかの場所でより明るく豊かになっています。いずれにせよ、ビジュアルスタイルは変化しました。どちらがあなたの好みか、自分で判断してください。

トレーニングを遅らせ、ノイズオフセットを変更し、dimを増やしましたが、alphaには手を出さないようにしました。ピクセルがピクセレーションされず、ぼやける原因を解決するためのさまざまな可能性を検討しています。私の最大の恐れは、指導者からの言葉です。彼は、ニューラルネットワークが画像から1メガピクセル以上の情報を覚えていないと信じています。彼の言う通りかもしれません。もしそうなら、1024x1024より小さい作品でトレーニングしなければなりません。1024x1024を掛け合わせると1,048,576になり、1メガピクセルは1,000,000ピクセルです。このような狭いフォーマットでニューラルネットワークを適切にトレーニングするには、非常に労力が必要です。私は高品質なピクセルアートのソースがそれほど多くありません。

CivitAIで見られる他の多くのピクセルモデルとは異なり、私のモデルはピクセルアートを忠実に再現する明確なルールを持っていますが、残念ながら、私は「ダイザリング」の制御を試す体力がまだありません。現時点では、ダイザリングはランダムに現れます。私は、輪郭の有無のように、理想的に制御できることを確信しています。現時点では、モデルは輪郭を好んでいます。

バージョン 2

データセットを281枚に拡大しました(最初のバージョンは約50枚でした)。生成可能なバリエーションは大幅に増えましたが、ピクセルはまだ完璧ではありません。そして、あなたが知っているでしょうか?私はデータセット内のすべての画像を見直すつもりです。なぜなら、問題が隠れた不完全さにある可能性があると考えているからです。たった1枚の画像にわずかなグラデーションや壊れたピクセルが含まれているだけで、トレーニング全体が台無しになる可能性があります。しかし、それ以上に恐ろしいのは、私に似た「pixelate+」ツールが見つからないことです。例えばpaint.netには「pixelate+」エフェクトがあり、そのピクセレーション方法は非常に優れており、画像をほとんど変更せずに完璧にピクセレーションできます。私はComfyで同様のツールを見つけられなかったことにとても残念です。私が使っているリサイズ方法を使用している場合、残念なお知らせがあります——この方法は理想的ではありません。少なくとも私のテストではそうでした。あなたの環境が異なる可能性があり、実際にはすべてうまくいくかもしれませんが。

バージョン 1(テスト)

正直に言うと、次のバージョンで達成したいものとは少し異なりました。

バージョン2のリリースをお待ちください。それは現在のバージョンよりずっと優れたものです。

上記の言葉に恐れず、テスト用LoRAが奇妙で過学習しており、テキストプロンプトに従うよりも、トレーニングされた内容をより頻繁に描画することを覚えておいてください。

実行中に多くの剣、奇妙な本、イースター島のモアイ像に遭遇するでしょう。そして何より:GigaChad(女性でも彼の顔の特徴を持つ可能性がありますが、これは制御不能です(いずれにせよ、私は試していません))。

私に連絡:

https://t.me/SKORMINO

このモデルで生成された画像

画像が見つかりません。