PixelNet (ControlNet for Pixel Art)

詳細

モデル説明

https://huggingface.co/thomaseding/pixelnet

--- license: creativeml-openrail-m ---

# PixelNet (Thomas Eding)

### 概要:

PixelNetは、Stable Diffusion 1.5用のControlNetモデルです。

チェッカーボード画像を入力として受け取り、論理的なピクセルを配置する場所を制御します。

これは現在、実験的な概念実証です。私はStable Diffusion(多数のクリーンアップと手動でのキュレーションを経て)で生成した約2000枚のピクセルアート/ピクセル化された画像を使ってこのモデルをトレーニングしました。モデルの品質はそれほど高くありませんが、最小寸法が512のとき、最大約64のチェッカー「ピクセル」のグリッドサイズでは動作します。1024x1024ピクセル以上の画像生成において、128x128のチェッカーボードをモデルが正しく理解できることを確認しています。

このモデルは「バランス」設定のControlNetで最も良好に動作します。「コントロール重み」を1またはやや高めに設定してみてください。

「ControlNetの方が重要」オプションは効果を発揮するためには高い「コントロール重み」が必要です。「コントロール重み」を2に設定してみてください。

低い「コントロール重み」設定では、滑らかな絵画やベクター芸術に似た画像が生成される傾向があります。

小さなチェッカーグリッドはパフォーマンスが悪化します(例:5x5対32x32)。

「ステップ」値が低すぎても高すぎてもモデルが破綻します。さまざまな要因に応じて15〜30程度を試してください。組み込みのA1111「X/Y/Zプロット」スクリプトを自由に実験してください。

### 使用方法:

インストールするには、`.safetensors`と`.yaml`ファイルをAutomatic1111のControlNet拡張機能のモデルディレクトリ(例:`stable-diffusion-webui/extensions/sd-webui-controlnet/models`)にコピーしてください。その後、Automatic1111サーバーを完全に再起動し、ウェブページをリフレッシュしてください。

プリプロセッサは必要ありません。代わりに、コントロール入力として白黒のチェッカーボード画像を指定してください。さまざまなコントロール画像グリッドは、このリポジトリの`grids`ディレクトリで利用できます。(https://huggingface.co/thomaseding/pixelnet/resolve/main/grids/grids.zip)

スクリプト`gen_checker.py`を使用して、任意のサイズのチェッカーボード画像を生成できます。(https://huggingface.co/thomaseding/pixelnet/blob/main/gen_checker.py)例:`python gen_checker.py --upscale-dims 512x512 --dims 70x70 --output-file control.png` で、512x512ピクセルに拡大された70x70のチェッカーボード画像を生成します。

スクリプト`controlled_downscale.py`は、このモデル専用に作られたカスタムダウンスケーラーです。生成された画像と、それを生成するために使用したコントロール画像の両方を指定します。これにより、コントロールグリッドに従ってダウンスケーリングされます。(https://huggingface.co/thomaseding/pixelnet/blob/main/controlled_downscale.py)例:`python controlled_downscale.py --control diffusion_control.png --input diffusion_output.png --output-downscaled downscaled.png --output-quantized quantized.png --trim-cropped-edges false --sample-radius 2`。詳細は`--help`を参照してください。

### VAE:

https://civitai.com/models/366568/vae-teding-aliased-2024-03

### FAQ:

Q:このモデルには「トリガーワード」はありますか?

A:特にありません。トレーニングデータからスタイルに関連するすべての単語(「pixel」や「high quality」など)を削除しました。実際、プロンプトに「pixel art」を追加すると、モデルの性能が悪化する傾向があります(私の経験上)。一方で、出力の色合いが過剰な場合、否定プロンプトに「garish」を追加すると役立ちます。

Q:PNGとJPEG、どちらを使いますか?

A:PNGを使用してください。JPEGの圧縮アルゴリズムはピクセルアートに非常に不向きです。

Q:A1111のユーザーインターフェースへの特別な統合はありますか?

A:はい…しかし、まだ標準のControlNet拡張機能のコードにマージされていません。現在のところ、独自に変更を統合したい方はこちらをご覧ください。(https://civitai.com/posts/371477)

Q:なぜこれが必要なのですか?画像をダウンスケールするためのポストプロセッサを使えないのですか?

A:私の経験では、SDは本物のピクセルアート(専用のベースモデルやLoRAを使用しても)を作成するのが難しいです。論理的なピクセルサイズの不一致や、滑らかなカーブの問題などが生じます。一見まっすぐな線が、実際には曲がっていることがあります。これにより、ポストプロセッサがピクセルを量子化する際に、1ピクセルずれた位置に丸めてしまい、アーチファクトが発生します。このモデルはその問題を解決することを目的としています。

Q:ポストプロセッサと一緒にこのモデルを使用すべきですか?

A:はい、画像のクリーンアップのために依然としてポストプロセッサの使用をお勧めします。このモデルは完璧ではなく、依然としてアーチファクトが残る可能性があります。サンプル出力画像にはすべてポストプロセスが施されていないことに注意してください。これらはモデルの生出力です。コントロールグリッドのチェッカー面の位置に基づいて画像をサンプリングすることを検討してください。提供されている`controlled_downscale.py`スクリプトがこれを行ってくれます。このスクリプトの出力(おそらく`--output-downscaled`ファイル)を別のポストプロセッサ(例:色パレットの精緻化)に渡すことができます。このスクリプトはいくつかの生成画像でしかテストしていないため、サンプリング位置の計算にまだバグがある可能性があります。そのため、現状ではスクリプトの出力を比較してください。代替のコントロールグリッド画像を使用することが有益である可能性がありますし、他のポストプロセッシング方法の方が適している可能性もあります。

Q:このモデルは非正方形のグリッドをサポートしていますか?

A:ある程度はサポートしています。一部の非正方形グリッド(プレアップスケールされたチェッカーボードがアップスケールされた画像サイズの因数でない場合)でトレーニングしているため、その点では問題なく動作します。また、本物の非正方形長方形のチェッカー面(例:幅が2倍のピクセル)を含むチェッカーボード画像でもトレーニングしています。

Q:今後、より良質にトレーニングされたモデルは登場するのでしょうか?

A:そうなることを願っています。はるかに大規模で高品質なデータセットをキュレーションする必要があり、その作業には時間がかかる可能性があります。いずれにせよ、コントロール画像への忠実な制御効果を向上させることを計画しています。将来的には矩形グリッドを超えて一般化することも検討するかもしれませんが、優先事項ではありません。一部のトレーニングデータに非正方形長方形の面を含めたことは、モデルのパフォーマンスに悪影響を与えた可能性があります。同様に、8x8未満のグリッドもそうです。おそらく、非常に小さなグリッド(その場合、手作業で画像を作成したほうがましでしょう)と非正方形長方形グリッド用に、別々のモデルをトレーニングする方が良いかもしれません。

Q:色の量子化についてはどうですか?

A:間もなく「PaletteNet」をリリース予定です。

### サンプル出力:

![sample1](https://huggingface.co/thomaseding/pixelnet/resolve/main/example-outputs/20230703102437-64a98cdc-3566720748-1259.png)

![sample2](https://huggingface.co/thomaseding/pixelnet/resolve/main/example-outputs/20230703091940-d7d11138-2383291623-524.png)

![sample3](https://huggingface.co/thomaseding/pixelnet/resolve/main/example-outputs/20230703083502-89f714b7-2908299568-164.png)

このモデルで生成された画像

画像が見つかりません。