Swin2SR Upscaler (x2 and x4)
詳細
ファイルをダウンロード
モデル説明
これは、私が生成した各種高解像度画像を用いて訓練したSwin2SRアップスケールモデルのシリーズです。特に写実的およびデジタルアートスタイルにおいて、肌のテクスチャーを滑らかにすることではなく、むしろ強化することを目的としています。これらはComfyUIでテスト済みであり、Auto1111やSwin2SRをサポートするその他のツールと互換性があるはずです。
https://github.com/mv-lab/swin2sr
バージョン
3つのモデルが利用可能です。すべてのモデルは.safetensors形式と.pth形式の両方で提供されています。
custom x2
- 私が生成した画像をバッチサイズ16で25,000ステップ、スクラッチから訓練
custom x4
私が生成した画像をバッチサイズ16で28,000ステップ、スクラッチから訓練
x2モデルからのファインチューニングは行っていません
DIV2K + custom x2
SwinIRリポジトリのDIV2Kデータセットを用いて10,000ステップ、スクラッチから訓練
私が生成した画像を追加で40,000ステップ訓練
x2モデルは2回適用(x4)すると品質の損失が最小限に抑えられ、3回適用(x8)すると若干のぼやけが生じます。x4モデルは2回適用(x16)すると明確なぼやけが発生します。
品質
これらのモデルのPSNRは、それぞれのGitHubページで公開されたBSRGAN、SwinIR、Swin2SRモデルと比較して良好です。私がテストした中で最も優れたアップスケールモデルは、Lexicaの画像で訓練されたSwinIR x2モデルであり、https://openmodeldb.info/models/2x-LexicaSwinIR です。このモデルは私のモデルを上回るスコアを記録しています。しかし、これらのモデルはテストパターンの角周辺でのアーチファクトが少ないという利点があります。今後、これらのモデルをさらに改善し、パッチサイズ64での実験も行う予定です。

45dBのPSNRは、品質90%のJPEGとして保存するのとほぼ同等です:https://en.wikipedia.org/wiki/Peak_signal-to-noise_ratio
私が理解するに、元の画像を1つ取り、そのコピーを品質90%のJPEGとして保存し、別のコピーを50%のサイズにリサイズした後にcustom x2モデルでアップスケールすれば、両者の品質損失は同程度になると予想されます。
ほとんどのテストはタイルサイズ256で実施しましたが、BSRGANは例外です。BSRGANのテストスクリプトはタイル処理をサポートしておらず、x4テストでは画像の大きさのためメモリ不足となりました。Real ESRGANにはテストスクリプトが提供されていないため、見つかり次第追加します。
比較
テストパターンはWikimediaより:https://commons.wikimedia.org/wiki/File:Philips_PM5544.svg
custom x2:

DIV2K + custom x2:

Lexica x2:

訓練
すべてのモデルはパッチサイズ48のSwin2SRアーキテクチャを使用しています。これらは、私がFlux.1 DevとComfyUIのハイレゾワークフローを用いて生成した約520枚の高解像度画像の同じデータセットで訓練されました。低解像度画像はバイキュービック補間で生成しました。
customモデルは、合計96GBメモリを備えたRunPodのA40 GPU 2台で、バッチサイズ16で訓練しました。DIV2K + customモデルは、A6000(48GBメモリ)でバッチサイズ8で訓練しました。

