Swin2SR Upscaler (x2 and x4)

詳細

ファイルをダウンロード

モデル説明

これは、私が生成した各種高解像度画像を用いて訓練したSwin2SRアップスケールモデルのシリーズです。特に写実的およびデジタルアートスタイルにおいて、肌のテクスチャーを滑らかにすることではなく、むしろ強化することを目的としています。これらはComfyUIでテスト済みであり、Auto1111やSwin2SRをサポートするその他のツールと互換性があるはずです。

https://github.com/mv-lab/swin2sr

バージョン

3つのモデルが利用可能です。すべてのモデルは.safetensors形式と.pth形式の両方で提供されています。

  • custom x2

    • 私が生成した画像をバッチサイズ16で25,000ステップ、スクラッチから訓練
  • custom x4

    • 私が生成した画像をバッチサイズ16で28,000ステップ、スクラッチから訓練

    • x2モデルからのファインチューニングは行っていません

  • DIV2K + custom x2

    • SwinIRリポジトリのDIV2Kデータセットを用いて10,000ステップ、スクラッチから訓練

    • 私が生成した画像を追加で40,000ステップ訓練

x2モデルは2回適用(x4)すると品質の損失が最小限に抑えられ、3回適用(x8)すると若干のぼやけが生じます。x4モデルは2回適用(x16)すると明確なぼやけが発生します。

品質

これらのモデルのPSNRは、それぞれのGitHubページで公開されたBSRGAN、SwinIR、Swin2SRモデルと比較して良好です。私がテストした中で最も優れたアップスケールモデルは、Lexicaの画像で訓練されたSwinIR x2モデルであり、https://openmodeldb.info/models/2x-LexicaSwinIR です。このモデルは私のモデルを上回るスコアを記録しています。しかし、これらのモデルはテストパターンの角周辺でのアーチファクトが少ないという利点があります。今後、これらのモデルをさらに改善し、パッチサイズ64での実験も行う予定です。

45dBのPSNRは、品質90%のJPEGとして保存するのとほぼ同等です:https://en.wikipedia.org/wiki/Peak_signal-to-noise_ratio

私が理解するに、元の画像を1つ取り、そのコピーを品質90%のJPEGとして保存し、別のコピーを50%のサイズにリサイズした後にcustom x2モデルでアップスケールすれば、両者の品質損失は同程度になると予想されます。

ほとんどのテストはタイルサイズ256で実施しましたが、BSRGANは例外です。BSRGANのテストスクリプトはタイル処理をサポートしておらず、x4テストでは画像の大きさのためメモリ不足となりました。Real ESRGANにはテストスクリプトが提供されていないため、見つかり次第追加します。

比較

テストパターンはWikimediaより:https://commons.wikimedia.org/wiki/File:Philips_PM5544.svg

custom x2:

DIV2K + custom x2:

Lexica x2:

訓練

すべてのモデルはパッチサイズ48のSwin2SRアーキテクチャを使用しています。これらは、私がFlux.1 DevとComfyUIのハイレゾワークフローを用いて生成した約520枚の高解像度画像の同じデータセットで訓練されました。低解像度画像はバイキュービック補間で生成しました。

customモデルは、合計96GBメモリを備えたRunPodのA40 GPU 2台で、バッチサイズ16で訓練しました。DIV2K + customモデルは、A6000(48GBメモリ)でバッチサイズ8で訓練しました。

このモデルで生成された画像

画像が見つかりません。