Swin2SR Upscaler (x2 and x4)

세부 정보

파일 다운로드

모델 설명

이것은 제가 생성한 다양한 하이레스 이미지에 기반해 훈련한 Swin2SR 업스케일 모델 시리즈입니다. 특히 사진처럼 생긴 디지털 아트 스타일에서 피부 텍스처를 매끄럽게 처리하는 대신 더 풍부하게 강화하는 것을 목표로 했습니다. 이 모델들은 ComfyUI에서 테스트했으며, Auto1111 및 Swin2SR을 지원하는 다른 도구와 호환될 것입니다.

https://github.com/mv-lab/swin2sr

버전

세 가지 모델이 제공됩니다. 모든 모델은 .safetensors.pth 형식으로 사용 가능합니다.

  • custom x2

    • 제가 생성한 이미지를 사용하여 배치 크기 16으로 25,000스텝 동안 처음부터 훈련
  • custom x4

    • 제가 생성한 이미지를 사용하여 배치 크기 16으로 28,000스텝 동안 처음부터 훈련

    • x2 모델에서 미세 조정하지 않음

  • DIV2K + custom x2

    • SwinIR 저장소의 DIV2K 데이터셋을 사용하여 배치 크기 16으로 10,000스텝 동안 처음부터 훈련

    • 이후 제가 생성한 이미지로 추가 40,000스텝 훈련

x2 모델은 품질 손실 없이 두 번 적용하여 x4로 사용할 수 있으며, 약간의 흐릿함이 생기면서 세 번 적용하여 x8로 사용할 수 있습니다. x4 모델은 두 번 적용하면(x16) 눈에 띄는 흐릿함이 생깁니다.

품질

이 모델들의 PSNR은 각각의 GitHub 페이지에서 공개된 BSRGAN, SwinIR, Swin2SR 모델과 비교해도 우수합니다. 제가 테스트한 최고의 업스케일 모델은 Lexica 이미지로 훈련된 SwinIR x2 모델(https://openmodeldb.info/models/2x-LexicaSwinIR)이며, 이 모델은 여전히 제 모델들의 점수를 넘습니다. 그러나 이 모델들은 테스트 패턴의 모서리 주변에서 더 적은 아티팩트를 생성합니다. 향후 이 모델들을 더 개선하고자 하며, 64의 패치 크기로도 실험할 계획입니다.

45dB의 PSNR은 90% 품질로 JPEG 저장한 것과 거의 동일한 수준입니다: https://en.wikipedia.org/wiki/Peak_signal-to-noise_ratio

제가 이해하는 바에 따르면, 원본 이미지를 가져와 한 복사본을 90% 품질의 JPEG로 저장하고, 다른 복사본을 50% 크기로 축소한 후 custom x2 모델로 업스케일링하면, 두 이미지의 품질 손실은 동일해야 합니다.

대부분의 테스트는 타일 크기 256으로 진행했으며, BSRGAN은 예외입니다. BSRGAN의 테스트 스크립트는 타일링을 지원하지 않으며, 이미지 크기로 인해 x4 테스트 시 메모리 부족 현상이 발생했습니다. Real ESRGAN은 테스트 스크립트를 제공하지 않지만, 발견할 수 있다면 포함하겠습니다.

비교

테스트 패턴은 위키미디어에서 가져왔습니다: https://commons.wikimedia.org/wiki/File:Philips_PM5544.svg

Custom x2:

DIV2K + Custom x2:

Lexica x2:

훈련

모든 모델은 패치 크기 48을 사용하는 Swin2SR 아키텍처를 기반으로 합니다. 동일한 약 520장의 고해상도 이미지 데이터셋에서 훈련되었으며, 이 이미지들은 제가 ComfyUI에서 Flux.1 Dev와 하이레스 워크플로우를 사용해 생성했습니다. 저해상도 이미지는 바이큐빅 보간법으로 생성되었습니다.

custom 모델은 총 96GB 메모리를 가진 2개의 A40 GPU를 탑재한 RunPod 팟에서 배치 크기 16으로 훈련되었습니다. DIV2K + custom 모델은 48GB 메모리를 가진 A6000 GPU에서 배치 크기 8로 훈련되었습니다.

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.