Swin2SR Upscaler (x2 and x4)

이것은 제가 생성한 다양한 하이레스 이미지에 기반해 훈련한 Swin2SR 업스케일 모델 시리즈입니다. 특히 사진처럼 생긴 디지털 아트 스타일에서 피부 텍스처를 매끄럽게 처리하는 대신 더 풍부하게 강화하는 것을 목표로 했습니다. 이 모델들은 ComfyUI에서 테스트했으며, Auto1111 및 Swin2SR을 지원하는 다른 도구와 호환될 것입니다.

https://github.com/mv-lab/swin2sr

버전

세 가지 모델이 제공됩니다. 모든 모델은 .safetensors 및 .pth 형식으로 사용 가능합니다.

custom x2
- 제가 생성한 이미지를 사용하여 배치 크기 16으로 25,000스텝 동안 처음부터 훈련
custom x4
- 제가 생성한 이미지를 사용하여 배치 크기 16으로 28,000스텝 동안 처음부터 훈련
- x2 모델에서 미세 조정하지 않음
DIV2K + custom x2
- SwinIR 저장소의 DIV2K 데이터셋을 사용하여 배치 크기 16으로 10,000스텝 동안 처음부터 훈련
- 이후 제가 생성한 이미지로 추가 40,000스텝 훈련

x2 모델은 품질 손실 없이 두 번 적용하여 x4로 사용할 수 있으며, 약간의 흐릿함이 생기면서 세 번 적용하여 x8로 사용할 수 있습니다. x4 모델은 두 번 적용하면(x16) 눈에 띄는 흐릿함이 생깁니다.

품질

이 모델들의 PSNR은 각각의 GitHub 페이지에서 공개된 BSRGAN, SwinIR, Swin2SR 모델과 비교해도 우수합니다. 제가 테스트한 최고의 업스케일 모델은 Lexica 이미지로 훈련된 SwinIR x2 모델(https://openmodeldb.info/models/2x-LexicaSwinIR)이며, 이 모델은 여전히 제 모델들의 점수를 넘습니다. 그러나 이 모델들은 테스트 패턴의 모서리 주변에서 더 적은 아티팩트를 생성합니다. 향후 이 모델들을 더 개선하고자 하며, 64의 패치 크기로도 실험할 계획입니다.

45dB의 PSNR은 90% 품질로 JPEG 저장한 것과 거의 동일한 수준입니다: https://en.wikipedia.org/wiki/Peak_signal-to-noise_ratio

제가 이해하는 바에 따르면, 원본 이미지를 가져와 한 복사본을 90% 품질의 JPEG로 저장하고, 다른 복사본을 50% 크기로 축소한 후 custom x2 모델로 업스케일링하면, 두 이미지의 품질 손실은 동일해야 합니다.

대부분의 테스트는 타일 크기 256으로 진행했으며, BSRGAN은 예외입니다. BSRGAN의 테스트 스크립트는 타일링을 지원하지 않으며, 이미지 크기로 인해 x4 테스트 시 메모리 부족 현상이 발생했습니다. Real ESRGAN은 테스트 스크립트를 제공하지 않지만, 발견할 수 있다면 포함하겠습니다.

비교

테스트 패턴은 위키미디어에서 가져왔습니다: https://commons.wikimedia.org/wiki/File:Philips_PM5544.svg

Custom x2:

DIV2K + Custom x2:

Lexica x2:

훈련

모든 모델은 패치 크기 48을 사용하는 Swin2SR 아키텍처를 기반으로 합니다. 동일한 약 520장의 고해상도 이미지 데이터셋에서 훈련되었으며, 이 이미지들은 제가 ComfyUI에서 Flux.1 Dev와 하이레스 워크플로우를 사용해 생성했습니다. 저해상도 이미지는 바이큐빅 보간법으로 생성되었습니다.

custom 모델은 총 96GB 메모리를 가진 2개의 A40 GPU를 탑재한 RunPod 팟에서 배치 크기 16으로 훈련되었습니다. DIV2K + custom 모델은 48GB 메모리를 가진 A6000 GPU에서 배치 크기 8로 훈련되었습니다.

모델 유형	업스케일러
기본 모델	Other
게시일	3/7/2025

Swin2SR Upscaler (x2 and x4)

세부 정보

파일 다운로드

모델 설명

버전

품질

비교

훈련

이 모델로 만든 이미지