SPO-SD-v1-5_4k-p_10ep_LoRA_webui
세부 정보
파일 다운로드
모델 설명
일반적 선호도를 활용한 단계별 선호도를 통한 미적 후처리 확산 모델
초록
시각적으로 매력적인 이미지를 생성하는 것은 현대 텍스트-이미지 생성 모델의 핵심이다. 미적 품질을 향상시키기 위한 잠재적인 해결책으로 직접 선호도 최적화(DPO)가 확산 모델에 적용되어 프롬프트 정렬 및 미적 품질을 포함한 일반적인 이미지 품질을 개선해왔다. 인기 있는 DPO 방법은 청정 이미지 쌍에서 제공된 선호도 레이블을 두 생성 경로의 모든 중간 단계에 전파한다. 그러나 기존 데이터셋에 제공된 선호도 레이블은 레이아웃과 미적 의견이 혼합되어 있어 미적 선호도와 일치하지 않을 수 있다. 심지어 미적 레이블이 제공된다 하더라도(대규모 비용 발생), 두 경로 기반 방법은 각 단계에서 미세한 시각적 차이를 포착하기 어렵다.
이 논문은 경제적으로 미적 품질을 향상시키기 위해 기존의 일반적 선호도 데이터를 활용하고, 전파 전략을 폐기하고 미세한 이미지 세부 사항을 평가할 수 있도록 하는 단계별 선호도 최적화(SPO)를 도입한다. 구체적으로, 각 디노이징 단계에서 1) 공유 잡음 잠재 공간에서 디노이징하여 후보군을 샘플링하고, 2) 단계 인식 선호도 모델을 사용하여 확산 모델을 감독할 적절한 승패 쌍을 찾으며, 3) 후보군에서 무작위로 하나를 선택하여 다음 디노이징 단계의 초기값으로 설정한다. 이 전략은 확산 모델이 레이아웃 측면이 아니라 미세하고 세밀한 시각적 차이에 집중하도록 보장한다. 우리는 이러한 미세한 차이의 누적을 통해 미적 품질이 크게 향상됨을 발견했다.
Stable Diffusion v1.5와 SDXL을 미세 조정할 때, SPO는 기존 DPO 방법에 비해 미적 품질에서 현저한 향상을 달성하면서도 일반 모델에 비해 이미지-텍스트 정렬을 희생하지 않는다. 또한, SPO는 미세한 시각적 세부 사항을 단계별로 정렬함으로써 DPO 방법보다 훨씬 빠르게 수렴한다. 코드 및 모델: https://rockeycoss.github.io/spo.github.io/
모델 설명
이 모델은 runwayml/stable-diffusion-v1-5에서 미세 조정되었습니다. 4,000개의 프롬프트에 대해 10 에폭 동안 학습되었습니다. 이 체크포인트는 LoRA 체크포인트입니다. 자세한 정보는 여기를 방문하세요.
인용
본 연구가 도움이 되었다면, 별을 주시고 저희의 연구를 인용해 주세요.
@article{liang2024step,
title={Aesthetic Post-Training Diffusion Models from Generic Preferences with Step-by-step Preference Optimization},
author={Liang, Zhanhao and Yuan, Yuhui and Gu, Shuyang and Chen, Bohan and Hang, Tiankai and Cheng, Mingxi and Li, Ji and Zheng, Liang},
journal={arXiv preprint arXiv:2406.04314},
year={2024}
}



