SPO-SDXL_4k-p_10ep_LoRA_webui
세부 정보
파일 다운로드
모델 설명
일반적 선호를 활용한 단계별 선호를 통한 미적 후학습 확산 모델
요약
시각적으로 매력적인 이미지를 생성하는 것은 현대 텍스트-이미지 생성 모델의 핵심입니다. 미적 품질을 향상시키기 위한 잠재적인 해결책으로 직접 선호 최적화(DPO)가 있으며, 이 방법은 프롬프트 정렬 및 미적 품질을 포함한 일반적인 이미지 품질 향상에 확산 모델에 적용되었습니다. 인기 있는 DPO 방법들은 클린 이미지 쌍에서 제공된 선호 라벨을 두 생성 경로의 모든 중간 단계로 전파합니다. 그러나 기존 데이터셋에서 제공된 선호 라벨은 레이아웃과 미적 의견이 혼합되어 있어, 미적 선호와 일치하지 않을 수 있습니다. 심지어 미적 라벨이 제공된다 하더라도(그것 또한 상당한 비용이 수반됨), 두 경로 방법은 단계별로 미세한 시각적 차이를 포착하기 어렵습니다.
이 논문은 경제적으로 미적 품질을 향상시키기 위해 기존의 일반적 선호 데이터를 활용하고, 전파 전략을 폐기하고 미세한 이미지 세부사항을 평가할 수 있는 단계별 선호 최적화(SPO)를 도입합니다. 구체적으로, 각 디노이징 단계에서 우리는 1) 공유 노이즈 잠재 변수에서 디노이징하여 후보군을 샘플링하고, 2) 단계 인식 선호 모델을 사용하여 확산 모델을 감독할 적절한 승자-패자 쌍을 찾아내며, 3) 후보군에서 하나를 무작위로 선택하여 다음 디노이징 단계의 초기값으로 설정합니다. 이 전략은 확산 모델이 레이아웃 측면이 아니라 미세하고 세밀한 시각적 차이에 집중하도록 보장합니다. 우리는 이러한 개선된 미세한 차이들이 누적될 때 미적 품질이 크게 향상됨을 발견했습니다.
Stable Diffusion v1.5 및 SDXL을 미세 조정할 때, SPO는 기존 DPO 방법에 비해 미적 품질이 크게 향상되며, 일반 모델에 비해 이미지-텍스트 정렬을 희생하지 않습니다. 게다가 SPO는 미세한 시각적 세부사항의 단계별 정렬로 인해 DPO 방법보다 훨씬 빠르게 수렴합니다. 코드 및 모델: https://rockeycoss.github.io/spo.github.io/
모델 설명
이 모델은 stable-diffusion-xl-base-1.0을 기반으로 미세 조정되었습니다. 4,000개의 프롬프트에 대해 10에포크 동안 학습되었습니다. 이 체크포인트는 LoRA 체크포인트입니다. 자세한 정보는 여기를 방문하세요.
인용
본 연구가 도움이 되었다면, 별을 주시고 저희의 연구를 인용해 주세요.
@article{liang2024step,
title={Aesthetic Post-Training Diffusion Models from Generic Preferences with Step-by-step Preference Optimization},
author={Liang, Zhanhao and Yuan, Yuhui and Gu, Shuyang and Chen, Bohan and Hang, Tiankai and Cheng, Mingxi and Li, Ji and Zheng, Liang},
journal={arXiv preprint arXiv:2406.04314},
year={2024}
}



