SPO-SD-v1-5_4k-p_10ep_LoRA_webui

详情

模型描述

基于逐步偏好优化的通用偏好美学后训练扩散模型

Arxiv论文

Github代码

项目主页

摘要

生成视觉上吸引人的图像是现代文本到图像生成模型的基础。提升美学质量的一个潜在方案是直接偏好优化(DPO),该方法已被应用于扩散模型以改善整体图像质量,包括提示对齐和美学表现。主流的DPO方法将来自干净图像对的偏好标签传播到两条生成轨迹的所有中间步骤。然而,现有数据集中提供的偏好标签融合了布局和美学观点,这些观点可能与纯粹的美学偏好相冲突。即使能以高昂成本提供专门的美学标签,双轨迹方法也难以捕捉不同步骤中的细微视觉差异。

为经济地提升美学质量,本文利用现有的通用偏好数据,引入逐步偏好优化(SPO),摒弃了标签传播策略,允许对细粒度图像细节进行独立评估。具体而言,在每个去噪步骤中,我们:1)从共享噪声潜变量中采样一组候选图像;2)使用步长感知偏好模型筛选出合适的胜-负图像对,以监督扩散模型;3)从候选池中随机选择一张图像作为下一步去噪的初始化。该策略确保扩散模型专注于细微、细粒度的视觉差异,而非布局层面的特征。我们发现,通过累积这些改进的微小差异,美学质量可显著提升。

在对Stable Diffusion v1.5和SDXL进行微调时,SPO在不牺牲图像-文本对齐性能的前提下,相比现有的DPO方法显著提升了美学质量。此外,由于对细粒度视觉细节的逐步对齐,SPO的收敛速度远快于传统DPO方法。代码与模型:https://rockeycoss.github.io/spo.github.io/

模型描述

本模型基于runwayml/stable-diffusion-v1-5进行微调,使用4,000条提示训练了10个epoch。该检查点为LoRA检查点。更多信息请访问:https://huggingface.co/SPO-Diffusion-Models/SPO-SD-v1-5_4k-p_10ep_LoRA

引用

如您认为我们的工作有帮助,请考虑为我们点星并引用本工作。

@article{liang2024step,
  title={Aesthetic Post-Training Diffusion Models from Generic Preferences with Step-by-step Preference Optimization},
  author={Liang, Zhanhao and Yuan, Yuhui and Gu, Shuyang and Chen, Bohan and Hang, Tiankai and Cheng, Mingxi and Li, Ji and Zheng, Liang},
  journal={arXiv preprint arXiv:2406.04314},
  year={2024}
}

此模型生成的图像

未找到图像。