SPO-SDXL_4k-p_10ep_LoRA_webui

详情

模型描述

基于逐步偏好从通用偏好中优化美学的后训练扩散模型

Arxiv论文

Github代码

项目页面

摘要

生成视觉上吸引人的图像是现代文本到图像生成模型的基础。提升美学质量的一个潜在方案是直接偏好优化(DPO),该方法已被应用于扩散模型,以改善包括提示对齐和美学在内的整体图像质量。主流的DPO方法将来自干净图像对的偏好标签传播到两条生成轨迹的所有中间步骤。然而,现有数据集中提供的偏好标签混合了布局和美学意见,这些意见可能与美学偏好相冲突。即使能以高昂代价提供专门的美学标签,双轨迹方法也难以捕捉不同步骤中的细微视觉差异。

为经济地提升美学效果,本文利用现有的通用偏好数据,引入了逐步偏好优化(SPO),摒弃了传统的标签传播策略,允许对细粒度图像细节进行独立评估。具体而言,在每个去噪步骤中,我们:1)从共享的噪声潜在变量采样一组候选图像;2)使用步进感知的偏好模型,找到一组合适的“胜-负”图像对以监督扩散模型;3)从候选集中随机选择一张图像作为下一轮去噪的初始化输入。该策略确保扩散模型聚焦于细微的、细粒度的视觉差异,而非布局层面。我们发现,通过累积这些改进的微小差异,美学效果可显著增强。

在微调Stable Diffusion v1.5和SDXL时,SPO在不牺牲图像-文本对齐的前提下,相比现有DPO方法显著提升了美学质量。此外,由于细粒度视觉细节的逐步对齐,SPO的收敛速度远快于传统DPO方法。代码与模型地址:https://rockeycoss.github.io/spo.github.io/

模型描述

本模型基于stable-diffusion-xl-base-1.0微调而来,使用4,000个提示训练了10个周期。该检查点为LoRA检查点。更多信息请访问:https://huggingface.co/SPO-Diffusion-Models/SPO-SDXL_4k-p_10ep_LoRA

引用

如您认为我们的工作有用,请考虑给我们点个星并引用我们的工作。

@article{liang2024step,
  title={Aesthetic Post-Training Diffusion Models from Generic Preferences with Step-by-step Preference Optimization},
  author={Liang, Zhanhao and Yuan, Yuhui and Gu, Shuyang and Chen, Bohan and Hang, Tiankai and Cheng, Mingxi and Li, Ji and Zheng, Liang},
  journal={arXiv preprint arXiv:2406.04314},
  year={2024}
}

此模型生成的图像

未找到图像。