DPO (Direct Preference Optimization) LoRA for XL and 1.5 - OpenRail++

enfugue

1.4K

17.3K

SDXL - V1.0 SD 1.5 - V1.0

详情

下载文件

模型描述

什么是 DPO？

DPO 是 Direct Preference Optimization（直接偏好优化）的缩写，指基于人类选择的图像对扩散模型进行微调的过程。Meihua Dang 等人使用该方法和 Pick-a-Pic v2 数据集训练了 Stable Diffusion 1.5 和 Stable Diffusion XL，该数据集可在 https://huggingface.co/datasets/yuvalkirstain/pickapic_v2 获取，相关论文见 https://huggingface.co/papers/2311.12908。

它的作用是什么？

经过训练的 DPO 模型被观察到能生成比未微调版本质量更高的图像，特别强调模型对提示词的遵循程度。这些 LoRA 可将这种提示词遵循能力应用于其他微调的 Stable Diffusion 模型。

谁训练了这些模型？

这些 LoRA 基于 Meihua Dang（https://huggingface.co/mhdang）的工作：

https://huggingface.co/mhdang/dpo-sdxl-text2image-v1 和 https://huggingface.co/mhdang/dpo-sd1.5-text2image-v1，采用 OpenRail++ 许可证。

这些 LoRA 是如何制作的？

它们通过 Kohya SS 创建，从 CivitAI 和 HuggingFace 上其他采用 OpenRail++ 许可的检查点中提取。

1.5：/model/240850/sd15-direct-preference-optimization-dpo，从 https://huggingface.co/fp16-guy/Stable-Diffusion-v1-5_fp16_cleaned/blob/main/sd_1.5.safetensors 提取。

XL：/model/238319/sd-xl-dpo-finetune-direct-preference-optimization，从 https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0/blob/main/sd_xl_base_1.0_0.9vae.safetensors 提取。

这些模型也托管在 HuggingFace 上：https://huggingface.co/benjamin-paine/sd-dpo-offsets/

此模型生成的图像

排序

未找到图像。