SD1.5 Direct Preference Optimization - DPO

详情

模型描述

不是我的模型,来自 Hugging Face 仓库。这是一个优秀的合并模型,尤其在中间块表现优异。自己试试吧——选取你最喜欢的模型,以约 10% 输入、20% 中间块进行块合并,然后据此调整。

原始 U-Net:https://huggingface.co/mhdang/dpo-sd1.5-text2image-v1

bdsqlz 的发布版本:https://huggingface.co/bdsqlsz/dpo-sd-text2image-v1-fp16

bdsqlz 在此处发布了 SDXL 模型:/model/237681/dpo-sdxl-fp16,但我们这些可怜的 1.5 用户却被抛在了石器时代。

我不得不进行一些破解才能获得 fp32 版本,因此你需要自行提供 VAE。

使用直接偏好优化的扩散模型对齐

直接偏好优化(DPO)是一种用于文本到图像扩散模型的方法,通过直接在人类比较数据上进行优化,使扩散模型与人类文本偏好对齐。请查阅论文《使用直接偏好优化的扩散模型对齐》。

SD1.5 模型在stable-diffusion-v1-5基础上,使用离线人类偏好数据集pickapic_v2进行微调。

SDXL 模型在stable-diffusion-xl-base-1.0基础上,使用离线人类偏好数据集pickapic_v2进行微调。

此模型生成的图像

未找到图像。