SD1.5 Direct Preference Optimization - DPO
詳細
ファイルをダウンロード
モデル説明
私のモデルではありません。HuggingFaceリポジトリからのものです。これは優れたマージモデルであり、特にミドルブロックで優れています。自分で試してみてください。お気に入りのモデルに、約10%の入力ブロック、20%のミドルブロックでマージし、そこから調整してください。
元のU-Net: https://huggingface.co/mhdang/dpo-sd1.5-text2image-v1
bdsqlzのリリース: https://huggingface.co/bdsqlsz/dpo-sd-text2image-v1-fp16
bdsqlzはここでSDXLモデルをリリースしました: /model/237681/dpo-sdxl-fp16 しかし、私たちのような1.5ユーザーはまだ旧時代に置き去りにされていました。
fp32バージョンを得るためにいくつかのハッキングが必要でしたので、ご自身でVAEをお持ちください。
Direct Preference Optimizationを用いたディフュージョンモデルのアラインメント
Direct Preference Optimization(DPO)は、テキストから画像へのディフュージョンモデルを、人間の比較データを直接最適化することで人間の好みにアラインさせる手法です。詳細は論文をご覧ください:Diffusion Model Alignment Using Direct Preference Optimization。
SD1.5モデルは、オフラインのヒューマンプレファレンスデータpickapic_v2を用いて、stable-diffusion-v1-5をファインチューニングして作成されました。
SDXLモデルは、オフラインのヒューマンプレファレンスデータpickapic_v2を用いて、stable-diffusion-xl-base-1.0をファインチューニングして作成されました。

