SD1.5 Direct Preference Optimization - DPO

詳細

モデル説明

私のモデルではありません。HuggingFaceリポジトリからのものです。これは優れたマージモデルであり、特にミドルブロックで優れています。自分で試してみてください。お気に入りのモデルに、約10%の入力ブロック、20%のミドルブロックでマージし、そこから調整してください。

元のU-Net: https://huggingface.co/mhdang/dpo-sd1.5-text2image-v1

bdsqlzのリリース: https://huggingface.co/bdsqlsz/dpo-sd-text2image-v1-fp16

bdsqlzはここでSDXLモデルをリリースしました: /model/237681/dpo-sdxl-fp16 しかし、私たちのような1.5ユーザーはまだ旧時代に置き去りにされていました。

fp32バージョンを得るためにいくつかのハッキングが必要でしたので、ご自身でVAEをお持ちください。

Direct Preference Optimizationを用いたディフュージョンモデルのアラインメント

Direct Preference Optimization(DPO)は、テキストから画像へのディフュージョンモデルを、人間の比較データを直接最適化することで人間の好みにアラインさせる手法です。詳細は論文をご覧ください:Diffusion Model Alignment Using Direct Preference Optimization

SD1.5モデルは、オフラインのヒューマンプレファレンスデータpickapic_v2を用いて、stable-diffusion-v1-5をファインチューニングして作成されました。

SDXLモデルは、オフラインのヒューマンプレファレンスデータpickapic_v2を用いて、stable-diffusion-xl-base-1.0をファインチューニングして作成されました。

このモデルで生成された画像

画像が見つかりません。