SPO-SDXL_4k-p_10ep_LoRA_webui

詳細

ファイルをダウンロード

モデル説明

ジェネリックな好みを用いたステップバイステップの好みによる審美的な事後訓練扩散モデル

Arxiv論文

Githubコード

プロジェクトページ

概要

視覚的に魅力的な画像を生成することは、現代のテキストから画像への生成モデルにとって基本的な課題である。審美性を向上させる潜在的な解決策として、直接好み最適化(DPO)が導入され、これは扩散モデルに適用されて、プロンプトの整合性や審美性を含む一般の画像品質を改善してきた。一般的なDPO手法は、クリーンな画像ペアから得られた好みラベルを、2つの生成軌道のすべての中間ステップに伝播させる。しかし、既存のデータセットで提供される好みラベルは、レイアウトと審美性の意見が混在しており、審美性の好みと一致しない場合がある。たとえ審美性ラベルが提供されたとしても(大きなコストがかかる)、2軌道手法では、異なるステップでの繊細な視覚的差異を捉えるのが困難である。

この論文では、経済的に審美性を向上させるために、既存のジェネリックな好みデータを活用し、伝播戦略を廃止して、微細な画像の詳細を評価可能にするステップバイステップの好み最適化(SPO)を導入する。具体的には、各ノイズ除去ステップで、1)共通のノイズ潜在変数からノイズ除去を行い、候補のプールをサンプリングし、2)ステップ認識可能な好みモデルを使用して、扩散モデルを監督するための適切な勝敗ペアを特定し、3)プールからランダムに1つを選んで次のノイズ除去ステップを初期化する。この戦略により、扩散モデルはレイアウトの側面ではなく、微細で繊細な視覚的差異に集中する。これらの改善された微細差異を累積することで、審美性が著しく向上することが明らかになった。

Stable Diffusion v1.5およびSDXLを微調整した際、SPOは既存のDPO手法と比較して審美性において顕著な改善をもたらし、従来モデルと同様に画像-テキストの整合性を損なわない。さらに、SPOは微細な視覚的差異のステップバイステップの整列により、DPO手法よりもはるかに高速に収束する。コードおよびモデル:https://rockeycoss.github.io/spo.github.io/

モデルの説明

このモデルはstable-diffusion-xl-base-1.0を微調整したものです。4,000のプロンプトに対して10エポックの訓練が行われました。このチェックポイントはLoRAチェックポイントです。詳細については、こちらをご覧ください。

引用

本研究が役に立った場合は、スターをつけて、以下の通り引用してください。

@article{liang2024step,
  title={Aesthetic Post-Training Diffusion Models from Generic Preferences with Step-by-step Preference Optimization},
  author={Liang, Zhanhao and Yuan, Yuhui and Gu, Shuyang and Chen, Bohan and Hang, Tiankai and Cheng, Mingxi and Li, Ji and Zheng, Liang},
  journal={arXiv preprint arXiv:2406.04314},
  year={2024}
}

このモデルで生成された画像

画像が見つかりません。