SPO-SD-v1-5_4k-p_10ep_LoRA_webui

詳細

ファイルをダウンロード

モデル説明

ジェネリックな好ましさを用いたステップバイステップの好ましさによる審美的なポストトレーニング拡散モデル

Arxiv論文

Githubコード

プロジェクトページ

概要

視覚的に魅力的な画像を生成することは、現代のテキストから画像への生成モデルにとって基本的な課題である。審美的な品質を向上させる潜在的な解決策として、直接好ましさ最適化(DPO)が拡散モデルに適用され、プロンプトの整合性や審美性を含む一般画像品質の改善が図られてきた。一般的なDPO手法では、クリーンな画像対から得られた好ましさラベルを、2つの生成経路のすべての中間ステップに伝播させる。しかし、既存のデータセットで提供される好ましさラベルは、レイアウトと審美性の意見が混在しており、審美性の好ましさと矛盾する可能性がある。たとえ審美性ラベルが提供されたとしても(多大なコストを要する)、2経路法では各ステップにおける繊細な視覚的差異を捉えることが難しい。

この論文では、経済的に審美性を向上させるために、既存のジェネリックな好ましさデータを利用し、伝播戦略を廃止して微細な画像の詳細を評価可能にする「ステップバイステップ好ましさ最適化(SPO)」を導入する。具体的には、各ノイズ除去ステップで、1)共通のノイズ潜在変数からノイズ除去して候補プールをサンプリングし、2)ステップ認識型好ましさモデルを用いて、拡散モデルの監督に適した勝ち・負けペアを特定し、3)プールからランダムに1つを選んで次のノイズ除去ステップを初期化する。この戦略により、拡散モデルはレイアウトの側面ではなく、繊細で微細な視覚的差異に注力するようになる。我々は、これらの改善された微細差異を積み重ねることで、審美性が大幅に向上することを発見した。

Stable Diffusion v1.5およびSDXLを微調整した結果、SPOは既存のDPO手法と比較して審美性の大幅な改善を達成しつつ、通常のモデルと同様に画像とテキストの整合性を損なわなかった。さらに、SPOは微細な視覚的差異のステップごとの整合性により、DPO手法よりもはるかに高速に収束する。コードとモデル:https://rockeycoss.github.io/spo.github.io/

モデルの説明

このモデルは、runwayml/stable-diffusion-v1-5 から微調整されたものです。4,000のプロンプトを用いて10エポック学習されています。このチェックポイントはLoRAチェックポイントです。詳細については、こちら をご参照ください。

引用

本研究が役に立った場合は、スターをつけて、以下の通り引用してください。

@article{liang2024step,
  title={Aesthetic Post-Training Diffusion Models from Generic Preferences with Step-by-step Preference Optimization},
  author={Liang, Zhanhao and Yuan, Yuhui and Gu, Shuyang and Chen, Bohan and Hang, Tiankai and Cheng, Mingxi and Li, Ji and Zheng, Liang},
  journal={arXiv preprint arXiv:2406.04314},
  year={2024}
}

このモデルで生成された画像

画像が見つかりません。