A5 Stabilizer - RLHF D3PO - A5稳定器
詳細
ファイルをダウンロード
このバージョンについて
モデル説明
このモデルを読み込むには sd-webui-additional-networks をご使用ください!
请使用 sd-webui-additional-networks 来加载本模型!
はじめに
Q0: このモデルとは?
A0: 🎈 これは Anything V5 用にトレーニングされた「安定化モデル」です。
Q1: このモデルの用途は?
A1.1: 🎉 このモデルは、生成されたイラストの構造崩壊を一定程度修正できます。
A1.2: 🎨 このモデルは、生成されたキャラクターの瞳孔を修正できます。
A1.3: 😎 このモデルは、生成されたイラストの照明効果を調整し、AI生成らしさを軽減します(つまり、人間にとって好まれる仕上がりになります)。
A1.4: 🍡 このモデルは、生成される画像と入力プロンプトの整合性をより良くする傾向があります。
Q2: このモデルはどのようにトレーニングされましたか?
A2.1: 🥰 このモデルは、人間からのフィードバックによる強化学習(RLHF)でトレーニングされています。この手法はLLMで広く利用されています。
A2.2: 😏 具体的には、このモデルは D3PO を用いてトレーニングされており、詳細は Using Human Feedback to Fine-tune Diffusion Models without Any Reward Model (arxiv 2311.13231) をご参照ください。
A2.3: 🙄 このモデルのトレーニングには、独自にトレーニングした報酬モデルが用いられており、4つの指標(いいね数、收藏数、AI生成確率、閲覧数)を評価基準としています。この報酬モデルは chikoto/ConvNeXtV2-IllustrationScorer で入手できます。
その他、些細なこと
🧐 どんなアイデアやご提案も歓迎します!🧐
🤗 凡人としてNAI3にチャレンジしてください。🤗






