A5 Stabilizer - RLHF D3PO - A5稳定器
详情
下载文件
关于此版本
模型描述
请使用 sd-webui-additional-networks 来加载本模型!
请使用 sd-webui-additional-networks 来加载本模型!
简介
Q0: 这个模型是什么?
A0: 🎈 这是一个为 Anything V5 训练的“稳定器”。
Q1: 这个模型有什么用?
A1.1: 🎉 该模型能够一定程度上修复画面的崩坏部分。
A1.2: 🎨 该模型能够修复生成人物的瞳孔。
A1.3: 😎 该模型会调整生成画像的光影效果,使之看起来“没那么像是AI生成的” (换言之,被人类偏好)。
A1.4: 🍡 该模型似乎能够更好地对齐生成的图片与输入的提示词。
Q2: 这个模型是如何训练的?
A2.1: 🥰 该模型由人类反馈强化学习技术训练,该技术已被广泛应用于微调LLMs。
A2.2: 😏 具体而言,该模型的训练基于D3PO方法,详见Using Human Feedback to Fine-tune Diffusion Models without Any Reward Model (arxiv 2311.13231)。
A2.3: 🙄 该模型在训练时由一个自己训练的奖励模型指导,使用 点赞数,收藏数,由AI生成的概率,以及浏览量 四个指标来评价。该奖励模型可以在 chikoto/ConvNeXtV2-IllustrationScorer 找到。
一些无关紧要的东西
🧐 欢迎提供任何想法和建议!🧐
🤗 欢迎各位以凡人之躯挑战NAI3 :) 🤗






