A5 Stabilizer - RLHF D3PO - A5稳定器

详情

下载文件

模型描述

请使用 sd-webui-additional-networks 来加载本模型!

请使用 sd-webui-additional-networks 来加载本模型!


简介

Q0: 这个模型是什么?

A0: 🎈 这是一个为 Anything V5 训练的“稳定器”。

Q1: 这个模型有什么用?

A1.1: 🎉 该模型能够一定程度上修复画面的崩坏部分。

A1.2: 🎨 该模型能够修复生成人物的瞳孔。

A1.3: 😎 该模型会调整生成画像的光影效果,使之看起来“没那么像是AI生成的” (换言之,被人类偏好)。

A1.4: 🍡 该模型似乎能够更好地对齐生成的图片与输入的提示词。

Q2: 这个模型是如何训练的?

A2.1: 🥰 该模型由人类反馈强化学习技术训练,该技术已被广泛应用于微调LLMs。

A2.2: 😏 具体而言,该模型的训练基于D3PO方法,详见Using Human Feedback to Fine-tune Diffusion Models without Any Reward Model (arxiv 2311.13231)

A2.3: 🙄 该模型在训练时由一个自己训练的奖励模型指导,使用 点赞数,收藏数,由AI生成的概率,以及浏览量 四个指标来评价。该奖励模型可以在 chikoto/ConvNeXtV2-IllustrationScorer 找到。


一些无关紧要的东西

🧐 欢迎提供任何想法和建议!🧐

🤗 欢迎各位以凡人之躯挑战NAI3 :) 🤗

此模型生成的图像

未找到图像。