Proteus-RunDiffusion-DPO (Direct Preference Optimization)
详情
下载文件
关于此版本
模型描述
Proteus Rundiffusion x DPO(直接偏好优化)SDXL
实验性合并。以下简要概述两个模型。如果你对Proteus与DPO背后的理念不感兴趣或已熟悉,请直接查看文末的图像结果。
前言
这个模型的诞生,正好是我刚开始研究模型合并科学的时候——从分块加权合并入手,探索不同方法如何影响生成结果。由于我对此概念仍属新手,到目前为止的过程远非结构化或科学化。我绝非模型训练与合并领域的资深专家,仅掌握足够实现稳定合并的知识,再辅以一定的直觉判断与逻辑调整。
我之所以这么说,是因为——尽管我发现了一个自己满意到足以分享的合并结果——但可能还存在更优的变体。
这两个模型分别采用 openrail++(DPO) 和 GPL3(Proteus) 许可证,均允许在原始模型使用场景下免费使用与分发。本次合并发布采用 GPL3 许可证。
本模型的两个变体以及原始基础模型(转换为适用于Stable Diffusion等的transformers-base格式)均可在 HuggingFace 仓库 中找到。
目标
起初:艺术好奇心。
最终目标:创建一个在保持原始提示准确性的前提下,拥有良好艺术自由度的模型。
在使用扩散AI模型时,准确性与创造力之间的平衡,是我们都已习惯的取舍——为增强表现力而牺牲些许准确性,或反之。本模型旨在缩小这一平衡窗口——利用Proteus拓展艺术表现力,同时借助DPO提升提示对齐度。
模型介绍
mhdang/dpo-sdxl-text2image-v1 | mhdang/dpo-sd1.5-text2image-v1 (点击模型名称查看原始仓库)
注意: DPO的影响在SDXL模型中更为显著。本项目聚焦于SDXL版本,但或许也存在将更强的1.5模型与DPO合并的探索空间。
分别基于 stable-diffusion-xl-base-1.0 和 stable-diffusion-v1-5 进行微调,使用离线人类偏好数据集 pickapic_v2。
为什么DPO有趣?
直接偏好优化(DPO)提出通过直接在人类对比数据上进行优化,来微调模型,取代广泛使用的RLHF(基于人类反馈的强化学习)方法。
据称,DPO能显著提升视觉吸引力与提示一致性——考虑到主观性,总体共识基本认同这一说法。
dataautogpt3/Proteus-RunDiffusion
在探索如何在现有框架内提升图像生成质量的过程中,RunDiffusion团队发现了一种全新的CLIP重训练方法,声称解锁并拓展了其模型在角色识别、自然语言处理,特别是艺术表现多样性方面的潜力。
为什么Proteus有趣?
摘自其模型卡片:
当你开始使用Proteus-RunDiffusion时,请准备好面对它与其他AI艺术模型截然不同的行为方式。它被以独特方式设计,因此会对你的提示和指令以自身风格作出响应。这种差异正是其独特之处,但也意味着存在一定的学习曲线。你需要一些时间来熟悉它的运作方式及其能力。因此,开始时请保持开放心态,并准备好调整你的方法。
这段话让我意识到,合并要么会一团混乱,要么至少能产出一些有趣的结果——这正是我们如今已习以为常的细微差异之外,令人欣喜的变体。
合并过程
我仅隔几天便偶然发现了这两个模型,各自以独特方式吸引了我的注意。而当时我正探索合并方法,自然好奇这两个概念的融合会呈现怎样的效果——结果令我惊喜不已(文末有对比图)。
遗憾的是,我没有记录整个过程,直到决定分享模型时,才整理出最终候选模型的所有信息。
挑战:
最大的挑战在于找到一个接近我目标的合并方案。大多数合并尝试要么生成与预期完全不符或不准确的图像,要么与基础模型几乎没有变化。
由于这两个模型的关注点相去甚远,几乎可视为对立面,这反而对我有利——我唯一的真正挑战是找到一种在双方都符合要求的alpha基础与分块加权策略。
我的方法:
我决定以Proteus为基础模型,保留其CLIP和VAE。首先,我将原始Proteus的UNET模型(包括其原始CLIP模型、分词器和VAE)转换为基于transformers的模型,同时对DPO模型也做了相同处理。然后,我通过暴力测试了16种分块加权合并策略(本节末尾列出),运行提示并比较结果与原始模型的输出。我对每个策略分别测试了base_alpha为0.4、0.5和0.6的合并,最终选择0.4作为我偏好的基础权重。
考虑到艺术的主观性,我尽量客观地评估每个生成图像,仅依据以下几点:
提示准确性
- 原始提示被遵守了多少?
- 艺术自由发挥的程度?
- 这些自由发挥偏离提示的程度?
与基础模型(Proteus)输出的相似度
- 选择Proteus作为基础,理论上是希望在广阔的创意范围内增加结构。
- 因此,最终结果在艺术性与准确性之间取得良好平衡至关重要。
大多数合并结果要么过度偏离基础图像(因不符合目标而被排除),要么与原始风格相去太远。需要指出的是,尽管我尽可能保持指标客观,但主观判断仍不可避免——例如,可接受的“与基础图像偏离距离”就是一个主观标准。
最终我保留了两个结果相似、但在创意-准确性尺度上有轻微但明显差异的模型变体:“ReverseSmoothstep”和“TrueReverseCubicHermite”。我无法在二者间抉择,因为它们都实现了我的目标——一个偏向艺术表现,一个则以惊人准确性取胜……如同一枚硬币的两面。它们的差异极小,最终选择可能仅取决于你对每张图像的偏好。
因此,我决定同时分享这两个版本。
使用的合并策略: GradV, GradA, Flat_25, Wrap2, Mid2_50, Out07, Ring08Soft, Ring08_5, Smoothstep, ReverseSmoothstep, Cosine, ReverseCosine, TrueCubicHermite, TrueReverseCubicHermite, FakeCubicHermite, FakeReverseCubicHermite
测试参数与结果解读
如前所述,在决定分享模型之前,我基本是“野路子”操作。以下是各变体之间的对比图。两个模型均展现出明显的偏离基础模型的效果,同时仍符合提示约束。
“ReverseSmoothStep”变体在保持与提示一致的前提下,增加了更多艺术表现力,使其在创意多样性与可能性方面略胜一筹,同时仍满足提示的大部分要求。
“TrueReverseCubicHermite”变体与“ReverseSmoothStep”极其接近,但似乎增加了更多细节,使其更牢固地锚定在提示内容上。
我的看法:
如果你是经验丰富的提示工程师,或对图像效果有明确期望,请尝试 Proteus-RunDiffusion-DPO_TrueReverseCubicHermite。在所有合并测试及后续测试中,我确实观察到一些独特而有趣的诠释,从有趣到令人惊叹不等。
如果你更倾向于宽松的提示解释,或希望AI承担更多细节与风格决策的任务,请尝试 Proteus-RunDiffusion-DPO_ReverseSmoothstep。它在众多方面表现相似,虽然稳定一致,但更多地做出了纯粹艺术性的决策,这可能带来细微错误或不一致性。然而,这也常常更贴近我个人对提示的预期。
在确定测试基础前,我测试了多种采样器/调度器/CFG/步数组合。这也是一个主观选择,我确信其他参数组合可能带来完全不同甚至更好的结果。但这些参数足以达成我的测试目标:
所有测试均在ComfyUI中进行,使用模型的CLIP与VAE,未使用任何Lora,无预/后处理。值得注意的是,DataPulse建议使用CLIP跳过-2。我在合并变体测试中未对CLIP跳过层做任何修改,唯一调整是将CLIP缩放设为4,以提升图像最终质量与清晰度。工作流保持最简,仅使用单个KSampler节点进行基础采样。所有错误或小问题均保留原样以保证一致性。
工作流可在 HuggingFace 仓库 中获取。对比图均为原始未修改输出,并嵌入了工作流。所有工作流完全一致,唯一变量为所用模型和测试提示文本。如需加载工作流,Use Everywhere (UE Nodes) 用于整理流程(CLIP权重与种子分配),OneButtonPrompt 的预设节点用于生成随机基础提示——因此你需安装这些插件,或进行必要修改以跳过它们。
通用采样参数:
分辨率: 1344x768
步数: 45
CFG: 4
采样器: dpmpp_3m_sde_gpu
调度器: exponential
去噪强度: 1
CLIP缩放: 4
负向提示: text, watermark, logo, blurry, out of focus
这些参数在我个人偏好下取得了最佳效果,同时也为了对比的一致性。它们偏向保守以降低随机性,因此若你打算自行探索,我建议尝试突破这些参数的边界。我曾用CFG=1.5获得不错效果,并配合 动态阈值化 插件(适用于Stable Diffusion和ComfyUI)显著增强CFG效果。
如果你不熟悉该插件,想尝试一下,它本身就能产生惊人的效果。以下是一个相对安全、能获得较一致结果的设置:
* 将CFG设为极低值,我通常使用1.5(1容易在如此高CFG下陷入混乱)
* 将“模仿比例”设为30,“阈值百分位”设为0.9(若将CFG降至18-26区间,0.95效果更佳)
* 将两种模仿模式均设为“Half Cosine Up”,两种比例最小值均设为4,调度值设为4
其余输入与处理步骤可照常使用。我仅在某些无法承受极端值的Lora上遇到问题,导致图像混乱或全黑/蓝/灰。若出现此情况,请先尝试移除Lora,再降低模仿等级。
我仅对第1和第4组对比做两点简短(主观)评论,其余请自行解读(本应如此)。
1. 机器鸡 是我更偏好“TrueReverseCubicHermite”变体的例证。虽然两个模型都偏离了基础模型的半写实鸡形态,“TrueReverseCubicHermite”在头部增加了细微细节,更暗示其为鸡。但两者鸡的元素都太少,背景也过于简单,在此案例中,我反而更喜欢基础模型。在非测试场景下,我会调整参数以更精准地找到平衡,但这个对比确实很好地展现了两者之间的细微差别。
4. 日本樱花:我更倾向于使用“ReverseSmoothStep”变体而非“TrueReverseCubicHermite”。加入带有日本风格建筑的房屋,为作品增添了我所期待的深度——让原本可能显得死板的提示(如“TrueReverseCubicHermite”变体更贴近提示但缺乏生气的版本)焕发生机。这是一个很好的例证:在不偏离提示边界的前提下,稍多一点艺术自由度即可显著提升图像表现力。
1. 机器人鸡 - 种子 40212733440049
提示:
sci-fi, art by Iris van Herpen, digital art, Rule of Thirds, robotic (Chicken:1.1) , the Chicken is wearing a Iron and Velvet Jacquard cybernetics that was designed by Apple computers, It is Hyperdetailed, Avant-garde, futuristic, 3D printing, science fiction, fashionable
裁剪对比图:

完整图像:
ProteusBase

ReverseSmoothStep

TrueReverseCubicHermite

2. 朋克赛博格女性 - 种子 754467864831453
提示:
cyberpunk, concept art, cyborg Female Troll, background is night city, neon-lit, vogue pose, her hair is Silver, futuristic, womanly, D&D, neon hue, shadowrun
图像:
ProteusBase

ReverseSmoothStep

TrueReverseCubicHermite

3. 时尚摄影 - 种子 321237786
提示:
Fashion photography of a supermodel, laughing, she is wearing a fashion outfit, her fashion outfit is Smart, It has Anthemion patterns on it, Tattoos, Fomapan 400, Depth of field 270mm, photorealism
图像:
ProteusBase

ReverseSmoothStep

TrueReverseCubicHermite

4. 日本樱花 - 种子 123 (非笔误)
提示:
(nature art by Yuko Tatsushima:1.0) , wabi-sabi (Cherry blossom tree:1.1) , trees, deep focus, Japanese watercolor painting, traditional motives
图像:
ProteusBase

ReverseSmoothStep

TrueReverseCubicHermite

结语
由于我对该过程背后的数学与科学原理缺乏耐心和深入了解,我可能在某些环节处理得不够理想,甚至出现错误。
不过,我对所找到的合并结果感到满意,并对迄今为止的一些成果感到惊喜。
归根结底,基础模型——以及由此衍生的合并模型——都是为了探索可能性,探索一个已成熟框架的边缘地带。
如果你对这样的探索感兴趣,希望这些模型(以及其各自的基础模型)能为你带来价值。
如果你完整阅读了这篇帖子——致敬!我可能都读不下去。衷心感谢开源社区中的每一位贡献者,让像我这样的普通人也能享受到这些成果。
致谢:
Alexander Izquierdo 及 RunDiffusion 团队,感谢他们为开发 Proteus 所付出的时间、努力与投入。
Meihua Dang 及其团队成员,感谢他们将 DPO 从 Stable Diffusion 模型中分离出来,使这类合并变得轻而易举。
感谢开源社区中所有投入大量时间与精力进行开发、训练和教育的杰出人士。
如果你手头有闲钱,且这些项目对你有所价值,请用这些钱向他们表达感谢。
我不喝咖啡,因此如果这些模型或这篇帖子为你带来过一丝喜悦,分享你的创作便是最好的谢意。
和平。


