Old Consistency V32 Lora [FLUX1.D/PDXL]

详情

模型描述

PDXL + ILLUSTRIOUS TRAIN V3.34:

  • Illustrious 不是 PDXL 的分支,它完全不同且非常优秀。有机会请尝试使用它。

  • /model/803213

  • 我专门为它训练了一个 Simulacrum 版本。

使用 V3-2 替代 V3.22:

  • V3.22 的目标最终发生了偏移,我陷入了一连串的 flux 测试和新机制探索中。在充分学习后,我掌握了如何进行主题聚焦、如何打标签,以及 flux 本身如何理解标签;现在我终于能够构建一个真正的版本 3。

  • 感谢每一位耐心陪伴我学习与实验周期的人。这是一段真正的过山车旅程,充满了测试、失败和一些真正的成功。我现在清楚地知道什么可行、如何去做,并且已建立了一套方法论,可以基于所学进行迭代,实现我想要创作的内容。这个过程并不完美,随着我的进步会不断优化,因此无论我构建什么,都将是理解和迭代开发的过程。我有足够的信心,已经发现并越过了第一个巨大的达克效应悬崖,现在可以真正开始学习和教授有用的资讯,同时尽可能以对基础用户和高级用户都有意义的方式处理和理解这些信息。

  • 我已确认,我最初通往 V4 的方向是可行的,但我之前所用的方法并不像我最初在迭代学习系统时所认为的那样有效。更多的学习成果和失败经验,为未来的成功铺平了道路。

基于指令的版本控制:

  • 我计划为每个版本引入三种核心指令训练,以及一个纯 vanilla 版本。

  • 我将使用高度通用的指令训练,不仅用于核心系统,也用于特定主题图像本身,以将所有预期的主题元素渗透到整个系统中。

  • 标签处理的技术部分将非常独特,如果你不了解我为何对系统进行某些操作,可能难以理解,因此如果你希望了解详细细节,图像和标签可能会显得非常混乱。

  • 简化的标签系统仍会保留其独立性,并在需要时仍能完全实现所需效果。

  • 每个版本都将提供一个“nd”(无指令)版本,以确保测试结果和输出的可比性,就像矿井中的金丝雀;当金丝雀停止鸣叫时,就该离开了。这些姊妹模型很可能具备合并与归一化能力,以便重用并融合不同指令下可能成功或失败的概念。

  • 本模型的首要目标是聚焦单一角色。每个模型仅聚焦一个角色,其分辨率将根据正确的 FLUX 训练格式参数进行上下比例缩放。

V3.2 的问题比我想的要轻微:

  • 大部分担忧的成果源于我计划逐步补全的信息缺失。这纯粹是迭代开发的问题。

  • 话说回来,V3.21 的训练版本目前正在进行测试,即将发布。它在姿势控制方面有所改进,并更侧重于使用较长的基于摄像头的指令。

  • 结果表明,它与我测试过的大多数 LoRA 具有良好的兼容性,甚至能与一些当前 V3.2 无法调整或旋转的僵硬 LoRA 正常工作。

  • 它与 Flux Unchained、大量角色模型、面部模型、人类模型等也表现出良好的兼容性。到目前为止,系统大部分与其他系统无重叠或冲突,这很好。

V3.2 需解决的问题:

  • 某些姿势和角度存在一致性问题。此外,当使用“从侧面”、“从背后”、“从上方”、“从下方”等标签时,与其他 LoRA 存在交叉污染。我将引入新标签作为验证单元,并训练一个独立的 LoRA,以确保未来摄像头控制的保真度。

  • 在动漫风格下基本表现良好,但一旦涉及 LoRA 就会出现问题。

  • V3.21 的组合标签:

    • 我需要进行一些基准测试,以确保摄像头根据位置正确工作,因此将测试如下标签:

      • 从上方正面视角的主体

      • 从上方侧视角的主体

      • 从前方后方视角的主体

      • 从后方侧视角的主体

    • 以及在 base flux_dev 中更多类似的标签,以此确保我构建的系统能正确放置摄像头,且图像保真度不会在过程中丢失。

    • 据我所知,使用此类通用选项时,系统会训练出极深的层次。尚需更多测试确认。

    • 类似“从背后抓取”、“从背后性行为”等标签可能与“背后”标签不兼容,因此我将使用“后方”标签。

    • “从侧面”、“从背后”、“正面”、“正对观众”以及任何与特定角色的 Safebooru、Danbooru、Gelbooru 位置旋转相关的内容,均不会被训练。整个系统将完全基于“观察”角色,而非“与角色互动”。

    • 我们也不希望大多数情况下出现 POV 手臂,因此必须进行大量测试,以确保标签不会意外生成手臂、腿部、躯干,而是专注于单一主体。

某些姿势根本行不通:

  • 此处存在一个组合标签系统,但未能正确发挥作用,因此需要一套新的标签组合来正确控制角色。

  • 腿部变形或缺失。

  • 手臂变形或位置错误。

  • 脚部缺失。

  • 上半身过于突出(<<< 过度拟合)。

  • 下半身衣物显示不正确。

  • 颈部未正确显示围巾、毛巾、项圈、领带等服饰。

  • 乳头和生殖器完全混乱。在这种情况下,需要建立一个包含其各种变体的专用文件夹,以实现一个真正的 NSFW 控制器。

  • NAI 应作为风格进行特定微调。

  • 衣物选项比应然更频繁地生成身体类型。

  • 明确评级有时根本无法访问,有时却像货运列车一样直接穿透。

  • 缺乏足够数量的可疑图像用于加权;明确标签系统也应同时标记为“可疑”,以确保可疑信息也能被访问。

  • 某些动漫角色生成时视角错误,这与追求正确关联视角的目标相悖。

  • 四足姿势整体表现良好,但确实存在视角问题。系统似乎不够频繁地将动漫角色视为 3D,因此图像周围环境需要更高的保真度。

  • 四足姿势在构图中不进行大量调整就无法正常工作。

  • 跪姿在构图中不进行大量调整就无法正常工作。

  • 构图与群组似乎以某种独特方式格式化,这与 Flux 相关,值得进一步研究。几乎像是为每个循环启用了某种内部机制。

取得了一些成功:

  • 大多数图像的基准保真度未受影响。

  • 许多新姿势确实有效,尽管有时略显笨拙。

  • 动漫风格已通过 NAI 独特方式改变,并增加了一丝写实感。

  • 可以呈现多个角色,尽管有时姿势非常奇怪。

  • 从任何角度站立的姿势,其风格与 NAI 结合时,保真度和图像质量极佳。

  • V3.3 将需要等待。

V3.3 路线图:

我已更新本文档底部的资源,并将旧版文档分支归档为独立文章。

由于当前成果更贴近我的愿景,我可以将焦点转向目标列表中的下一步——叠加层(Overlays)。

V3.3 将引入我所谓的“高 Alpha 烧录偏移标签”,以简化漫画、游戏 UI、叠加层、生命条、显示面板等的制作。

理论上,如果我构建出正确的叠加层并配合正确的烧录方式,你可以自行创建一致性的虚假游戏。

这将为在任何场景深度中从任何位置植入角色奠定基础——但这属于后续目标。

目前它已能相当合理地生成精灵图,因此我将在未来几天探索内置标签系统,通过一些提示“巧劲”和计算资源测试所有这些子系统。这些功能很可能已经存在,只是尚未被发现。

V4 目标:

  • 如果以上所有进展顺利,整个系统应具备完整的生产能力,涵盖图像修改、视频编辑、3D 编辑以及更多我目前尚无法想象的功能。

  • V3.3 叠加层:

    • 这一名称略有误导,它实际上更像是为下一结构设计的“场景定义框架”。

    • 该功能将花费最少与最多的时间,我需要运行一些 alpha 实验来使其工作,但我非常确信,叠加层不仅可用于显示信息,还因其深度机制而将成为场景控制的可选功能。

  • V3.4 角色植入、旋转值规划与精确视角偏移:

    • 确保特定角色确实存在并遵循指令是首要目标,因为有时它们根本不会出现。

    • 我将实现基于度数的完整数值旋转系统(俯仰/偏航/翻滚)。由于我缺乏相关数学能力、图像数据集和 3D 软件技能,它不会完美,但会是一个良好的开端,并希望与 FLUX 已有的机制相结合。

  • V3.5 场景控制器:

    • 实现场景中的复杂交互点、摄像头控制、焦点、深度等,以配合放置的角色构建完整场景。

    • 可将其视为叠加层控制器的 3D 增强版,若你愿意,甚至可以称之为“加强版”。

  • V3.6 灯光控制器:

    • 实现分段式、场景控制的灯光变化,影响所有角色、物体与创作内容。

    • 每个光源将根据 Unreal 中定义的多种灯光类型、来源、颜色等规则进行放置与生成。

    • 理论上,FLUX 应能自动填补空白。

  • V3.7 身体类型与自定义:

    • 在引入基础身体类型后,我希望进一步实现更复杂的身体类型创建,包括但不限于:

      • 修复无法正常工作的姿势

      • 添加大量新姿势

      • 更复杂的头发:

        • 头发与物体的互动、修剪头发、受损头发、褪色头发、多色头发、束发、假发等
      • 更复杂的双眼:

        • 不同类型的眼睛:睁开、闭上、眯眼等
      • 多种面部表情:

        • 开心、悲伤、惊讶、无眼、简单脸、无脸等
      • 耳朵类型:

        • 尖耳、圆耳、无耳等
      • 多种肤色:

        • 浅色、红色、蓝色、绿色、白色、灰色、银色、黑色、深黑、浅棕、棕色、深棕等

        • 我会尽量避免涉及敏感话题,因为人们普遍对肤色非常在意,但我只是希望像衣服一样拥有丰富的颜色选择。

      • 手臂、腿部、上躯干、腰部、臀部、颈部与头部尺寸控制器:

        • 二头肌、肩膀、肘部、手腕、手、手指等,提供长度、宽度与粗细的调节器

        • 锁骨及所有躯干相关标签

        • 腰部及所有腰部相关标签

        • 基于 1 到 10 的梯度进行身体尺寸通用化,而非采用任何 Booru 预定义的系统

  • V3.8 服装与服装自定义:

    • 约 200 套服装,每套均有其自定义参数。
  • V3.9 从高保真数据中采样 500 个视频游戏、动漫、漫画角色:

    • 五百个……呃,我是说,大量角色。是的,绝对不是大量与角色设计或原型毫无理性关联的梗图角色。

    • 此后,你便可构建或训练任何角色。

  • 大幅提升保真度与质量:

    • 包括从多个来源获取数以万计的高质量动漫、3D 模型和摄影半写实图像,用于叠加和训练这一特别微调的 Flux 版本,使其符合特定风格规范。
  • 每张图像将根据评分1到10的比率进行保真度评分和标记,方式类似于Pony,但我将根据效果好坏对系统进行独特的调整。

V3.2 发布 - 4k 步骤:

  • 这个版本绝对不适合孩子。这是一个支持SFW/可疑/NSFW的基模型,可以训练成任何风格。

  • 它也不是专门用来生成色情内容的,只是在被提示时可以做到。当你通过教AI某些行为时,就会附带相应的后果。目前图像大致为33% SFW、33% 可疑、33% NSFW,略有浮动。整体权重偏向安全,类似于NAI的工作方式。

  • 我坚信应赋予并教授信息,让用户自行决定如何使用。通过适度可控和谨慎的方式教一个无审查的AI大量无审查内容,我认为这对AI向完整保真理解的发展是有益的,也对那些使用AI生成图像的人有益,使他们不必每天24小时面对噩梦般的画面。

  • 这个模型展现出的潜力远远超过我以往见过的任何模型。

  • 请使用我提供的ComfyUI工作流。它已附在下方所有图像中。

  • 默认启用安全模式:

    • questionable < 解锁更多可疑的随机特征

    • explicit < 解锁随机出现的“有趣”内容

  • 视角激活标签:尝试组合使用;从前、侧、后等不同角度:

    • from front, front view,

    • from side, side view,

    • from behind, rear view,

    • from above, above view,

    • from below, below view,

  • 主要添加和增强的姿势:

    • 四足姿势

    • 跪姿

    • 蹲姿

    • 站姿

    • 前倾弯腰

    • 倾斜姿势

    • 仰卧/俯卧

    • 倒立

    • 俯卧

    • 仰卧

    • 手臂摆放

    • 腿部摆放

    • 头部倾斜

    • 头部方向

    • 眼睛方向

    • 眼睛位置

    • 眼睛颜色饱和度

    • 头发颜色饱和度

    • 胸部大小

    • 臀部大小

    • 腰部大小

  • 多种服装选项

  • 多种角色选择

  • 多种面部表情

  • 性爱姿势目前仍为开发中(WIP),我强烈建议在它们被充分优化前避免使用。这些远远超出了我的能力范围,目前我也没有足够的脑力去决定该如何推进。

  • 姿势生成器、视角生成器、情境设定器、概念强制器和插值结构均已就位,我将训练更多版本。

  • 祝您使用愉快。

V3.2 路线图:

  • 2024年8月25日 5:16 - 我已确认流程成功,系统表现远超预期。AI已产生出人意料的突发行为,使角色姿态呈现出指数级更强的表现力。测试已经开始,结果绝对令人惊叹。

    • 最终分辨率:512、640、768、832、1024、1216
  • 2024年8月25日 15:00 - 所有图像均已正确标记,姿势准备就绪。真正的训练现在开始,过程将涉及多维度测试、学习率测试、步数检查,以及更多评估,以确定最适合V3.2发布的候选模型。

  • 2024年8月25日 4:00 - V3.2的第一个版本在1400步时仅出现轻微变形,但在2200步时出现严重变形,这表明懒惰的WD14标签系统无效。即将手动标记。今天早上有得忙了。

  • 2024年8月24日晚上 - 现在正在训练中。

  • 我怀疑这个可能行不通。我现在已自动标记所有内容,并暂时移除了姿势角度。我会看看WD14能否独立处理。无论训练成功与否,我都会恢复原始姿势角度和标签顺序。让我们看看当所有有意数据被集中、使用场景密集后,效果如何。

  • 4000张图像可能需要一段时间缓存潜在变量,但由于对特定“使用场景”人偶和身体的专注,结果应该至少不错。

  • 2024年8月24日 中午 -

  • 我们在努力。

  • 所有内容都经过格式化,带有阴影背景,这有助于Flux基于表面和位置生成图像。所有设计均针对Flux无法处理的缺失姿势进行优化,并专注于可在多个位置叠加的主体。

  • 我一直在专注正确的手臂摆放,确保标签重叠的手臂能从A点平滑连接到B点。

  • 2024年8月24日 早晨 - 看来手臂也存在一些问题,不过没关系,我会把它加入列表中。感谢指出这个问题,确实存在一些交叉污染需要处理。我使用的是一个网站系统中没有的特定ComfyUI循环回传系统,因此我可能需要在这一版本中禁用网站上的生成功能。

  • 2024年8月23日 - 我已收集约340张高细节动漫图像,拥有近乎统一的姿势、俯仰/偏航/翻滚标识,确保胸部、头发和臀部的形态、颜色和尺寸差异。还剩554张待处理。V3.2将重点投入动漫风格,之后我计划从Pony获取数据,生成足够的合成写实元素。除非Flux在训练后能实现,否则我将直接使用Flux! 这些应能确保每种姿势的保真度和评分分离,尤其因为我采用了新的“from”和“view”关键词方法。理论上,完成之后,它将几乎与NovelAI的姿势控制功能完全一致,这正是我的目标。当然,角色及其差异化则是另一个故事。

  • 所有内容必须井然有序,否则无法在必要时提供足够上下文以对基模型产生实质性影响。

  • 设计上默认为“安全模式”,因此整个系统将偏向安全,同时允许启用NSFW内容。

  • 我将训练多个此LoRA版本,确保安全与NSFW之间严格区分,同时让偏好NSFW的用户能享受更开放的版本。

  • 我的期望是,当训练完成后,我可以将一个精心挑选的5万张图像数据集输入系统,它就能创造出某种奇迹——一种可能与Pony同等强大的工具,满足任何想象力需求。那样我就可以安心了,毕竟宇宙会感谢我。之后,你们可以随意输入任何内容,它都会根据Flux的内在强大能力和一致性骨架,转化为你们想要的样子。

  • 我计划在完整一致性V3.2图像集整理、训练、测试完毕后发布训练数据。我将在本周末有空时发布V3数据。

  • 我已发现一组姿势不一致问题,主要集中在“躺着”关键词与角度关键词的组合上。我将逐一测试每个组合,确保其底层一致性,再进入下一阶段:基础服装选择、服装变化,以及基于有效/无效姿势的衍生设计。此外,我还需要为可疑和NSFW元素加入更详细信息,你们可以猜猜下一版本会包含什么。

  • 在此之前,我必须确保姿势能按指令正常工作,因此我将创建新的有意组合关键词,增加每种姿势的图像数量、每个角度的图像数量,以及每个情境的角度数量。我还将创建一系列用作占位符的数据,以构建更复杂的情境和图像——但Flux其实不需要太多,我会边做边加。同时,我会加入一系列“基础”标签,在遇到失败点时自动切换至其他标签,这将有助于提升一致性。

V3 文档:

  • 主要在FLUX.1 Dev e4m3fn(fp8)上测试,因此准备的检查点合并将反映此值,上传完成后生效。/model/670244/consistency-v3-flux1d-fp8t5vae

  • 此模型基于FLUX.1 Dev基模运行,但也可在其他模型、合并模型及其它LoRA上使用,效果会有所差异。请尝试调整加载顺序,因为模型参数会按不同权重顺序变化。

  • 这绝非简单的合并,而是Flux的“脊柱”。它赋予了类似Danbooru的强大标签体系,实现摄像机控制和辅助功能,使创建Flux本身可以实现但默认需要大量手动操作的可定制角色变得容易得多。

  • 我强烈建议使用多重循环回传系统以确保图像保真度。一致性通过多次迭代能显著提升质量和保真度。

  • 此模型高度面向个体。但因我设计的分辨率结构,它也能处理大量相似情境中的人物。那些不带上下文就直接改变画面的LoRA通常毫无用处,因为它们无法贡献上下文。而那些专门增加人物特质或创建人物间上下文互动的LoRA则表现良好。服装、发型、性别控制均有效。我测试的大多数LoRA都有效,但有些完全不起作用。

  • 这不是合并,也不是多个LoRA的组合。此LoRA是通过一年内使用NAI和AutismPDXL生成的合成数据创建的。图像集极为复杂,用于创建它的选择图像也很难挑选,经历了无数次试错,数量多到难以计数。

  • 此LoRA引入了一系列核心标签,为Flux添加了它原本不具备的完整骨架。激活模式复杂,但如果你像使用NAI那样构建角色,它将呈现出与NAI相似的生成效果。

  • 此模型的潜力和力量不可低估——这是一个绝对的性能猛兽,其潜能远超我的想象。

  • 如果你不小心,它仍可能生成一些怪物。如果你坚持使用标准提示和逻辑顺序,很快就能用它创作出美丽的艺术作品。

  • 分辨率:512、768、816、1024、1216

  • 建议步数:16

  • FLUX引导:4,或3-5(若顽固),15+(若极其顽固)

  • CFG:1

  • 我使用了2次循环回传。第一次:放大1.05倍,去噪0.72–0.88;第二次:去噪0.8,几乎不变,具体取决于我希望引入或移除多少特征。

核心标签池:

  • anime - 将姿势、角色、服装、面部等风格转换为动漫风格

  • realistic - 将风格转换为写实风格

  • from front - 从正面视角观察人物,肩部正对观众,躯干中心朝向观察者

  • from side - 从侧面视角观察人物,肩部垂直朝向观众,表示人物处于侧面

  • from behind - 从人物正后方视角观察

  • straight-on - 正对垂直视角,适用于水平平面角度

  • from above - 从45至90度俯角观察人物

  • from below - 从45至90度仰角观察人物

  • face - 聚焦面部细节的图像,适用于面部特征难以生成时

  • full body - 完整人物全身视图,适用于复杂姿势

  • cowboy shot - 标准牛仔镜头标签,在动漫中效果良好,写实中效果一般

  • looking at viewer, looking to the side, looking ahead

  • facing to the side, facing the viewer, facing away

  • looking back, looking forward

混合标签会产生预期的混合结果,但其效果可能不一致

  • 侧面,正面 - 一台水平平面相机对准个人或多人的侧面

  • 前面,从上方 - 摄像机位于前方上方,以45度角向下倾斜

  • 侧面,从上方 - 摄像机位于侧面上方,以45度角向下倾斜

  • 后面,从上方 - 摄像机位于后方上方,以45度角向下倾斜

  • 前面,从下方

  • 前面,从上方

  • 前面,正面

  • 前面,侧面,从上方

  • 前面,从侧面,从下方

  • 前面,从侧面,正面

  • 后面,侧面,从上方

  • 后面,侧面,从下方

  • 后面,侧面,正面

  • 侧面,后面,从上方

  • 侧面,后面,从下方

  • 侧面,后面,正面

这些标签看起来相似,但顺序通常会产生截然不同的结果。例如,将“从后面”标签放在“从侧面”之前,系统会更偏向于“后面”而非“侧面”,但你通常会看到上半身发生扭转,身体以45度角向任一侧倾斜。

结果混合,但确实可行。

特征、色彩、服装等同样有效:

  • 红发、蓝发、绿发、白发、黑发、金发、银发、金发、棕发、紫发、粉发、青发

  • 红眼、蓝眼、绿眼、白眼、黑眼、金眼、银眼、黄眼、棕眼、紫眼、粉眼、青眼

  • 红色乳胶紧身衣、蓝色乳胶紧身衣、绿色乳胶紧身衣、黑色乳胶紧身衣、白色乳胶紧身衣、金色乳胶紧身衣、银色乳胶紧身衣、黄色乳胶紧身衣、棕色乳胶紧身衣、紫色乳胶紧身衣

  • 红色比基尼、蓝色比基尼、绿色比基尼、黑色比基尼、白色比基尼、黄色比基尼、棕色比基尼、紫色比基尼、粉色比基尼

  • 红色连衣裙、蓝色连衣裙、绿色连衣裙、黑色连衣裙、白色连衣裙、黄色连衣裙、棕色连衣裙、粉色连衣裙、紫色连衣裙

  • 裙子、衬衫、连衣裙、项链、全套服装

  • 多种材质;乳胶、金属、牛仔布、棉等

姿势可能与摄像机角度协同工作,也可能需要调整:

  • 四肢着地

  • 跪着

  • 躺着

  • 躺着,仰面

  • 躺着,侧卧

  • 躺着,倒立

  • 跪着,从后面

  • 跪着,从前面

  • 跪着,从侧面

  • 蹲着

  • 蹲着,从后面

  • 蹲着,从前面

  • 蹲着,从侧面

控制腿部等细节可能非常挑剔,因此请稍作调整:

  • 腿部

  • 腿并拢

  • 腿分开

  • 腿张开

  • 脚并拢

  • 脚分开

  • 数百个其他已使用和包含的标签,数百万种潜在组合

将它们与人物特征的限定词配合使用,但放在FLUX提示本身之后。

提示:

直接去做。随意输入,看看会发生什么。FLUX 已经包含大量信息,因此请利用姿势等元素来丰富你的图像。

示例:

  • 一位女性坐在厨房的椅子上,从侧面、从上方,牛仔镜头,1girl,坐着,从侧面,蓝发,绿眼

  • 一位超级英雄女性在空中飞行,扔出一块巨石,她周围环绕着强烈发光、令人畏惧的气场,写实风格,1girl,从下方,蓝色乳胶紧身衣,黑色项圈,黑色指甲,黑色嘴唇,黑眼,紫发

  • 一位女性在餐厅用餐,从上方、从后面,四肢着地,臀部,丁字裤

  • 是的,它成功了。通常都会成功。

诚实地讲,这个系统应该能处理大多数疯狂的输入,但它肯定超出了我的全面覆盖范围。我已尽力降低混乱程度,并加入了足够多的姿势标签使其可行,因此请尽量坚持使用更核心和实用的标签。

为创造这一系统,我经历了超过430次失败尝试,最终才形成一系列成功的理论。我将在本周末完成完整报告,并发布所使用的训练数据。这是一个漫长而艰难的过程。希望你们都能喜欢。

V2 文档:

昨晚我非常疲惫,因此未能完成完整报告和发现整理。请期待尽快发布,可能在我上班期间我会继续进行测试并记录数值。

FLUX 训练简介:

  • 此前,PDXL 只需少量图像配合danbooru标签,即可生成与NAI相当的微调结果。在那种情况下,图像越少反而是优势,因为它减少了潜在干扰;但在此情况下,图像太少则无效。它需要更多——需要一些力量和冲击力。

  • 该模型本身具备大量信息,但不同学习数据之间的差异远超最初预期。更高的方差意味着更多的可能性,而我最初无法理解为何它能适应如此高的方差。

  • 经过一些研究,我发现正是这种高方差赋予了模型强大的能力。它可以基于深度“定向”生成图像,将图像分段并层叠在另一图像之上,利用另一图像的噪声作为引导标记叠加。这让我思考:如何在不破坏模型核心细节的前提下训练>>这个<<模型?我最初考虑通过调整尺寸实现,随后突然想起“分桶”(bucketing)——这便引出了第一个关键点。

  • 我基本上是盲目地开始,依据建议设置参数,再根据观察结果进行调整。这是一个缓慢的过程,因此我同时在研究和阅读论文以加快进度。如果我有足够精力,我会同时做所有事,但毕竟我只是一个普通人,还有工作要完成。我几乎是把所有能想到的方法都扔了上去。如果我有更多时间,我会同时运行50个这样的训练,但我真的没时间去搭建这样的系统。我可以花钱请人做,但我自己无法设置。

  • 我根据在SD1.5、SDXL和PDXL LoRA训练中的经验,选择了我认为最合适的格式。结果还行,但这些训练明显存在某种独特问题,我会在后续逐步展开说明。

训练格式:

  • 我进行了一些测试。

  • 测试1 - 从我的danbooru样本中随机选取750张图像:

    • UNET 学习率 - 4e-4

      • 我发现其他大多数参数影响不大,可保留默认值,唯有对分辨率分桶的关注至关重要。
    • 仅1024x1024,居中裁剪

    • 2000至12000步之间

    • 我从一个随机的danbooru标签池中选取了750张随机图像,并确保标签统一。

    • 使用moat tagger为它们打标签,并将标签追加至标签文件,确保不覆盖原有标签。

    • 结果并不乐观。混乱是预期之内的。新的人体元素(如生殖器)要么随机出现,要么根本不存在。这基本符合我所看到的其他人的结论。

    • 没有预料到整个模型会受损,因为我认为标签之间很少重叠。

    • 我重复运行了两次该测试,得到两个在12000步时无用的LoRA。测试1000至8000步时,几乎看不出任何向目标方向的偏差,即使仔细关注标签池的峰值和曲线。

    • 这里还有别的东西。我漏掉了什么,我认为这并非人类化或CLIP描述。有某种……更深层的东西。

    • 在这次失败点附近,我有了一个发现。这个深度系统是插值的,基于两个完全不同的、偏离的提示。这两个提示实际上是相互插值和协作的。它如何确定这种使用方式我尚不清楚,但今天我会阅读论文以弄清其中的数学原理。

  • 测试2 - 10张图像:

    • UNET 学习率 - 0.001 <<< 非常高的学习率

    • 256x256、512x512、768x768、1024x1024

    • 初始步骤显示出一些偏差,类似于SD3测试中的“烧毁”程度。但效果并不好。从大约500步开始出现渗色,到1000步时基本无用。我知道我基本是在重复,但这确实是一个很好的失败实验。

    • 在这里,偏差极具破坏性。它引入了新的上下文元素,然后将其变成“零食机”。用几乎无用或完全烧毁的伪影替换人物元素,类似于配置糟糕的内补(inpaint)效果。有趣的是,FLUX能承受如此多的损伤仍能正常运行。这次测试充分展示了FLUX的韧性,它对我的尝试表现得异常顽强。

    • 这是一次失败,需要更多不同设置的测试。

  • 测试3 - 500张姿势图像:

    • UNET 学习率 - 4e-4 <<< 此学习率应除以4,并给予两倍的步骤数。

    • 全分桶 - 256x256、256x316等。我任其自由发挥,提供了大量不同尺寸的图像,让系统自动分桶。结果出人意料。

    • 结果直接构成了这一一致性模型的核心,效果如此强大。它似乎比预期造成了更多损害,但实际上效果极好。

    • 需要注意的是:动漫一般不使用景深。这个模型似乎极度依赖景深和模糊来区分深度。需要对这些图像应用某种深度控制网络,以确保深度变化,但我一时还不清楚如何实现。训练深度图配合法线图可能有效,但也可能因模型缺乏负向提示而彻底破坏模型。

    • 需要更多测试。需要额外训练数据。需要更多信息。

  • 测试4 - 5000张一致性数据包:

    • UNET 学习率 - 4e-4 <<< 此学习率应除以40,并给予20倍的步骤数(大致)。将此类内容训练进核心模型并非易事,也无法快速完成。当前流程的数学机制无法确保核心模型不被破坏,因此我运行了它并发布了初步发现。

    • 我原本写了一整段内容加后续部分,正准备引出我的发现,但不小心按了鼠标回退键,整段内容消失了,我稍后需要重写。

重大失败:

  • 我最初12000步LoRA的学习率过高。整个系统确实基于梯度学习,但我训练的速率过高,导致模型无法保留信息而不崩溃。简单来说,我没有“烧毁”模型,而是重新训练它去实现我的目标。但问题在于,我根本不知道我想要什么,因此整个系统基于一系列无方向、无梯度深度的尝试,注定失败,无论步数多少。

  • 对于FLUX而言,“风格”并非人们基于PDXL和SD1.5所理解的“风格”。梯度系统确实会风格化内容,但当你试图过快地强加过多信息时,整个结构会严重受损。这极具破坏性,与PDXL LoRA不同,后者更像是在原有基础上叠加,显著增强已有内容,而非完全训练新信息。

关键发现:

  • ALPHA,ALPHA,再加ALPHA <<< 这一系统极其依赖alpha梯度,简直令人匪夷所思。所有内容都必须专门处理,以适应基于照片细节的alpha梯度:距离、深度、比例、旋转、偏移等,都是该模型构图的关键组成部分。要创建一个合适的合成风格器,必须在多个提示中包含这些细节。

  • 所有内容都必须准确描述。简单的danbooru标签本质上只是风格。你只是强制系统识别你希望实现的风格,因此你不能仅凭强加新概念就期望成功,必须包含必要的概念分配标签。否则,风格与概念连接器将失败,输出纯垃圾。垃圾进,垃圾出。

  • 使用大量姿势信息进行姿势训练效果极其显著。系统本身已能识别大多数标签,只是我们尚未知道它具体识别了哪些。通过具体标签将现有内容与你想要的内容关联起来的姿势训练,将对标签组织和微调产生巨大作用。

步骤文档;

v2 - 5572张图像 -> 92种姿势 -> 4000步 FLUX

  • 将NAI迁移到SDXL的原始目标,如今也已应用于FLUX。敬请期待未来更多版本。

  • 需要进行稳定性测试,到目前为止,它展现出了一些PDXL完全无法处理的显著能力。它需要额外的训练,但在如此低的步数下,其性能远超预期。

  • 我认为第一层姿态训练的图像大约只有500张左右,这应该是主要起作用的部分。当我不再整理好有序的图像集并完成计数后,完整的训练数据将发布在HuggingFace上。我不想发布错误的图像,或混入我挑出来的垃圾内容。

继续阅读这里:

https://civitai.com/articles/6983/consistency-v1-2-pdxl-references-and-documentation-archive

重要参考:

我从不抽烟,但FLUX偶尔也需要来一根。

ComfyUI

  • 一个工作流和图像生成助手。我主要使用ComfyUI的核心节点,但会不断尝试并保存其他组件进行实验。

Flux

  • 一个非常强大但难以理解的AI模型,具有巨大的潜力。

NovelAI

  • 如果没有他们,我根本不会想到要制作这个。向NAI的所有工作人员致以由衷的感谢,感谢他们辛勤的工作,以及那台强大的图像生成器,还有他们堪称神级的写作助手。请支持他们。

Black Forest Labs

  • 他们创造了Flux,其模型的灵活性应归功于他们,甚至可能占了绝大部分功劳。我只是在微调并引导这个庞然大物走向目标。

TagGUI

  • 一个功能强大且高效的标签助手。我差点自己写一个,直到发现了这个神器。

AIToolkit

  • 我用来训练我的Flux版本的工具。它有点敏感和难搞,但在多种系统上表现优异,完美完成任务。

PonyDiffusion

  • 不能忘记战场上的对手。这头巨兽在生成大范围梯度图像方面表现惊人,是宝贵的研究与理解工具,也是我这个方向和进展的重要灵感来源。

此模型生成的图像

未找到图像。