Rouwei-16channel
详情
下载文件
关于此版本
模型描述
SDXL 架构向 16 通道潜在空间的实验性转换
这是基于 Rouwei-0.8 的实验性预训练模型,使用 16 通道潜在空间和 Flux 自编码器。
目标:
在保持低计算需求和所有现有知识与性能的同时,实现更优的细节表现
能够与使用相同潜在空间的 Flux/Chroma/Lumina 等模型进行联合采样
当前状态:
早期 alpha 版本,仍非常原始。 图像可能包含额外噪声,小细节处可能出现伪影,严重程度从可忽略到显著不等。放大倍数、采样器/调度器、风格乃至提示词都会影响结果。
在像素空间中使用 GAN 放大模型而非潜在空间放大,能获得更平滑的结果;提高基础分辨率也有帮助。
当前使用 epsilon 预测,未来可转换为 vpred 或其他形式。
使用方法:
ComfyUI
工作流示例(或直接从展示图中任选一张)
下载检查点(FP32 和仅 UNet 版本可在 HF 仓库 中找到)
下载 这些节点(或直接使用 Comfy Manager 的 “安装缺失节点” 功能)
使用
SDXL 16ch loader节点加载模型,之后的操作方式与常规 SDXL 一致请勿移除
Latent multiply节点,潜在变量在处理前后必须按常规 SDXL 推理方式进行缩放,此步骤尚未被隐藏。
如果出现错误 mat1 和 mat2 形状无法相乘 (_x16 和 4x3) —— 请禁用 Ksampler 的预览选项。这是因为预览使用了为 4 通道设计的 TAESD VAE。
其他 UI
由于主要差异仅在于张量形状、使用的 VAE 及潜在变量缩放因子,因此应能轻松为其他 UI 实现支持。
LoRA 适配器、ControlNet、IP-Adapter 等其他组件尚未测试。
联合采样:
由于该模型运行在与 Flux、Chroma、Lumina-image 等模型相似的 16 通道潜在空间中,因此若内存充足,可实现复杂的工作流。这允许你结合 RouWei 的所有角色、风格与概念知识,同时利用更大模型的性能。
此处有一个示例工作流:仅使用 Flux 的少量步骤(1~4 步)生成粗略的构图基础,随后将潜在变量输入 16 通道 SDXL 模型进行去噪(跳过初始高噪声时间步)。
这是最简单的做法,因为你无需在多个 VAE 或适配器间反复转换潜在变量,可以在每个去噪步骤自由切换模型,且无性能损耗。
请切记在转换之间应用 Latents multiply 节点
实现原理
基本未改动默认架构,仅将输入与输出层重新初始化为新尺寸,然后采用逐步解冻中间层块的方式进行训练。
默认 SDXL 潜在缩放因子 0.13025 在此不适用,本版本使用 0.6。
这不是最优方案。未来若对模型外层进行调整而非直接沿用,有望获得进一步提升。如有任何想法或建议,欢迎分享。
训练:
要训练本模型(当前版本),你只需在 UNET 配置中更改输入/输出通道数,并将缩放因子从 0.13025 改为 0.6,同时检查 VAE 部分是否正常工作。
(代码示例稍后提供)
我愿意协助/合作:
加入 Discord 服务器,分享你的想法、建议或需求。也可直接在此处或 Discord 私信我。
感谢:
部分训练在 Google TPU 上完成,由 OpenRoot-Compute 赞助。
个人贡献:NeuroSenko
衷心感谢此前支持我的所有伙伴。
捐赠:
BTC: bc1qwv83ggq8rvv07uk6dv4njs0j3yygj3aax4wg6c
ETH/USDT(e): 0x04C8a749F49aE8a56CB84cF0C99CD9E92eDB17db
XMR: 47F7JAyKP8tMBtzwxpoZsUVB8wzg2VrbtDKBice9FAS1FikbHEXXPof4PAb42CQ5ch8p8Hs4RvJuzPHDtaVSdQzD6ZbA5TZ
许可证:
与 Illustrious 基础模型相同,采用相同传染性许可证。













