welcome to test this Elsa (Qwen,HiDream,Wan,Hunyuan,Flux)

详情

下载文件

模型描述

Qwen-Image:

Qwen-image 绝对是又一次重大飞跃,就像当年的“SDXL”一样。认真说,如果你有钱或有硬件,一定要试试微调它!

如果真有哪个模型能掀起下一轮“Pony”热潮,Qwen 完全有这个潜力!

看看这些细节和服装的精准度吧!

Qwen-image 真的学会了东西!画面几乎达到电影级水准。

上一个让我如此惊叹其学习能力的模型是 HunyuanVideo,但它的图像质量不如 Wan。

而 Qwen-image 在这两方面都做到了极致。

(不过我依然认为 Hunyuan 在角色一致性上仍是王者——可以理解为 99 分对比 Qwen 的 95 分。)

坦白讲,这里真正的价值,只有有经验的训练师才能真正理解。

Wan2.2_9-outfit(高噪声+低噪声):

我使用了相同的数据集,但这次加强了训练提示——和 Wan 2.1 一样的问题:服装变化依然难以稳定学习。我看到的任何改进,更多是源于更干净的数据集,而非模型升级。测试时我还注意到 Wan 2.2 的图像略显柔和;这是 KSampler(高级)“起始/结束步骤”技巧的副作用。

Wan2.2_T2V_14B 的低噪声检查点与原始 Wan2.1_T2V_14B 检查点共享大量权重,因此 LoRAs 基本可互换。(结果发现,Wan 2.2 的高噪声检查点根本不需要 step_distill LoRA;真正起作用的是低噪声检查点的 step_distill LoRA。)

Wan2.1_9-outfit:

我原本没打算发布这个模型。它在上个月之前就训练好了,但因为效果不如预期,我根本没想过有人会关心。
我忘了为这个版本制作 tag TXT 文件。

HiDream:

太棒了!HiDream 感觉像是 Flux 的下一代版本——易于训练,细节捕捉极其出色!尽管外观上仍存在一些不稳定性,但这完全不影响它的表现。

遗憾的是,运行 HiDream 对硬件要求极高。它有三个版本,即使“快速版”对我来说依然很慢。

而且,预训练准备工作简直是一场噩梦。这个 LoRA 仅用于测试,未做性能优化,训练数据集也不完整(用于对比实验)。

我认为这很可能是我们未来期待的下一代模型之一!

详细介绍见:https://comfyui-wiki.com/en/tutorial/advanced/image/hidream/i1-t2i

Wan2.1-14B (T2V)

我训练时过早停止,未保存检查点——如果继续训练,效果会更好。但这个版本仍足以让我们评估 Wan2.1-14B 的质量,希望我分享得还不算太晚。我之前 avoided 训练 14B 版本,是因为其权重文件巨大、测试极其缓慢——所以我最初只上传了图片。你知道吗?技术上它们把图像视为单帧视频?即使在云端使用双 4090X2,它仍需 3 秒/步(而 HunyuanVideo 仅需 1 秒/步)。

测试中,我注意到 14B 有两个关键特性:

  1. 它比其他模型更抗过拟合。

  2. 它的输出更干净、噪声更少,优于 HunyuanVideo。

Wan2.1-1.3B

所有示例均使用 wan2.1-1.3B 生成,训练基于官方 1.3B 权重模型。我知道你可能在想:为什么有这么多 Elsa LoRA?她是我的默认测试角色——还有其他个人和技术原因,但我猜你不会感兴趣。

总之,Hunyuan 在从训练图像中捕捉角色面部和服装方面,整体上优于 Wan。它在 T2V(文生视频)上通常表现不错。

而 Wan 更常用于 I2V(图生视频)。

Flux-Elsa 冬季服装

我发现 Flux 的 LoRA 在处理多套 Elsa 服装时效果不佳,于是我尝试单独训练一套,但结果不如预期。Flux 让我困惑——似乎有什么因素在限制角色的相似度。

Flux-test
这可能是 Civitai 平台的问题——我上传的更新版本返回了 404 错误(更新期间可能丢失了)。

欢迎测试这个 Flux 开发模型,我可能会在一段时间后删除它。

我这次尝试太粗糙,为了利用 Civitai 的在线生成功能,甚至没来得及测试就发布了最终模型。

此模型生成的图像

未找到图像。