Wan 2.2 img2img workflow for the GPU poor
详情
下载文件
关于此版本
模型描述
(展览中的图片为技术对比,左侧:原始图像,右侧:Wan2.2)
有关遮罩技术的更多信息,请阅读关于焦点遮罩的文章。
(图片来自Reddit)
Wan 2.2 与其前身以及几乎所有已知的开源模型都不同。它使用两种不同的模型来生成视频,这些模型相互交替协作,直到过程完成。这两种模型被称为 高噪声 和 低噪声。高噪声模型控制构图,而低噪声模型负责细节。这些模型拥有140亿参数,功能更强大,同时也更耗费资源。
量化模型是常规模型的良好替代方案,后者并不总是针对低端显卡进行优化。它们往往是旧款显卡唯一适用的模型。Wan 2.2 绝对是适合量化的候选模型。由于这些模型是基于视频而非图像进行训练的,因此它们对时间空间(物体位置之间的相互关系)有更好的理解,细节也更为一致和连贯。因此,视频模型通常优于图像模型。
使用此类模型的 img2img 工作流会将图像的细节与视频中的某一帧对齐。毕竟,视频只是图像的序列。在这种情况下,您必须使用文本低噪声模型,因为该模型负责创建生成图像的潜在空间。其他模型的效果远不如该模型。与任何 img2img 工作流一样:去噪等级越低,输出的变化就越小,因此请根据您的需求调整该等级。此外,分辨率至关重要,因为它影响细节表现。但随着分辨率的提高,生成时间也会增加,直到 Comfy 内存耗尽。
对于NSFW图像,结果是可预测的:它会扭曲生殖器。
我仅在男性NSFW图像上测试过该工作流。它通常会将阴茎变为脚或其他模糊的附属物。我怀疑它能否同样很好地保留阴道特写细节。我所知的唯一补救方法是对其进行修补。








