Donut Mochi Pack - Video Generation
详情
下载文件
关于此版本
模型描述
MOCHI 视频生成器
(结果位于 v1、v2 等画廊中,请点击顶部的标签页)
从 V8 版本起已加入真正的 i2v 工作流,详细信息见主文章
视频待定
展示特辑:(主要使用单条 ACE-HOLO promptgen 行生成)
pack 更新 V7 + 配套 ACE-HoloFS 视频 promptgen 指南。
V7 演示片(使用 Shuffle Video Studio 制作)
迄今为止的研究汇总,附带更多详细说明/信息
当前领先版本: (V7 画廊) (V8 增加了图像编码)
"\V7-Spatial-Tiling-VAE\Donut-Mochi-848x480-t2v-BatchedLatentSideload-v55"
i2v 版本使用 LLM 视频 prompt 生成,t2v 使用我的 Zenkai-prompt + DJZ-LoadLatent。
Kijai 的进行中项目
信息/设置/安装指南:https://civitai.com/articles/8313
需要 Torch 2.5.0 或更高版本,请确保更新您的 Torch。
与 CogVideo 工作流类似,这些配置仅供希望尝试预览的用户使用 :)
即使使用 4090 显卡,它仍可能接近极限,我提供用于 V1 中研究平铺优化的工作流:
我们将平铺尺寸比默认值减少约 20-40%
我们增加帧批量大小以作补偿
保持相同的重叠因子,以避免可见接缝
关键原则:
平铺尺寸最好为 32 的倍数,以实现最高效处理
保持宽高比与原始平铺尺寸相似
帧批量大小的增加应适度,避免帧跳过
研究人员提示!
如果您使用 固定种子,采样器会保留在内存中,因此 首次生成耗时约 1700 秒 ,但可以对解码器进行更改,这意味着 下一个视频 仅需 约 23 秒。采样器已完成所有工作,除非更换种子,否则会反复使用相同的采样结果,VAE 解码速度非常出色!
^ 使用相同种子的后续生成非常快,便于调整解码器设置 ^
^ 初始生成使用 PyTorch 2.5.0 SDP 时耗时约 1700 秒 ^
V1 工作流:
输出已标记并添加至 V1 画廊,测试提示如下:
"在繁忙的太空港,一群多样化的地球人与外星人登上一艘巨大的星际游轮。机器人搬运工轻松处理着奇异的行李,全息标识以多种语言显示出发时间。一群半透明的漂浮生物家族穿过安检通道,其触须缠绕着旅行文件。天空中,小型飞船在高耸建筑间穿梭,离子尾迹交织成不断变化的光之织锦。"
\Decoder-Research\Donut-Mochi-848x480-batch10-default-v5
= 作者默认设置
- 此版本使用作者推荐的配置
\Decoder-Research\Donut-Mochi-640x480-batch10-autotile-v5
= 尺寸减小,自动平铺
- 这是我首次运行,使用解码器的自动平铺功能并将整体尺寸降至 640x480,创建了画廊中的视频。此降低尺寸可减少内存占用,但过于粗暴,会降低输出质量。
其余工作流均在不使用自动平铺的前提下探索可能的配置,以便精确掌握所用设置。视频将根据批量大小标记并添加至 V1 画廊。需社区共同研究!
\Decoder-Research\Donut-Mochi-848x480-batch12-v5
frame_batch_size = 12
tile_sample_min_width = 256
tile_sample_min_height = 128
\Decoder-Research\Donut-Mochi-848x480-batch14-v5
frame_batch_size = 14
tile_sample_min_width = 224
tile_sample_min_height = 112
\Decoder-Research\Donut-Mochi-848x480-batch16-v5
frame_batch_size = 16
tile_sample_min_width = 192
tile_sample_min_height = 96
\Decoder-Research\Donut-Mochi-848x480-batch20-v5
frame_batch_size = 20
tile_sample_min_width = 160
tile_sample_min_height = 96
\Decoder-Research\Donut-Mochi-848x480-batch24-v5
frame_batch_size = 24
tile_sample_min_width = 128
tile_sample_min_height = 64
\Decoder-Research\Donut-Mochi-848x480-batch32-v5
frame_batch_size = 32
tile_sample_min_width = 96
tile_sample_min_height = 48
最后的工作流为混合方案,增加的重叠因子(0.3 而非 0.25)可能有助于在使用极小平铺时减少可见接缝。
\Decoder-Research\Donut-Mochi-848x480-batch16-v6
frame_batch_size = 16
tile_sample_min_width = 144
tile_sample_min_height = 80
tile_overlap_factor_height = 0.3
tile_overlap_factor_width = 0.3
V2 工作流
\CFG-Research\Donut-Mochi-848x480-batch16-CFG7-v7
此工作流使用 Donut-Mochi-848x480-batch16-v6 并设置 CFG 为 7.0
此设置表现良好,生成耗时约 24 分钟。
(使用 PyTorch SDP)
V3 工作流
\FP8--T5-Scaled\Donut-Mochi-848x480-batch16-CFG7-T5scaled-v8
我们决定使用 FP8_Scaled T5 CLIP 模型,此改进显著提升了所有测试提示的输出质量,详见 V3 画廊。这是目前最佳方案!(直到被超越)
\GGUF-Q8_0--T5-Scaled\Donut-Mochi-848x480-b16-CFG7-T5scaled-Q8_0-v9
此方案未取得最佳效果,可能是因为 T5 scaled CLIP 仍处于 FP8 模式,而我们正在测试 GGUF Q8_0 作为主模型的使用。
V4 工作流
\T5-FP16-CPU\Donut-Mochi-848x480-b16-CFG7-CPU_T5-FP16-v11
通过强制将 T5XXL 以 FP16 模式运行于 CPU 上。结果与 V3 使用 GGUF Q8_0 和 T5XXL FP8 时出现的伪影相同。
V5 工作流
\GGUF-Q8_0--T5-FP16-CPU\Donut-Mochi-848x480-GGUF-Q8_0-CPU_T5-FP16-v14
这是启用 VAE 平铺时的最佳设置,当然增加步数会提升质量,但也会增加耗时。
将步数增至 100-200 可提升质量,但耗时增加,200 步需 45 分钟。可能无独立版本,因为任何人都可对上述任一工作流增加步数并等待数小时以获得 6 秒视频。可通过云设置与更多/更大 GPU/VRAM 分配解决此问题。
V6 工作流
\Fast-25-Frames\Donut-Mochi-848x480-Fast-v4
使用 VAE 平铺生成 25 帧以输出 1 秒视频。50 步仅需数分钟,100 步耗时 4-5 分钟。
\NoTiling-SaveLoadLatent\Donut-Mochi-848x480-i2v-LatentSideload-v21
使用我的新 DJZ-LoadLatent 节点,可将采样结果保存为磁盘上的 .latent 文件,从而将解码步骤分离,无需使用平铺 VAE。这是图像转视频,采用 OneVision 从任意图像估算视频提示,并自动检测竖屏或横屏比例,裁剪/填充为 16:9 或 9:16。注意:仍需更多测试以验证竖屏比例的质量。
\NoTiling-SaveLoadLatent\Donut-Mochi-848x480-t2v-LatentSideload-v25
这是前一工作流的文本转视频版本,我们移除了 OneVision 和 ImageSizeAdjusterV3,重新加入 Zenkai-Prompt-V2 以利用我们的提示列表。完整说明见工作流注释。
Save/Load Latent 方法使我们可移除 VAE 平铺,该平铺无论设置如何都会引入鬼影,而随着质量提升,鬼影现象愈发明显。
V7 工作流
将 V6 的 latent sideload 工作流更新为使用更新的 VAE 空间平铺解码器
该版本可 100% 在本地 GPU 上运行,画廊中的所有演示视频均使用 50 步生成
(V6 画廊使用 100 步),这是又一重大升级!
\V7-Spatial-Tiling-VAE\Donut-Mochi-848x480-t2v-LatentSideload-v50.json
- 文本转视频,VAE 空间平铺解码器,配合我的 latent 加载器
\V7-Spatial-Tiling-VAE\Donut-Mochi-848x480-i2v-LatentSideload-v50.json
- 伪图像转视频,VAE 空间平铺解码器,配合我的 latent 加载器
\V7-Spatial-Tiling-VAE\Donut-Mochi-848x480-t2v-BatchLatentSideload-v55.json
- 文本转视频,VAE 空间平铺解码器,配合我的 V2 批量 latent 加载器
\V7-Spatial-Tiling-VAE\Donut-Mochi-848x480-i2v-BatchLatentSideload-v55.json
- 伪图像转视频,VAE 空间平铺解码器,配合我的 V2 批量 latent 加载器
注意: V7 已发布于我的 DJZ-Workflows 包的 Github,但在此处发布前需等待新一批视频完成(今晚通宵生成)
V8 工作流
\True-Image-To-Video\Donut-Mochi-848x480-i2v-LatentSideload-v90.json
- 图像转视频,VAE 空间平铺解码器,配合我的 latent 加载器
\True-Image-To-Video\Donut-Mochi-848x480-i2v-BatchedLatentSideload-v90.json
- 图像转视频,VAE 空间平铺解码器,配合我的 V2 批量 latent 加载器
新增真正的 i2v(使用新的 VAE 编码器进行图像到视频生成)
教程视频待定。详情见 主文章