MOCHI 视频生成器

（结果位于 v1、v2 等画廊中，请点击顶部的标签页）

从 V8 版本起已加入真正的 i2v 工作流，详细信息见主文章

视频待定

展示特辑：（主要使用单条 ACE-HOLO promptgen 行生成）

pack 更新 V7 + 配套 ACE-HoloFS 视频 promptgen 指南。

V7 演示片（使用 Shuffle Video Studio 制作）

迄今为止的研究汇总，附带更多详细说明/信息

当前领先版本： (V7 画廊) (V8 增加了图像编码)
"\V7-Spatial-Tiling-VAE\Donut-Mochi-848x480-t2v-BatchedLatentSideload-v55"
i2v 版本使用 LLM 视频 prompt 生成，t2v 使用我的 Zenkai-prompt + DJZ-LoadLatent。

Kijai 的进行中项目
信息/设置/安装指南：https://civitai.com/articles/8313
需要 Torch 2.5.0 或更高版本，请确保更新您的 Torch。
与 CogVideo 工作流类似，这些配置仅供希望尝试预览的用户使用 :)

即使使用 4090 显卡，它仍可能接近极限，我提供用于 V1 中研究平铺优化的工作流：

我们将平铺尺寸比默认值减少约 20-40%
我们增加帧批量大小以作补偿
保持相同的重叠因子，以避免可见接缝

关键原则：

平铺尺寸最好为 32 的倍数，以实现最高效处理
保持宽高比与原始平铺尺寸相似
帧批量大小的增加应适度，避免帧跳过

研究人员提示！
如果您使用 固定种子，采样器会保留在内存中，因此 首次生成耗时约 1700 秒 ，但可以对解码器进行更改，这意味着 下一个视频 仅需 约 23 秒。采样器已完成所有工作，除非更换种子，否则会反复使用相同的采样结果，VAE 解码速度非常出色！

^ 使用相同种子的后续生成非常快，便于调整解码器设置 ^

^ 初始生成使用 PyTorch 2.5.0 SDP 时耗时约 1700 秒 ^

V1 工作流：

输出已标记并添加至 V1 画廊，测试提示如下：
"在繁忙的太空港，一群多样化的地球人与外星人登上一艘巨大的星际游轮。机器人搬运工轻松处理着奇异的行李，全息标识以多种语言显示出发时间。一群半透明的漂浮生物家族穿过安检通道，其触须缠绕着旅行文件。天空中，小型飞船在高耸建筑间穿梭，离子尾迹交织成不断变化的光之织锦。"

\Decoder-Research\Donut-Mochi-848x480-batch10-default-v5
= 作者默认设置

此版本使用作者推荐的配置

\Decoder-Research\Donut-Mochi-640x480-batch10-autotile-v5
= 尺寸减小，自动平铺
- 这是我首次运行，使用解码器的自动平铺功能并将整体尺寸降至 640x480，创建了画廊中的视频。此降低尺寸可减少内存占用，但过于粗暴，会降低输出质量。

其余工作流均在不使用自动平铺的前提下探索可能的配置，以便精确掌握所用设置。视频将根据批量大小标记并添加至 V1 画廊。需社区共同研究！

\Decoder-Research\Donut-Mochi-848x480-batch12-v5
frame_batch_size = 12
tile_sample_min_width = 256
tile_sample_min_height = 128

\Decoder-Research\Donut-Mochi-848x480-batch14-v5
frame_batch_size = 14
tile_sample_min_width = 224
tile_sample_min_height = 112

\Decoder-Research\Donut-Mochi-848x480-batch16-v5
frame_batch_size = 16
tile_sample_min_width = 192
tile_sample_min_height = 96

\Decoder-Research\Donut-Mochi-848x480-batch20-v5

frame_batch_size = 20
tile_sample_min_width = 160
tile_sample_min_height = 96

\Decoder-Research\Donut-Mochi-848x480-batch24-v5

frame_batch_size = 24
tile_sample_min_width = 128
tile_sample_min_height = 64

\Decoder-Research\Donut-Mochi-848x480-batch32-v5

frame_batch_size = 32
tile_sample_min_width = 96
tile_sample_min_height = 48

最后的工作流为混合方案，增加的重叠因子（0.3 而非 0.25）可能有助于在使用极小平铺时减少可见接缝。

\Decoder-Research\Donut-Mochi-848x480-batch16-v6

frame_batch_size = 16
tile_sample_min_width = 144
tile_sample_min_height = 80
tile_overlap_factor_height = 0.3
tile_overlap_factor_width = 0.3

V2 工作流

\CFG-Research\Donut-Mochi-848x480-batch16-CFG7-v7

此工作流使用 Donut-Mochi-848x480-batch16-v6 并设置 CFG 为 7.0
此设置表现良好，生成耗时约 24 分钟。
（使用 PyTorch SDP）

V3 工作流

\FP8--T5-Scaled\Donut-Mochi-848x480-batch16-CFG7-T5scaled-v8

我们决定使用 FP8_Scaled T5 CLIP 模型，此改进显著提升了所有测试提示的输出质量，详见 V3 画廊。这是目前最佳方案！（直到被超越）

\GGUF-Q8_0--T5-Scaled\Donut-Mochi-848x480-b16-CFG7-T5scaled-Q8_0-v9

此方案未取得最佳效果，可能是因为 T5 scaled CLIP 仍处于 FP8 模式，而我们正在测试 GGUF Q8_0 作为主模型的使用。

V4 工作流

\T5-FP16-CPU\Donut-Mochi-848x480-b16-CFG7-CPU_T5-FP16-v11

通过强制将 T5XXL 以 FP16 模式运行于 CPU 上。结果与 V3 使用 GGUF Q8_0 和 T5XXL FP8 时出现的伪影相同。

V5 工作流

\GGUF-Q8_0--T5-FP16-CPU\Donut-Mochi-848x480-GGUF-Q8_0-CPU_T5-FP16-v14

这是启用 VAE 平铺时的最佳设置，当然增加步数会提升质量，但也会增加耗时。

将步数增至 100-200 可提升质量，但耗时增加，200 步需 45 分钟。可能无独立版本，因为任何人都可对上述任一工作流增加步数并等待数小时以获得 6 秒视频。可通过云设置与更多/更大 GPU/VRAM 分配解决此问题。

V6 工作流

\Fast-25-Frames\Donut-Mochi-848x480-Fast-v4

使用 VAE 平铺生成 25 帧以输出 1 秒视频。50 步仅需数分钟，100 步耗时 4-5 分钟。

\NoTiling-SaveLoadLatent\Donut-Mochi-848x480-i2v-LatentSideload-v21

使用我的新 DJZ-LoadLatent 节点，可将采样结果保存为磁盘上的 .latent 文件，从而将解码步骤分离，无需使用平铺 VAE。这是图像转视频，采用 OneVision 从任意图像估算视频提示，并自动检测竖屏或横屏比例，裁剪/填充为 16:9 或 9:16。注意：仍需更多测试以验证竖屏比例的质量。

\NoTiling-SaveLoadLatent\Donut-Mochi-848x480-t2v-LatentSideload-v25
这是前一工作流的文本转视频版本，我们移除了 OneVision 和 ImageSizeAdjusterV3，重新加入 Zenkai-Prompt-V2 以利用我们的提示列表。完整说明见工作流注释。

Save/Load Latent 方法使我们可移除 VAE 平铺，该平铺无论设置如何都会引入鬼影，而随着质量提升，鬼影现象愈发明显。

V7 工作流

将 V6 的 latent sideload 工作流更新为使用更新的 VAE 空间平铺解码器
该版本可 100% 在本地 GPU 上运行，画廊中的所有演示视频均使用 50 步生成
（V6 画廊使用 100 步），这是又一重大升级！

\V7-Spatial-Tiling-VAE\Donut-Mochi-848x480-t2v-LatentSideload-v50.json

文本转视频，VAE 空间平铺解码器，配合我的 latent 加载器

\V7-Spatial-Tiling-VAE\Donut-Mochi-848x480-i2v-LatentSideload-v50.json

伪图像转视频，VAE 空间平铺解码器，配合我的 latent 加载器

\V7-Spatial-Tiling-VAE\Donut-Mochi-848x480-t2v-BatchLatentSideload-v55.json

文本转视频，VAE 空间平铺解码器，配合我的 V2 批量 latent 加载器

\V7-Spatial-Tiling-VAE\Donut-Mochi-848x480-i2v-BatchLatentSideload-v55.json

伪图像转视频，VAE 空间平铺解码器，配合我的 V2 批量 latent 加载器

注意： V7 已发布于我的 DJZ-Workflows 包的 Github，但在此处发布前需等待新一批视频完成（今晚通宵生成）

V8 工作流

\True-Image-To-Video\Donut-Mochi-848x480-i2v-LatentSideload-v90.json

图像转视频，VAE 空间平铺解码器，配合我的 latent 加载器

\True-Image-To-Video\Donut-Mochi-848x480-i2v-BatchedLatentSideload-v90.json

图像转视频，VAE 空间平铺解码器，配合我的 V2 批量 latent 加载器

新增真正的 i2v（使用新的 VAE 编码器进行图像到视频生成）
教程视频待定。详情见 主文章

模型类型	工作流
基础模型	Other
发布时间	10/25/2024

Donut Mochi Pack - Video Generation

详情

下载文件

关于此版本

模型描述