Cosmos AUTOMATED Image to Video (I2V) - EnragedAntelope

详情

模型描述

此工作流程的作用是什么?

此工作流程将获取您的输入图像,必要时进行裁剪/调整大小以适应理想的 Cosmos 渲染尺寸,然后自动生成适用于 Cosmos 的提示词,让其施展魔法!最终结果将是一段可能极为出色的视频,您的家人可以世代珍藏。

此过程依赖于 Florence(用于自动描述图像)和一个大语言模型(LLM,用于根据图像描述生成视频提示词)。

工作流程中包含了进一步的说明和链接。

初始设置(模型加载/LLM配置)后操作极为简单

  1. 加载输入图像。

  2. 队列提示词。就是这样,其他所有设置都已默认优化完毕。

尽情享受吧,我期待看到您的创作!

预期说明:此模型非常庞大。使用 7B 模型并配合所附(可选)优化措施,我在 4090 显卡上生成一段 121 帧、分辨率为 1280x704 的视频时,耗时约 15 分钟,显存占用约 20GB。

此模型生成的图像

未找到图像。