EML_LTX_TTV/ITV_v1.0

详情

下载文件

模型描述

下载:

## 工作流指南:描述

----------------------------

此生产流程称为“EML_LTX_TTV/ITV”,采用高级技术基于Lightricks的LTX-Video实现高质量视频。

✅ 适用于8GB显存的显卡

✅ 两种操作模式:文本转视频和图像转视频,只需一键切换。

✅ 支持生成图像:用户常遇到“静止视频”问题,即图像缺乏噪声。此流程通过crf自动添加噪声,使神经网络理解“全局画面”。

✅ 使用Florence2模型进行图像识别

✅ 基于一句话生成复杂提示

✅ 支持保存为WebP和MP4格式

✅ 方便的宽高比列表。新增16:9提示

默认模型分辨率为768x512,宽高比为3:2。请自行承担使用自定义分辨率的风险,建议从节点助手“LTXV Model Configurator”中的官方列表中选择。

基于Workflow XODA-LTXV /model/974859

❤❤❤感谢提供工作流!❤❤❤

## 工作流指南:准备

----------------------------

0. 启动工作区后,您很可能缺少所需的节点。前往 Manager -> 安装缺失的自定义节点 -> 全选(ID旁)-> 安装

安装完成后,Comfy UI会提示重启,请点击并继续下一步。

0.1 模型选择。

我偏好使用LTX-2b-v0.9-bf16.safetensors模型,搭配来自Mochi的t5xxl_fp16.safetensors:

https://huggingface.co/MayensGuds/ltx-video-quants

https://huggingface.co/Comfy-Org/mochi_preview_repackaged/blob/main/split_files/text_encoders/t5xxl_fp16.safetensors

若您的显卡为6GB显存或更低,请尝试使用ltx-video-2b-v0.9-fp8_e4m3fn.safetensors模型,搭配clip loader:t5xxl_fp8_e4m3fn.safetensors

请确保已激活“ltxv”模式

💡提示:使用Flux1生成图像,因其采用相似的文本转换算法。

0.2 优化建议。

在我的NVIDIA RTX 2060s 8GB显存显卡上,默认设置为768x512、25fps、97帧、30步,生成速度约为10秒/帧,即每段视频约5分钟。左侧的“🅛🅣🅧 LTXV Model Configurator”模块可帮助您获得推荐参数。该模块与其所有空间克隆体一样,未连接任何内容,仅作为参考。

为加快速度,建议减少帧数而非改变分辨率,但视频时长会相应缩短。通常我使用约50帧(25fps = 2秒视频)已足够。建议设置20步,因为在我看来质量并无明显差异。最终获得速度/质量的良好平衡,优化后约为5秒/帧,速度提升一倍,总耗时约1分30秒。如需后续慢动作处理,两秒视频已足够制作优质镜头。Llama占用大量显存,更高效内存使用方案正在开发中。

0.3 安装Llama。

0.3.1 从 https://ollama.com/download 下载并安装Llama。

0.3.2 打开CMD或PowerShell,粘贴以下命令:ollama run llama3.2

ps:复制请按Ctrl + C,在CMD中粘贴请用鼠标右键。之后Llama将自动安装并后台运行。下一版本将采用gguf模型取代此方法。

## 工作流指南:视频生成

----------------------------

1. 上传图像(加载图像 > 选择要上传的文件)

* 工作流会自动为图像选择合适的描述。

2. 作为导演指定提示:

-- 描述:您可在“图像/文本转视频”模式选择部分切换图像转视频与文本转视频。选择您希望处理图像还是文本。若要将图像转为视频,所有设置位于左侧“图像解释”组;若仅处理文本,所有设置位于右侧“文本转视频”组。

帧率、步数、CFG等额外设置位于本工作流最右侧,但默认值已表现良好。--

2.(1). LLM Llama 3.2 根据您的提示生成动态提示,您需明确描述所有与运动、光影变化及动态元素相关的内容,Florence2负责静态提示。

2.(2). 手动模式(开发中)将在后续版本中添加。目前工作流仅支持LLM输入,但您可自行切换至手动模式:

- 请简洁清晰地描述,甚至可以说直白一点。

- 描述画面中将发生什么:有人行走、转身、下一步场景将走向何处。

- 强调场景的类型与基调(写实、电影感、卡通化)。

注明场景是否受特定媒介形式启发(电影、动画、摄影)。

- 摄像机是静止不动,还是向前推进、跟随角色、环绕角色,或采用某种特殊的第一人称视角。

示例:

两名身穿深蓝色制服和匹配帽子的警察,从画面左侧门道进入一间昏暗房间。第一位警察短发棕发、留有胡须,率先步入;其搭档光头、留有山羊胡紧随其后。两人表情严肃,步伐稳健地深入房间。摄像机保持静止,以略低的角度捕捉他们进门的全过程。房间墙壁为裸露砖块,天花板为波纹金属,背景可见铁栅栏窗户。照明为低照度,投下阴影于警员面部,凸显阴郁氛围。画面风格似电影或电视剧。

💡提示:非英语使用者可使用Google商店中的DeepL AI浏览器插件翻译文本。选中文本后按Ctrl + Shift + X,事先选择目标语言。

官方指南:

以单句开头描述主要动作

添加关于运动与手势的具体细节

精确描述角色/物体外观

包含背景与环境细节

指定镜头角度与移动方式

描述光照与色彩

注明任何变化或突发事件

更多详细说明请参见提示生成窗口旁的指引。

3. 所有自定义设置均在蓝色标记的组中进行。不建议修改其余部分。同样,节点“LTXVScheduler”中也建议仅修改步数参数(默认30),其余勿动。

3.1 您也可调整CFG参数。默认值为3.0,官方推荐值为3.0–3.5,但许多用户使用5。根据我的观察,此参数有助于获得更动态或对比更强的画面,但在PixArt-XL-2-1024-MS模型的文本编码器上,使用3.0–3.5能产生更稳定结果(YouTube视频可佐证),且更节省显存。因此,对于显存较弱的显卡,建议使用3.0–3.5。不过我仍未完全理解其影响机制。

4. 点击“Queue”并等待结果。文件将保存在ComfyUI\output文件夹中,输出为视频:.webp .mp4 及临时图像 .png,您可以删除临时文件。

💡提示:您可以使用我的WebP转换器,跳过.mp4生成链,直接以更快的速度保存为.WebP格式,且不丢失提示与设置。

▶️ https://github.com/dvl12000/webp-converter/releases/tag/v1.0.1

💡提示:处理完成后,可在Topaz Video AI中以“Theia”模式放大2倍或4倍,默认添加锐化约50%与颗粒效果,可显著提升画质!

⚠ 目前工作流对显存需求较高,质量略逊于手动工作流,但后续版本将改进提示工程说明。当前推荐使用存档中的手动工作流文件,其更稳定且显存需求更低。

----------------------------

为本版本评分,留下评论,祝生成愉快!🔥

此模型生成的图像

未找到图像。