TheDirector
详情
下载文件
关于此版本
模型描述
🎬 THE DIRECTOR – 创作者的AI图像、脚本与视频生成工具
v2.0 – 2025年4月16日
专为网红、叙事者、教育者和视觉内容专业人士打造。
将创意转化为电影级短片场景——通过图像、脚本、旁白和音效,在一个无缝的AI流程中全部完成。
🎥 操作视频: https://youtu.be/L7SYD_pbraA
🌟 v2.0 新增功能
✅ MMAAudio 支持 – 为每个场景自动生成匹配的音效/音乐
🚀 更快的渲染速度 – 在Ultra Pro模式下,场景生成时间缩短至4分钟以内
🧠 从文本或图像开始 – 描述你的角色,或提供一张视觉参考图
🎞️ 改进的场景生成 – 更佳的细节、一致性和流畅性
🛠️ 优化的界面 – 更简洁、直观的节点布局
🧩 与 ComfyUI 无缝集成
🔊 在17分钟内完成包含音频的三场景视频
📘 版本历史
v1.0 – 2025年3月27日
• 初始发布 – 基础场景生成与渲染引擎
🧭 分步工作流指南
🔹 步骤1 – 获取Gemini API密钥
• 访问:https://aistudio.google.com/apikey
• 使用您的Google账户登录
• 点击 “创建API密钥”
• 将密钥复制到ComfyUI中的紫色GEMINI API KEY节点
🔹 步骤2 – 选择参考图像
• 上传一张视觉参考图 或
• 将 “使用参考图像” 设为 False,从文字描述开始
• (可选)输入项目名称以便于文件夹管理
🔹 步骤3 – 输入故事提示
• 描述可详可略
• 如果跳过参考图像,请清晰描述你的角色
🔹 步骤4 – 选择模式 + 音频
• 选择:竖屏 或 横屏
• 如需自动生成音效,请开启MMAudio
🔹 步骤5 – 点击 QUEUE
• 生成开始 — 每个步骤耗时约32秒
• 增加步骤数可提升质量(但耗时更长)
🔹 步骤6 – 选择您的场景
• 您将看到四张一组的图像批次
• 选出您喜欢的,并拖动排序(1–24)
• 若结果不理想,点击 取消并重试
🔹 步骤7 – 生成视频并拼接
• 图像将被渲染为场景
• 所选场景将拼接为完整视频(如启用音频,将自动加入)
🔹 步骤8 – 获取最终视频
• 查看输出文件夹
• 查找 .mp4 文件(如启用MMAudio,文件名中会包含“audio”)
💡 专业提示:
• 为获得最佳效果:在Ultra Pro模式下,每场景预留约4.5分钟
• 想要更高细节?将步骤从8增至16
• 输出不理想?取消并重试!AI并非完美,但它非常快速
👥 创作者与致谢
AJO6268(别名 KurtCPhotoEd)
Clark Glenn Davis(别名 Verevolf)
音效技术: manu_le_surikhate_gamer
🧰 安装指南 – 开始使用 THE DIRECTOR
✅ 系统要求
最新版 ComfyUI(便携版或自定义版)
AjoNodes
MMAudio
Wan2.1 Native 模型
一个可访问Gemini API的Google账户
🔧 分步安装
1. 安装 AjoNodes
AjoNodes 包含驱动 The Director 工作流的所有自定义逻辑。
📦 GitHub:https://github.com/AJO-reading/ComfyUI-AjoNodes
🛠️ 安装方法:
cd ComfyUI/custom_nodes
git clone https://github.com/AJO-reading/ComfyUI-AjoNodes
安装完成后重启 ComfyUI。
2. 下载并安装 Wan2.1 Native 模型
这是用于视觉生成的核心模型。
🌐 Wan2.1 ComfyUI 工作流 - 完整指南 | ComfyUI Wiki
3. 安装 MMAudio(音效与音乐)
为生成的场景添加语音、音乐和音效。
📦 GitHub:kijai/ComfyUI-MMAudio
请确保下载模型并放置于 _ComfyUI/models/mmaudio_ 文件夹中。
4. (可选)安装其他模型或LoRAs
根据主题,您可能需要角色专用LoRAs或风格模型。将它们放入:
models/loras/models/embeddings/(如使用文本反转)
5. 加载 Director 工作流(.json)
• 打开 ComfyUI
• 加载提供的 TheDirectorV2.json 工作流
• 将您的 Gemini API密钥 粘贴到指定节点
• 准备就绪!
🎉 完成!现在您可以像好莱坞一样生成电影,却无需高昂预算。