Video Media Toolkit: Streamline Downloads, Frame Extraction, Audio Separation & AI Upscaling for Stable Diffusion Workflows | Utility Tool v6.0

详情

模型描述

视频媒体工具包:为 Stable Diffusion 工作流简化下载、帧提取、音频分离与 AI 超分 | 实用工具 v6.0

概述

通过 Video Media Toolkit v6 提升您的 AI 艺术流程——这是一款专为 Stable Diffusion 创作者、训练者及视频转图像爱好者设计的免费开源桌面工具。这款全功能 Windows 应用程序可处理媒体导入、拆解、增强与重组,非常适合从 YouTube/Reddit 视频中提取高质量帧用于 LoRA 训练、分离人声/乐器用于音频响应生成,或将低分辨率素材超分后输入 ComfyUI 或 Automatic1111 工作流。

无论您是为 Flux/Stable Diffusion 微调准备数据集,还是为 AnimateDiff 扩展创建动态视频输入,此工具均能借助 yt-dlp、FFmpeg、Demucs 和 Real-ESRGAN 自动化繁琐任务,节省数小时工作时间。NVIDIA 设备支持 GPU 加速,实现极速处理。

主要优势:

  • 批量下载与队列:从 URL 或本地文件下载视频/音频,输出为 MP4/MP3 或帧序列(JPG/PNG),直接用于数据集准备。

  • AI 驱动的拆解:提取干净的音频分轨(人声、鼓点等)或帧用于训练——适用于 NSFW/SFW 内容筛选。

  • 增强与重建:去噪、锐化、超分(2x-4x),并辅以稳定化处理,生成高质量视频输出。

  • 工作流集成:导出格式兼容 A1111、ComfyUI、Kohya_ss 或 Hugging Face 数据集。无需手动编写 FFmpeg 脚本!

已通过 Windows 10/11 测试;需 Python 3.8+;安装包约 500MB(内含带 CUDA 回退的 torch)。

功能

下载标签页:源媒体获取与提取

  • 输入:URL(YouTube、Reddit 媒体、直接链接)或本地文件。

  • 输出:MP4(增强视频)、MP3(音频)或帧文件夹(例如 frame_0001.png,用于 SD 训练)。

  • 增强选项:分辨率(360p-8K)、CRF 质量、FPS 控制、锐化/色彩校正/去隔行/去噪。

  • 音频选项:降噪、音量标准化——适合获取干净的分轨。

  • 队列系统:添加多个任务,顺序处理,自动删除源文件,自定义 yt-dlp/FFmpeg 参数。

  • 专业提示:数秒内从 5 分钟视频提取 1000+ 帧;自动处理 Reddit 嵌套链接。

重建标签页:从帧序列重建视频

  • 输入:帧文件夹(例如来自“下载”或外部编辑的结果)。

  • 选项:设置 FPS、合并音频、应用 minterpolate(运动平滑)、tmix(帧混合)、去抖动、去闪烁。

  • 输出:使用自定义 FFmpeg 过滤器生成 MP4——导出稳定剪辑用于 AnimateDiff 或视频 LoRa。

  • 使用场景:超分帧 → 重建成 4K 训练视频。

音频标签页:基于 Demucs 的分轨分离

  • 输入:从下载所得的 MP3/WAV/FLAC 文件。

  • 模型:htdemucs、mdx_extra 等(支持 GPU/CPU 模式)。

  • 输出:分离出的音轨(人声、贝斯、鼓点)存入子文件夹——可直接用于音频条件化 SD 提示。

  • 模式:完整 6 轨或双轨模式(人声 + 伴奏),便于快速混音。

超分标签页:基于 Real-ESRGAN 的帧增强

  • 输入:图像文件夹(例如提取的帧)。

  • 缩放倍数:2x/3x/4x,生成 SD 可用的高分辨率素材。

  • 输出:批量超分文件夹——将低分辨率视频提升至 4K,以获得更优的模型训练效果。

  • GPU 加速:基于 Torch,支持 CPU 回退。

附加功能:

  • 持久化输出根目录选择。

  • 实时日志 + 文件导出(logs/ 目录)。

  • 依赖项检测器(FFmpeg、yt-dlp、Demucs)。

  • 高对比度暗色界面,适合长时间使用。

安装与设置

  1. 下载:从 GitHub 仓库 获取 ZIP 文件(或在此处附带)。

  2. 运行安装程序:双击 video_media_installer.bat——自动安装 PySide6、torch(如检测到 CUDA 则安装)、Demucs、Real-ESRGAN 等,自动处理 pip 升级。

    • 手动修复:若出现 [WARNING] 关于 FFmpeg/yt-dlp,请从 ffmpeg.orgyt-dlp GitHub 下载,并添加至 PATH 或硬编码路径。
  3. 模型下载:将 RealESRGAN_x4plus.pth 放入 /models/ 目录以启用超分(链接见 README)。

  4. 启动:双击 launch_video_toolkit_v6.bat。首次运行时自动设置输出文件夹。

  5. 测试:点击“测试依赖项”按钮,确保全部显示 [OK]。

兼容性说明:

  • Windows 优先:提供 bat 启动器以简化安装;Linux/macOS 可通过手动运行 Python 启动。

  • SD 集成:帧导出为编号序列(如 %04d.png),可直接导入 Kohya 或 DreamBooth。

  • 非 A1111 扩展:独立应用程序——可配合 ControlNet 构建视频转图像流程。

  • 警告:大文件建议 8GB 以上内存;使用 Demucs 推荐 GPU(否则 CPU 速度较慢);NSFW 内容处理遵循来源政策。

使用示例

  • LoRA 训练准备:下载动漫片段 → 提取 PNG 帧 → 4 倍超分 → 用于 Kohya_ss 数据集。

  • 音频响应艺术:分离歌曲人声 → 使用“人声波形”提示生成 SD 图像。

  • 视频数据集:批量下载 50 个 YouTube 视频 → 提取帧 + 音轨 → 训练 Flux 模型以学习运动数据。

更新日志(v6 主要更新)

  • 增强了对 Reddit URL 的解析。

  • 队列功能改进 + 支持自定义参数。

  • 暗色主题,可读性提升。

  • 修复了 Demucs 的 GPU 检测错误。

此模型生成的图像

未找到图像。