Video Media Toolkit: Streamline Downloads, Frame Extraction, Audio Separation & AI Upscaling for Stable Diffusion Workflows | Utility Tool v6.0
详情
下载文件
关于此版本
模型描述
视频媒体工具包:为 Stable Diffusion 工作流简化下载、帧提取、音频分离与 AI 超分 | 实用工具 v6.0
概述
通过 Video Media Toolkit v6 提升您的 AI 艺术流程——这是一款专为 Stable Diffusion 创作者、训练者及视频转图像爱好者设计的免费开源桌面工具。这款全功能 Windows 应用程序可处理媒体导入、拆解、增强与重组,非常适合从 YouTube/Reddit 视频中提取高质量帧用于 LoRA 训练、分离人声/乐器用于音频响应生成,或将低分辨率素材超分后输入 ComfyUI 或 Automatic1111 工作流。
无论您是为 Flux/Stable Diffusion 微调准备数据集,还是为 AnimateDiff 扩展创建动态视频输入,此工具均能借助 yt-dlp、FFmpeg、Demucs 和 Real-ESRGAN 自动化繁琐任务,节省数小时工作时间。NVIDIA 设备支持 GPU 加速,实现极速处理。
主要优势:
批量下载与队列:从 URL 或本地文件下载视频/音频,输出为 MP4/MP3 或帧序列(JPG/PNG),直接用于数据集准备。
AI 驱动的拆解:提取干净的音频分轨(人声、鼓点等)或帧用于训练——适用于 NSFW/SFW 内容筛选。
增强与重建:去噪、锐化、超分(2x-4x),并辅以稳定化处理,生成高质量视频输出。
工作流集成:导出格式兼容 A1111、ComfyUI、Kohya_ss 或 Hugging Face 数据集。无需手动编写 FFmpeg 脚本!
已通过 Windows 10/11 测试;需 Python 3.8+;安装包约 500MB(内含带 CUDA 回退的 torch)。
功能
下载标签页:源媒体获取与提取
输入:URL(YouTube、Reddit 媒体、直接链接)或本地文件。
输出:MP4(增强视频)、MP3(音频)或帧文件夹(例如 frame_0001.png,用于 SD 训练)。
增强选项:分辨率(360p-8K)、CRF 质量、FPS 控制、锐化/色彩校正/去隔行/去噪。
音频选项:降噪、音量标准化——适合获取干净的分轨。
队列系统:添加多个任务,顺序处理,自动删除源文件,自定义 yt-dlp/FFmpeg 参数。
专业提示:数秒内从 5 分钟视频提取 1000+ 帧;自动处理 Reddit 嵌套链接。
重建标签页:从帧序列重建视频
输入:帧文件夹(例如来自“下载”或外部编辑的结果)。
选项:设置 FPS、合并音频、应用 minterpolate(运动平滑)、tmix(帧混合)、去抖动、去闪烁。
输出:使用自定义 FFmpeg 过滤器生成 MP4——导出稳定剪辑用于 AnimateDiff 或视频 LoRa。
使用场景:超分帧 → 重建成 4K 训练视频。
音频标签页:基于 Demucs 的分轨分离
输入:从下载所得的 MP3/WAV/FLAC 文件。
模型:htdemucs、mdx_extra 等(支持 GPU/CPU 模式)。
输出:分离出的音轨(人声、贝斯、鼓点)存入子文件夹——可直接用于音频条件化 SD 提示。
模式:完整 6 轨或双轨模式(人声 + 伴奏),便于快速混音。
超分标签页:基于 Real-ESRGAN 的帧增强
输入:图像文件夹(例如提取的帧)。
缩放倍数:2x/3x/4x,生成 SD 可用的高分辨率素材。
输出:批量超分文件夹——将低分辨率视频提升至 4K,以获得更优的模型训练效果。
GPU 加速:基于 Torch,支持 CPU 回退。
附加功能:
持久化输出根目录选择。
实时日志 + 文件导出(logs/ 目录)。
依赖项检测器(FFmpeg、yt-dlp、Demucs)。
高对比度暗色界面,适合长时间使用。
安装与设置
下载:从 GitHub 仓库 获取 ZIP 文件(或在此处附带)。
运行安装程序:双击
video_media_installer.bat——自动安装 PySide6、torch(如检测到 CUDA 则安装)、Demucs、Real-ESRGAN 等,自动处理 pip 升级。- 手动修复:若出现 [WARNING] 关于 FFmpeg/yt-dlp,请从 ffmpeg.org 或 yt-dlp GitHub 下载,并添加至 PATH 或硬编码路径。
模型下载:将
RealESRGAN_x4plus.pth放入/models/目录以启用超分(链接见 README)。启动:双击
launch_video_toolkit_v6.bat。首次运行时自动设置输出文件夹。测试:点击“测试依赖项”按钮,确保全部显示 [OK]。
兼容性说明:
Windows 优先:提供 bat 启动器以简化安装;Linux/macOS 可通过手动运行 Python 启动。
SD 集成:帧导出为编号序列(如 %04d.png),可直接导入 Kohya 或 DreamBooth。
非 A1111 扩展:独立应用程序——可配合 ControlNet 构建视频转图像流程。
警告:大文件建议 8GB 以上内存;使用 Demucs 推荐 GPU(否则 CPU 速度较慢);NSFW 内容处理遵循来源政策。
使用示例
LoRA 训练准备:下载动漫片段 → 提取 PNG 帧 → 4 倍超分 → 用于 Kohya_ss 数据集。
音频响应艺术:分离歌曲人声 → 使用“人声波形”提示生成 SD 图像。
视频数据集:批量下载 50 个 YouTube 视频 → 提取帧 + 音轨 → 训练 Flux 模型以学习运动数据。
更新日志(v6 主要更新)
增强了对 Reddit URL 的解析。
队列功能改进 + 支持自定义参数。
暗色主题,可读性提升。
修复了 Demucs 的 GPU 检测错误。





