ComfyUI nodes-ACESTEP Music Generation & Step1X-Edit ComfyUI组件包及示例工作流

详情

模型描述

该链接下包含 STEPFUN-AI 发布的 ‌ACEStep‌ & Step1XEdit

5.11 更新了 ACESTEP Audio2Audio 工作流

ACEStep‌ 音乐生成

我们推出 ACE-Step,这是一款全新的开源音乐生成基础模型,通过整体性架构设计克服了现有方法的关键局限,并实现了顶尖性能。当前方法在生成速度、音乐连贯性和可控性之间存在固有取舍。例如,基于 LLM 的模型(如 Yue、SongGen)在歌词对齐方面表现优异,但推理速度慢且存在结构瑕疵;而扩散模型(如 DiffRhythm)虽然能实现更快的合成,却常缺乏长距离结构连贯性。

‌ACEStep‌ 是由 ACE StudioStepFun 联合开发的音乐生成模型,被誉为“音乐界的Stable Diffusion”。该模型凭借惊人的生成速度和多样化功能引发行业热议,可在短短20秒内生成一首长达4分钟的完整音乐作品,效率比主流模型快15倍以上‌

ACE-Step 通过融合基于扩散的生成、Sana 的深度压缩自编码器(DCAE)以及轻量级线性变换器,弥合了这一差距。它进一步利用 MERT 和 m-hubert 在训练过程中对齐语义表征(REPA),实现快速收敛。因此,我们的模型在 A100 GPU 上仅需20秒即可合成长达4分钟的音乐——比基于 LLM 的基线模型快15倍——同时在旋律、和声和节奏等指标上实现更优的音乐连贯性和歌词对齐。此外,ACE-Step 能保留精细的声学细节,支持高级控制机制,如人声克隆、歌词编辑、混音和轨道生成(例如:lyric2vocal、singing2accompaniment)。

图片

技术特点与应用场景

ACEStep 基于 DiTDiffusion Transformer)架构,采用轻量化设计,支持在消费级 GPU 上运行,显著降低硬件门槛。该模型支持19种语言,包括英语、中文、日语、西班牙语等,为全球音乐创作者提供了广泛的适用性‌

ACEStep 的核心功能包括:

‌歌词驱动创作‌:输入歌词,模型自动生成旋律并演唱完整歌曲。

‌风格化编曲‌:根据指定风格标签(如说唱、电子乐、流行等),自动生成伴奏和配器。

‌精准修改‌:支持修改某段歌词,同时保持原有旋律连贯性。

‌多样化生成‌:可生成带风格的说唱、电子乐、人声或复杂配器,满足不同音乐场景需求‌

🎯 基线质量

🌈 多样风格与流派

  • 🎸 支持所有主流音乐风格,提供多种描述格式,包括短标签、描述性文本或使用场景

  • 🎷 能够生成符合不同流派的音乐,搭配恰当的乐器与风格

🌍 多语言支持

  • 🗣️ 支持19种语言,其中表现最好的前10种语言包括:

    • 🇺🇸 英语, 🇨🇳 中文, 🇷🇺 俄语, 🇪🇸 西班牙语, 🇯🇵 日语, 🇩🇪 德语, 🇫🇷 法语, 🇵🇹 葡萄牙语, 🇮🇹 意大利语, 🇰🇷 韩语
  • ⚠️ 由于数据不平衡,较少见的语言可能表现欠佳

🎻 乐器风格

  • 🎹 支持跨风格与流派的多种乐器音乐生成

  • 🎺 能够生成具有各乐器真实音色与表现力的乐器曲目

  • 🎼 可生成含多重乐器的复杂编排,同时保持音乐连贯性

🎤 人声技术

  • 🎙️ 能够高质量呈现多种人声风格与技巧

  • 🗣️ 支持不同演唱表达方式,包括多种演唱技巧与风格

我们并非构建又一个端到端的文本到音乐流水线,而是致力于打造一个音乐 AI 基础模型:一种快速、通用、高效且灵活的架构,便于在其上训练子任务。这为开发能无缝融入音乐家、制作人和内容创作者创作流程的强大工具铺平了道路。简言之,我们的目标是为音乐领域创造属于“Stable Diffusion”的时刻。

最新动态与未来发展前景

ACEStep 通过 GitHub(stepfun-ai/Step-Audio)向开发者开放,允许社区对其进行微调以适配多样化的音乐任务。

📜 许可证与免责声明

本项目采用 Apache License 2.0 授权

ACE-Step 可生成涵盖多样风格的原创音乐,适用于创意制作、教育和娱乐场景。尽管设计初衷是支持积极与艺术性应用,但我们承认潜在风险,例如因风格相似导致的无意版权侵权、文化元素的不当融合,或被用于生成有害内容。为确保负责任使用,我们鼓励用户验证生成作品的原创性,明确披露 AI 参与情况,并在改编受保护风格或素材时获得适当授权。使用 ACE-Step 即表示您同意遵守这些原则,尊重艺术完整性、文化多样性与法律合规性。作者不对模型的任何滥用行为负责,包括但不限于版权侵犯、文化不敏感或有害内容生成。

🔔 重要通知
ACE-Step 项目的唯一官方网站是我们的 GitHub Pages 页面。
我们不运营任何其他网站。
🚫 伪造域名包括但不限于:ac**p.com、a**p.org、a***c.org
⚠️ 请提高警惕,切勿访问、信任或在这些网站上进行任何付款。

🙏 致谢

本项目由 ACE Studio 与 StepFun 联合主导。

📖 引用

如本项目对您的研究有帮助,请考虑引用:

@misc{gong2025acestep,
	title={ACE-Step: A Step Towards Music Generation Foundation Model},
	author={Junmin Gong, Wenxiao Zhao, Sen Wang, Shengyuan Xu, Jing Guo}, 
	howpublished={\url{https://github.com/ace-step/ACE-Step}},
	year={2025},
	note={GitHub repository}
}

Step1XEdit 图像编辑模型

RED 版节点包及示例工作流,支持 Step1XEdit,自定义注意力机制,16G 显存占用。

RED 节点包与示例工作流,支持 Step1XEdit、自定义注意力机制,显存占用 16GB

此自定义节点将 Step1X-Edit 图像编辑模型集成至 ComfyUI。Step1X-Edit 是一款先进的图像编辑模型,接收参考图像与用户编辑指令,生成新图像。

RED 节点用于 Step1XEdit,采用自定义注意力机制,显存占用 16GB。此自定义节点将 [Step1X-Edit] 图像编辑模型集成至 [ComfyUI]。Step1X-Edit 是一款前沿图像编辑模型,通过处理参考图像与用户编辑指令生成新图像。

Step1X-Edit 基于 FLUX 模型规格,但将文本编码器替换为 Qwen2.5-VL 7B。

模型权重为重新训练,与 BSL 的 FLUX.1 授权协议无继承关系。

许可证:apache-2.0

主要特性

  • 支持多种注意力实现方式(Flash Attention 2、PyTorch SDPA、Vanilla)

  • 灵活配置以适配不同硬件能力

  • 优化性能与兼容性

功能特点

  • 支持 FP8 推理

  • 支持自定义注意力实现(Flash/PyTorch(SDPA)/Vanilla)

  • 无需手动安装 Flash Attention2(如需可自行安装

代码仓库

https://github.com/QijiTec/ComfyUI-RED-Step1X-Edit

派生自 raykindle/ComfyUI_Step1X-Edit

🔥 原作者新增了 Teacache 加速器支持(需 Flash-attn2)

模型仓库(CivitAI 页面可直接下载)

  • Step1X-Edit 扩散模型:从 HuggingFace 下载 step1x-edit-i1258-FP8.safetensors 并置于 ComfyUI 的 models/diffusion_models 目录中

  • Step1X-Edit VAE:从 HuggingFace 下载 vae.safetensors 并置于 ComfyUI 的 models/vae 目录中(等同于 FLUX diffusers 版 VAE)

  • Qwen2.5-VL 模型:下载 Qwen2.5-VL-7B-Instruct 并置于 ComfyUI 的 models/text_encoders/Qwen2.5-VL-7B-Instruct 目录中

下载 Step1X-Edit-FP8 模型

  • Step1X-Edit 扩散模型:从 HuggingFace 下载 step1x-edit-i1258-FP8.safetensors 并置于 ComfyUI 的 models/diffusion_models 目录

  • Step1X-Edit VAE:从 HuggingFace 下载 vae.safetensors 并置于 ComfyUI 的 models/vae 目录

  • Qwen2.5-VL 模型:下载 Qwen2.5-VL-7B-Instruct 并置于 ComfyUI 的 models/text_encoders/Qwen2.5-VL-7B-Instruct 目录

配置模型参数

  • step1x-edit-i1258-FP8.safetensors 设为扩散模型

  • vae.safetensors 设为 VAE

  • Qwen2.5-VL-7B-Instruct 设为文本编码器

  • 按需设置其他参数(dtypequantizedoffload

🔥🔥🔥🔥🔥🔥 stepfun-ai/Step1X-Edit🔥🔥🔥🔥🔥🔥

demo

Step1X-Edit:一款统一的图像编辑模型,在各类真实用户指令下表现卓越。

模型介绍

demo

Step1X-Edit 框架。Step1X-Edit 利用 MLLM 的图像理解能力解析编辑指令并生成编辑标记,再通过基于 DiT 的网络解码为图像。更多细节请参阅我们的技术报告

基准测试

我们发布了 GEdit-Bench 作为全新基准,该基准基于真实使用场景构建,旨在支持更真实、全面的评估。该基准精心挑选,反映真实用户编辑需求与广泛编辑场景,为图像编辑模型提供更真实和全面的评测。部分基准结果如下:

results

引用

@article{liu2025step1x-edit,
      title={Step1X-Edit: A Practical Framework for General Image Editing}, 
      author={Shiyu Liu and Yucheng Han and Peng Xing and Fukun Yin and Rui Wang and Wei Cheng and Jiaqi Liao and Yingming Wang and Honghao Fu and Chunrui Han and Guopeng Li and Yuang Peng and Quan Sun and Jingwei Wu and Yan Cai and Zheng Ge and Ranchen Ming and Lei Xia and Xianfang Zeng and Yibo Zhu and Binxing Jiao and Xiangyu Zhang and Gang Yu and Daxin Jiang},
      journal={arXiv preprint arXiv:2504.17761},
      year={2025}
}

此模型生成的图像

未找到图像。