ComfyUI nodes-ACESTEP Music Generation & Step1X-Edit ComfyUI组件包及示例工作流
세부 정보
파일 다운로드
이 버전에 대해
모델 설명
이 링크에는 STEPFUN-AI에서 출시한 ACEStep 및 Step1XEdit가 포함되어 있습니다.
5.11 업데이트: ACESTEP 오디오2오디오 워크플로우
ACEStep 음악 생성
我們引入 ACE-Step,這是一款嶄新的開源音樂生成基礎模型,通過整體架構設計克服了現有方法的關鍵限制,並實現了業界領先的性能。當前方法在生成速度、音樂協調性和可控性之間存在固有權衡。例如,基於LLM的模型(如Yue、SongGen)在歌詞對齊方面表現優異,但推理速度慢且結構上存在瑕疵。而擴散模型(如DiffRhythm)雖然能實現更快的合成,卻常缺乏長距離的結構協調性。
ACEStep 是由 ACE Studio 與 StepFun 聯合開發的音樂生成模型,被譽為「音樂界的 Stable Diffusion」。該模型憑藉驚人的生成速度和多樣化功能引發行業熱議,能在短短20秒內生成長達4分鐘的完整音樂作品,效率比主流模型快15倍以上。
ACE-Step 通過整合基於擴散的生成與 Sana 的深度壓縮自編碼器(DCAE)和輕量級線性變壓器,彌補了這一差距。它還在訓練過程中利用 MERT 和 m-hubert 對齊語義表示(REPA),實現快速收斂。因此,我們的模型在 A100 GPU 上僅需 20 秒即可合成長達 4 分鐘的音樂——比基於 LLM 的基線模型快 15 倍,同時在旋律、和聲和節奏指標上實現更優秀的音樂協調性與歌詞對齊。此外,ACE-Step 保留了細緻的聲學細節,支援進階控制機制,如聲音克隆、歌詞編輯、混音和軌道生成(例如:lyric2vocal、singing2accompaniment)。
기술적 특징 및 활용 사례
ACEStep는 DiT(Diffusion Transformer) 아키텍처를 기반으로 하며, 경량화 설계를 통해 소비자급 GPU에서도 실행 가능하게 되어 하드웨어 진입 장벽을 크게 낮췄습니다. 이 모델은 영어, 중국어, 일본어, 스페인어 등을 포함한 19개 언어를 지원하여 전 세계 음악 창작자에게 광범위한 적용성을 제공합니다.
ACEStep의 핵심 기능은 다음과 같습니다:
가사 기반 창작: 가사를 입력하면 모델이 멜로디를 자동 생성하고 완전한 곡을 노래합니다.
스타일화된 편곡: 힙합, 일렉트로닉, 팝 등 지정된 스타일 태그에 따라 자동으로 악기 편성과 반주를 생성합니다.
정밀 수정: 곡의 특정 가사를 수정해도 기존 멜로디의 연속성을 손상시키지 않습니다.
다양한 생성: 스타일화된 힙합, 일렉트로닉, 보컬 또는 복합 악기 편성 등을 생성하여 다양한 음악 활용 요구를 충족합니다
🎯 베이스라인 품질
🌈 다양한 스타일 및 장르
🎸 짧은 태그, 설명성 텍스트, 사용 시나리오 등 다양한 형식으로 주요 음악 스타일 모두 지원
🎷 다양한 장르에 적합한 악기와 스타일로 음악 생성 가능
🌍 다국어 지원
🗣️ 19개 언어를 지원하며, 성능이 우수한 상위 10개 언어는 다음과 같습니다:
- 🇺🇸 영어, 🇨🇳 중국어, 🇷🇺 러시아어, 🇪🇸 스페인어, 🇯🇵 일본어, 🇩🇪 독일어, 🇫🇷 프랑스어, 🇵🇹 포르투갈어, 🇮🇹 이탈리아어, 🇰🇷 한국어
⚠️ 데이터 불균형으로 인해 희귀 언어는 성능이 떨어질 수 있음
🎻 악기 스타일
🎹 다양한 장르와 스타일에서 악기 음악 생성 지원
🎺 각 악기의 실감나는 음색과 표현력으로 실제 악기 트랙 생성 가능
🎼 여러 악기로 복잡한 편성을 생성하면서도 음악적 일관성 유지 가능
🎤 보컬 기술
🎙️ 다양한 보컬 스타일과 기술을 고품질로 구현 가능
🗣️ 다양한 노래 기법과 스타일을 포함한 보컬 표현 지원
우리의 비전은 또 다른 단일 종단 간 텍스트-음악 파이프라인을 구축하는 것이 아니라, 빠르고 일반적이고 효율적이며 유연한 아키텍처로 음악 AI의 기반 모델을 수립하는 것입니다. 이를 통해 음악가, 프로듀서, 콘텐츠 제작자들의 창작 워크플로우에 자연스럽게 통합될 수 있는 강력한 도구 개발을 가능하게 합니다. 요약하자면, 우리는 음악 분야의 Stable Diffusion 순간을 만들어내고자 합니다.
최신 동향 및 향후 전망
ACEStep은 GitHub(stepfun-ai/Step-Audio)를 통해 개발자에게 공개되어 커뮤니티가 다양한 음악 작업에 맞도록 미세 조정할 수 있습니다.
📜 라이선스 및 면책조항
이 프로젝트는 Apache License 2.0 하에 라이선스가 부여됩니다.
ACE-Step은 다양한 장르의 원본 음악 생성을 가능하게 하며, 창작 생산, 교육, 엔터테인먼트에 활용됩니다. 긍정적이고 예술적인 사용 사례를 지원하도록 설계되었지만, 스타일 유사성으로 인한 의도치 않은 저작권 침해, 문화적 요소의 부적절한 혼합, 해로운 콘텐츠 생성을 위한 악용과 같은 잠재적 위험을 인지하고 있습니다. 책임 있는 사용을 보장하기 위해, 사용자는 생성된 작품의 원본성을 확인하고, AI 참여를 명확히 공개하며, 보호된 스타일이나 자료를 활용할 때 적절한 권한을 획득할 것을 권장합니다. ACE-Step을 사용함으로써 귀하는 이러한 원칙을 존중하고, 예술적 정직성, 문화적 다양성, 법적 준수를 지킬 것에 동의합니다. 저자들은 모델의 악용, 저작권 위반, 문화적 무지, 해로운 콘텐츠 생성 등에 대해 책임을 지지 않습니다.
🔔 중요 공지
ACE-Step 프로젝트의 유일한 공식 웹사이트는 GitHub Pages 사이트입니다.
다른 웹사이트는 운영하지 않습니다.
🚫 가짜 도메인에는 ac**p.com, a**p.org, a***c.org 등이 포함되며, 이 외에도 다양합니다.
⚠️ 주의하세요. 이 사이트들은 방문하거나 신뢰하지 말고, 결제를 하지 마십시오.
🙏 감사의 인사
이 프로젝트는 ACE Studio와 StepFun이 공동 주도합니다.
📖 인용
이 프로젝트를 연구에 유용하게 사용하셨다면, 다음을 인용해 주세요:
@misc{gong2025acestep,
title={ACE-Step: A Step Towards Music Generation Foundation Model},
author={Junmin Gong, Wenxiao Zhao, Sen Wang, Shengyuan Xu, Jing Guo},
howpublished={\url{https://github.com/ace-step/ACE-Step}},
year={2025},
note={GitHub repository}
}
Step1XEdit 이미지 편집 모델
RED 버전 노드 패키지 및 예제 워크플로우는 Step1XEdit, 커스텀 어텐션 메커니즘을 지원하며, 16GB VRAM을 사용합니다.
RED 노드 패키지 및 샘플 워크플로우는 Step1XEdit, 커스텀 어텐션 메커니즘을 지원하며, 16GB의 비디오 메모리를 사용합니다.
이 커스텀 노드는 Step1X-Edit 이미지 편집 모델을 ComfyUI에 통합합니다. Step1X-Edit은 참조 이미지와 사용자의 편집 지시를 받아 새로운 이미지를 생성하는 고급 이미지 편집 모델입니다.
Step1XEdit용 RED 노드, 16GB 비디오 메모리 사용량의 커스텀 어텐션 메커니즘. 이 커스텀 노드는 [Step1X-Edit] 이미지 편집 모델을 [ComfyUI]에 통합합니다. Step1X-Edit은 참조 이미지와 사용자의 편집 지시를 처리하여 새로운 이미지를 생성하는 최첨단 이미지 편집 모델입니다.
Step1X-Edit은 FLUX 모델 사양을 기반으로 하며, 텍스트 인코더를 Qwen2.5-VL 7B로 교체했습니다.
모델 가중치는 재학습된 것으로, BSL의 FLUX.1 라이선스 계약을 계승하지 않습니다.
라이선스: apache-2.0

주요 특징
다양한 어텐션 구현 방식 지원 (Flash Attention 2, PyTorch SDPA, Vanilla)
다양한 하드웨어 환경에 맞게 유연하게 구성 가능
성능 및 호환성 최적화
기능 특징
FP8 추론 지원
커스텀 어텐션 구현 지원 (Flash/PyTorch(SDPA)/Vanilla)
Flash Attention2 설치 필요 없음(필요시 자체 설치 가능)
코드 저장소
https://github.com/QijiTec/ComfyUI-RED-Step1X-Edit
(raykindle/ComfyUI_Step1X-Edit에서 포크)
🔥 원작자에서 Teacache 가속기 지원이 추가되었습니다 (Flash-attn2 필요)
모델 저장소 (CivitAI 페이지에서 직접 다운로드 가능)
Step1X-Edit 확산 모델: HuggingFace 에서
step1x-edit-i1258-FP8.safetensors다운로드 후 ComfyUI의models/diffusion_models디렉토리에 저장Step1X-Edit VAE: HuggingFace 에서
vae.safetensors다운로드 후 ComfyUI의models/vae디렉토리에 저장 (FLUX diffusers 버전 VAE와 동일)Qwen2.5-VL 모델: Qwen2.5-VL-7B-Instruct 다운로드 후 ComfyUI의
models/text_encoders/Qwen2.5-VL-7B-Instruct디렉토리에 저장
Step1X-Edit-FP8 모델 다운로드
Step1X-Edit 확산 모델: HuggingFace 에서
step1x-edit-i1258-FP8.safetensors다운로드 후 ComfyUI의models/diffusion_models디렉토리에 저장Step1X-Edit VAE: HuggingFace 에서
vae.safetensors다운로드 후 ComfyUI의models/vae디렉토리에 저장Qwen2.5-VL 모델: Qwen2.5-VL-7B-Instruct 다운로드 후 ComfyUI의
models/text_encoders/Qwen2.5-VL-7B-Instruct디렉토리에 저장
모델 파라미터 설정
확산 모델로
step1x-edit-i1258-FP8.safetensors선택VAE로
vae.safetensors선택텍스트 인코더로
Qwen2.5-VL-7B-Instruct설정필요에 따라 추가 파라미터(
dtype,quantized,offload) 설정
🔥🔥🔥🔥🔥🔥 stepfun-ai/Step1X-Edit🔥🔥🔥🔥🔥🔥

Step1X-Edit: 다양한 실제 사용자 지시에 대해 놀라운 성능을 발휘하는 통합 이미지 편집 모델입니다.
모델 소개

Step1X-Edit 프레임워크. Step1X-Edit은 MLLM의 이미지 이해 능력을 활용해 편집 지시를 분석하고 편집 토큰을 생성한 후, DiT 기반 네트워크를 통해 이미지로 디코딩합니다. 자세한 내용은 저희 기술 보고서를 참조하세요.
벤치마크
실제 사용 사례를 기반으로 한 새 벤치마크 GEdit-Bench를 공개했습니다. 이 벤치마크는 실제 사용자의 편집 요구와 다양한 편집 시나리오를 반영해 엄선되었으며, 이미지 편집 모델의 진정성 있고 포괄적인 평가를 가능하게 합니다. 벤치마크의 일부 결과는 아래와 같습니다:

인용
@article{liu2025step1x-edit,
title={Step1X-Edit: A Practical Framework for General Image Editing},
author={Shiyu Liu and Yucheng Han and Peng Xing and Fukun Yin and Rui Wang and Wei Cheng and Jiaqi Liao and Yingming Wang and Honghao Fu and Chunrui Han and Guopeng Li and Yuang Peng and Quan Sun and Jingwei Wu and Yan Cai and Zheng Ge and Ranchen Ming and Lei Xia and Xianfang Zeng and Yibo Zhu and Binxing Jiao and Xiangyu Zhang and Gang Yu and Daxin Jiang},
journal={arXiv preprint arXiv:2504.17761},
year={2025}
}



