ComfyUI nodes-ACESTEP Music Generation & Step1X-Edit ComfyUI组件包及示例工作流
詳細
ファイルをダウンロード
このバージョンについて
モデル説明
このリンクには STEPFUN-AI がリリースした ACEStep および Step1XEdit が含まれています。
5.11 更新:ACESTEP Audio2Audio ワークフロー
ACEStep 音楽生成

私たちは、ACE-Stepを紹介します。これは、既存の手法の主要な限界を克服し、全体的なアーキテクチャ設計によって最先端の性能を達成した、音楽生成用の新規オープンソースファウンデーションモデルです。現在の手法は、生成速度、音楽的整合性、制御性の間で本質的なトレードオフに直面しています。例えば、LLMベースのモデル(例:Yue、SongGen)は歌詞の整合性に優れていますが、推論が遅く、構造的なアーティファクトが生じます。一方、拡散モデル(例:DiffRhythm)はより速い合成を可能にしますが、長距離の構造的整合性が不足しがちです。
ACEStep は、ACE Studio と StepFun が共同開発した音楽生成モデルで、「音楽界のStable Diffusion」と称されています。このモデルは驚異的な生成速度と多様な機能で業界の注目を集め、わずか20秒で4分間の完全な音楽作品を生成でき、主流モデルよりも15倍以上高速です。
ACE-Stepは、拡散ベースの生成をSanaのDeep Compression AutoEncoder(DCAE)と軽量線形トランスフォーマーに統合し、訓練中にMERTとm-hubertを活用してセマンティック表現(REPA)を整列させ、急速な収束を可能にします。その結果、当モデルはA100 GPU上でわずか20秒で最大4分間の音楽を合成し、LLMベースのベースラインと比較して15倍高速でありながら、メロディ、ハーモニー、リズムの指標において優れた音楽的整合性と歌詞の整列を実現します。さらに、ACE-Stepは微細な音響的詳細を保持し、ボイスクローン、歌詞編集、リミックス、トラック生成(例:lyric2vocal、singing2accompaniment)などの高度な制御メカニズムを可能にします。
技術的特徴と適用シーン
ACEStep は DiT(Diffusion Transformer)アーキテクチャに基づき、軽量化設計を採用しており、消費者向けGPU上で動作可能で、ハードウェアのハードルを大幅に低下させます。このモデルは英語、中国語、日本語、スペイン語などを含む19の言語をサポートし、世界中の音楽クリエイターに広範な適用性を提供します。
ACEStepの主な機能:
- 歌詞駆動生成:歌詞を入力すると、モデルは旋律を自動生成し、完全な曲を歌唱します。
- スタイル別編曲:指定されたスタイルタグ(例:ラップ、エレクトロニック、ポップなど)に基づき、伴奏および楽器配置を自動生成します。
- 正確な編集:曲の特定の歌詞を編集しても、元の旋律の連続性に影響を与えません。
- 多様な生成:スタイル付きラップ、エレクトロニック、ボーカル、複雑な楽器配置を生成し、さまざまな音楽シーンのニーズに対応します。
🎯 ベースライン品質
🌈 多様なスタイルおよびジャンル
- 🎸 短いタグ、説明文、使用シナリオなど、さまざまな形式で主要な音楽スタイルをすべてサポート
- 🎷 各ジャンルに適した楽器配置とスタイルで音楽を生成可能
🌍 複数言語対応
- 🗣️ 19言語をサポート。トップ10の高性能言語は以下の通り:
- 🇺🇸 英語、🇨🇳 中国語、🇷🇺 ロシア語、🇪🇸 スペイン語、🇯🇵 日本語、🇩🇪 ドイツ語、🇫🇷 フランス語、🇵🇹 ポルトガル語、🇮🇹 イタリア語、🇰🇷 韓国語
- ⚠️ データの不均衡により、使用頻度の低い言語は性能が劣化する可能性があります
🎻 楽器スタイル
- 🎹 各ジャンルおよびスタイルにおける多様な楽器音楽の生成をサポート
- 🎺 各楽器に適した音色と表現で現実的な楽器トラックを生成可能
- 🎼 複数楽器の複雑なアレンジを生成し、音楽的整合性を維持可能
🎤 ボーカル技術
- 🎙️ 高品質で多様なボーカルスタイルと技術を再現可能
- 🗣️ 多種多様な歌唱テクニックやスタイルをサポート
我々のビジョンは、エンドツーエンドのテキスト→音楽パイプラインをさらに構築することではなく、音楽AIのためのファウンデーションモデルを確立することです。すなわち、高速で汎用的、効率的かつ柔軟なアーキテクチャを構築し、その上にサブタスクを簡単に訓練できるようにします。これにより、音楽アーティスト、プロデューサー、コンテンツクリエイターの創造的ワークフローにシームレスに統合できる強力なツールの開発を可能にします。要するに、音楽界に「Stable Diffusion」の瞬間を実現することを目指しています。
最新動向と将来の展望
ACEStepはGitHub(stepfun-ai/Step-Audio)を通じて開発者に開放されており、コミュニティが多様な音楽タスクに合わせて微調整を行うことを許可しています。
📜 ライセンスと免責事項
本プロジェクトは Apache License 2.0 の下でライセンスされています。
ACE-Stepは多様なジャンルにおけるオリジナル音楽生成を可能にし、クリエイティブプロダクション、教育、エンターテインメントに適用できます。ポジティブで芸術的な利用を想定して設計されていますが、スタイル類似による意図しない著作権侵害、文化的要素の不適切な融合、有害コンテンツの生成といった潜在的なリスクを認識しています。責任ある利用を促進するため、生成された作品の独自性を確認し、AIの関与を明確に開示し、保護されたスタイルや素材を適応する場合には適切な許可を取得することをユーザーに推奨します。ACE-Stepを使用することにより、これらの原則を尊重し、芸術的誠実性、文化的多様性、法的遵守を守ることに同意したものとみなされます。作者は、著作権侵害、文化的不適切さ、有害コンテンツの生成など、本モデルのいかなる不適切な利用についても責任を負いません。
🔔 重要なお知らせ
ACE-Stepプロジェクトの公式ウェブサイトは、当社のGitHub Pagesサイトのみです。
他に任何のウェブサイトを運営していません。
🚫 偽のドメインには以下が含まれます(限定的ではありません):ac**p.com, a**p.org, a***c.org
⚠️ 十分注意してください。これらのサイトにはアクセスせず、信頼せず、支払いを行わないでください。
🙏 謝辞
本プロジェクトはACE StudioとStepFunが共同で主導しています。
📖 シテーション
本プロジェクトがご研究に役立った場合、以下のように引用をご検討ください:
@misc{gong2025acestep,
title={ACE-Step: A Step Towards Music Generation Foundation Model},
author={Junmin Gong, Wenxiao Zhao, Sen Wang, Shengyuan Xu, Jing Guo},
howpublished={\url{https://github.com/ace-step/ACE-Step}},
year={2025},
note={GitHub repository}
}
Step1XEdit 画像編集モデル
RED版ノードパッケージおよびサンプルワークフローは、Step1XEdit、カスタム注意メカニズムをサポートし、16GBのVRAMを消費します。
REDノードパッケージとサンプルワークフローは、Step1XEdit、カスタム注意メカニズム、および16GBのビデオメモリ使用量をサポートします。
このカスタムノードは、Step1X-Edit 画像編集モデルを ComfyUI に統合します。Step1X-Editは、参照画像とユーザーの編集指示を受け取り、新しい画像を生成する先進的な画像編集モデルです。
Step1XEdit用REDノード、16GB VRAM使用量のカスタム注意メカニズム。このカスタムノードは、[Step1X-Edit]画像編集モデルを[ComfyUI]に統合します。Step1X-Editは、参照画像とユーザーの編集指示を処理して新しい画像を生成する最先端の画像編集モデルです。
Step1X-EditはFLUXモデル仕様をベースとしていますが、テキストエンコーダーをQwen2.5-VL 7Bに置き換えています。
モデル重みは再トレーニングされており、BSLのFLUX.1ライセンス契約とは継承関係がありません。
ライセンス:apache-2.0

主な特徴
- 多様な注意機構(Flash Attention 2、PyTorch SDPA、Vanilla)をサポート
- 異なるハードウェア能力に合わせて柔軟に設定可能
- パフォーマンスと互換性を最適化
機能特性
- FP8推論をサポート
- カスタム注意機構(Flash / PyTorch(SDPA) / Vanilla)をサポート
- Flash Attention2のインストールは不要(必要に応じて独自にインストール可)
コードリポジトリ
https://github.com/QijiTec/ComfyUI-RED-Step1X-Edit
raykindle/ComfyUI_Step1X-Edit をフォーク
🔥 原作者がTeacacheアクセラレーターサポートを新しく追加(Flash-attn2が必要)
モデルリポジトリ(CivitAIページから直接ダウンロード可)
- Step1X-Edit 拡散モデル:HuggingFace から
step1x-edit-i1258-FP8.safetensorsをダウンロードし、ComfyUIのmodels/diffusion_modelsディレクトリに配置してください - Step1X-Edit VAE:HuggingFace から
vae.safetensorsをダウンロードし、ComfyUIのmodels/vaeディレクトリに配置してください(FLUX diffusers版VAEと同等) - Qwen2.5-VLモデル:Qwen2.5-VL-7B-Instruct をダウンロードし、ComfyUIの
models/text_encoders/Qwen2.5-VL-7B-Instructディレクトリに配置してください
Step1X-Edit-FP8モデルのダウンロード
- Step1X-Edit拡散モデル:HuggingFace から
step1x-edit-i1258-FP8.safetensorsをダウンロードし、ComfyUIのmodels/diffusion_modelsディレクトリに配置 - Step1X-Edit VAE:HuggingFace から
vae.safetensorsをダウンロードし、ComfyUIのmodels/vaeディレクトリに配置 - Qwen2.5-VLモデル:Qwen2.5-VL-7B-Instruct をダウンロードし、ComfyUIの
models/text_encoders/Qwen2.5-VL-7B-Instructディレクトリに配置
モデルパラメータの設定
- 拡散モデルとして
step1x-edit-i1258-FP8.safetensorsを選択 - VAEとして
vae.safetensorsを選択 - テキストエンコーダーとして
Qwen2.5-VL-7B-Instructを設定 - 必要に応じてその他のパラメータ(
dtype、quantized、offload)を設定
🔥🔥🔥🔥🔥🔥 stepfun-ai/Step1X-Edit🔥🔥🔥🔥🔥🔥

Step1X-Edit: 実際のユーザー指示に対して優れた性能を発揮する統合画像編集モデルです。
モデル紹介

Step1X-Editのフレームワーク。Step1X-EditはMLLMの画像理解能力を利用して編集指示を解析し、編集トークンを生成、その後DiTベースのネットワークで画像へデコードします。詳細は当社の技術レポートをご参照ください。
ベンチマーク
実世界の利用を基盤とした新しいベンチマーク GEdit-Bench をリリースしました。このベンチマークは、実際のユーザー編集ニーズと幅広い編集シナリオを反映するよう丁寧に構築されており、画像編集モデルのより本質的かつ包括的な評価を可能にします。ベンチマークの一部の結果を以下に示します:

シテーション
@article{liu2025step1x-edit,
title={Step1X-Edit: A Practical Framework for General Image Editing},
author={Shiyu Liu and Yucheng Han and Peng Xing and Fukun Yin and Rui Wang and Wei Cheng and Jiaqi Liao and Yingming Wang and Honghao Fu and Chunrui Han and Guopeng Li and Yuang Peng and Quan Sun and Jingwei Wu and Yan Cai and Zheng Ge and Ranchen Ming and Lei Xia and Xianfang Zeng and Yibo Zhu and Binxing Jiao and Xiangyu Zhang and Gang Yu and Daxin Jiang},
journal={arXiv preprint arXiv:2504.17761},
year={2025}
}



