Qwen3-TTS Ultimate Pack (Cloning + Design + Low VRAM)

詳細

ファイルをダウンロード

モデル説明

🎧 Qwen3-TTS スターターワークフロー(ボイスデザイン&クローン)

これは新リリースされた Qwen3-TTS モデル向けの初心者向けワークフローです。6GB VRAM 以上の消費電力を持つ一般向けハードウェアで最適化されており(GTX 1060 で完全に動作確認済み)、動作します。
💡 ポテトPCモード(<4GB VRAM): 崩壊する場合は、ローダー内の repo_id を以下に変更してください:Qwen/Qwen3-TTS-12Hz-0.6B-Base(高速でメモリ使用量が半分ですが、感情表現はやや劣ります)。

このワークフローは、新しいノードが初心者にとって混乱しやすいという課題を解決するために作成しました。このダウンロードには、1つのワークフロー内に「Fast Switcher」で管理される2つの独立したグループが含まれています。

🚀 何が含まれていますか?

  1. ワークフロー1:ボイスデザイン(テキスト→音声)

    • 最適用途: ナレーター、映画予告編、アシスタントボイス。

    • 高品質で意図的な演技を実現する VoiceDesign モデルを使用。

    • 「Instruct」フィールドを設定済みで、感情を指示できます(例:「悲しげなささやき」、「怒った叫び」)。

  2. ワークフロー2:ボイスクローン(音声→音声)

    • 最適用途: 特定の声(自分、友人、キャラクター)をクローン。

    • Base モデル + 参照音声を使用。

    • プロのヒント: ref_text を受け付けるように設定済みで、精度が大幅に向上します。

⚙️ 必要条件

  • ComfyUI Manager がインストール済み。

  • Qwen3 ノード: ComfyUI-Qwen3-TTS(作者:DarioFT / ID:3172)が必要です。

  • ユーティリティノード: モードスイッチャーを動作させるには rgthree-comfy(Manager経由)が必要です。

    • 注: rgthreeをインストールしたくない場合は、グループを手動でスキップできます。

📝 使用方法(新・簡単モード)

ワークフローを2つの明確な色分けされたグループに整理しました。手動で接続する必要はありません!

  1. 制御スイッチ: 左側にある 「Fast Groups Bypasser」 ノードを探してください。

    • テキスト→音声: Enable Voice Design「yes」 に、Cloning を「no」に設定。

    • クローン: Enable Voice Cloning「yes」 に、Design を「no」に設定。

    • 注: GTX 1060 のVRAMを節約するため、常に1つだけ有効にしてください

  2. ビジュアルガイド:

    • 薄い青グループ(上) = ボイスデザイン。

    • シアングループ(下) = ボイスクローン。

    • 視覚的ヒント: グループ内のノードがに変わる場合、そのグループはスキップ(OFF)されています。

  3. 実行方法:

    • 薄い青グループ: テキストを入力し、「Instruct」ボックスに声の感情を記述して実行。

    • シアングループ: 参照音声(3~5秒)をアップロードし、テキストを入力して実行。

💡 パフォーマンスノート

  • VRAM使用量: 約3.5GB。

  • 速度: 古いGPU(GTX 10xxシリーズ)でも高速生成が可能。

AIに話させるのを楽しんでください!

このモデルで生成された画像

画像が見つかりません。