Qwen3-TTS Ultimate Pack (Cloning + Design + Low VRAM)

세부 정보

모델 설명

# 🚨 업데이트 V1.5 (2026년 1월 24일) - 필수 수정 사항

즉시 이 버전으로 업데이트하세요!

이전 버전(v1.0)은 ComfyUI-Qwen3-TTS 커스텀 노드에서 최근 발생한 "중대한 변경 사항"으로 인해 충돌할 수 있습니다.

✅ v1.5에서 수정된 사항:

* 충돌 수정: Unsupported speakers: fixed 오류 해결.

* 플러그 앤 플레이: 모든 개인 파일 경로 제거 (첫 실행 시 더 이상 "파일을 찾을 수 없습니다" 오류 발생하지 않음).

* 감자 모드 가이드: 0.6B 모델 전환을 위한 워크플로우 내 시각적 가이드 추가.

---

# 🎧 Qwen3-TTS 최종 팩 (음성 디자인 및 클로닝)

이것은 새로 출시된 Qwen3-TTS 모델을 위한 초보자 친화적인 워크플로우입니다. 최소 6GB VRAM이 있는 소비자용 하드웨어에서 최적화되어 실행됩니다(GTX 1060에서 테스트 및 완벽히 작동 확인).

💡 감자 PC 모드 (<4GB VRAM):

충돌이 발생한다면, 로더의 repo_id를 다음으로 변경하세요: Qwen/Qwen3-TTS-12Hz-0.6B-Base (더 빠르고 메모리 사용량이 절반으로 줄지만 감정 표현은 약간 덜 자연스러움).

새로운 노드들이 초보자에게 혼란스러울 수 있어 이 워크플로우를 만들었습니다. 이 다운로드에는 "빠른 전환기"로 관리되는 두 개의 별도 그룹이 포함되어 있습니다.

## 🚀 무엇이 포함되어 있나요?

### 워크플로우 1: 음성 디자인 (텍스트-음성)

* 적합한 사용자: 내레이터, 영화 트레일러, 어시스턴트 음성.

* 고품질의 지시적 연기를 위한 VoiceDesign 모델 사용.

* "Instruct" 필드 설정 포함: 감정을 지시할 수 있음 (예: "슬픈 속삭임", "화난 외침").

### 워크플로우 2: 음성 클로닝 (오디오-음성)

* 적합한 사용자: 특정 음성 클로닝 (자신, 친구, 캐릭터 등).

* Base 모델 + 참조 오디오 사용.

* 프로 팁: 정확도를 크게 향상시키는 ref_text를 받도록 설정했습니다.

## ⚙️ 요구 사항

1. ComfyUI Manager 설치.

2. Qwen3 노드: ComfyUI-Qwen3-TTS 필요 (제작자: DarioFT / ID: 3172, Manager에서).

3. 유틸리티 노드: 모드 전환기가 작동하려면 rgthree-comfy 필요 (Manager를 통해).

* (참고: rgthree를 설치하고 싶지 않다면, Ctrl+M을 사용하여 수동으로 그룹을 우회할 수 있습니다).

## 📝 사용법 (새로운 쉬운 모드)

워크플로우를 두 개의 명확한 색상 구분 그룹으로 정리했습니다. 수동으로 연결할 필요가 없습니다!

제어 전환기: 왼쪽에 있는 "빠른 그룹 우회기" 노드를 찾으세요.

1. 텍스트-음성: _Voice Design 활성화_를 **"yes"**로, Cloning을 "no"로 설정.

2. 클로닝: _Voice Cloning 활성화_를 **"yes"**로, Design을 "no"로 설정.

* 참고: GTX 1060의 VRAM을 절약하려면 한 번에 하나만 활성화하세요.

시각적 가이드:

🟦 *연한 파란색 그룹(상단)** = 음성 디자인.

🟦 *청록색 그룹(하단)** = 음성 클로닝.

* 시각적 힌트: 그룹 내 노드가 어두워지거나 색이 흐려지면, 그 그룹이 우회됨(꺼짐)을 의미합니다.

## 💡 성능 참고 사항

* VRAM 사용량: 약 3.5GB ~ 5GB (모델 선택에 따라 다름).

* 속도: 오래된 카드(GTX 10xx 시리즈)에서도 빠른 생성 가능.

AI가 말하게 만들어보세요! 그리고 이 워크플로우가 도움이 되었다면 좋아요를 눌러주세요! ⭐

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.