[Qwen] Rebalance v1.0

세부 정보

파일 다운로드

모델 설명

모델 개요

Rebalance는 수천 장의 코스프레 사진과 엄선된 고품질 실사 이미지로 구성된 선별된 데이터셋을 기반으로 훈련된 고품질 이미지 생성 모델입니다. 모든 학습 데이터는 공개적으로 접근 가능한 인터넷 콘텐츠에서만 수집되었으며, 데이터셋은 명시적으로 NSFW 콘텐츠를 제외합니다.

Rebalance의 주요 목표는 일반적인 AI 아티팩트—기름진, 플라스틱 같은, 혹은 지나치게 평평한 외관—를 극복하고, 자연스러운 질감, 깊이, 시각적 진실성을 갖춘 사진처럼 생생한 출력물을 생성하는 것입니다.

훈련 전략

훈련은 두 단계로 나뉘어 다단계로 수행되었습니다:

  1. 코스프레 사진 훈련
    얼굴 표정, 자세의 역동성, 전반적인 인체의 사실성을 개선하는 데 중점을 두었으며, 특히 여성 피사체에 초점을 맞췄습니다.

  2. 고품질 사진 향상
    전문가가 엄선한 사진 참조 자료를 활용하여 분위기의 깊이, 구성의 균형, 미적 정교함을 향상시키는 것을 목표로 했습니다.

캡션 및 메타데이터

이 모델은 평문과 구조화된 JSON 두 가지 보완적인 캡션 형식을 사용하여 훈련되었습니다. 각 데이터 하위 집합은 생성 과정 중 세밀한 제어를 돕기 위해 맞춤형 JSON 스키마를 사용했습니다.

  • 코스프레 이미지의 경우, JSON은 다음과 같은 항목을 포함합니다:

    • {

      "caption": "...",

      "image_type": "...",

      "image_style": "...",

      "lighting_environment": "...",

      "tags_list": [...],

      "brightness": number,

      "brightness_name": "...",

      "hpsv3_score": score,

      "aesthetics": "...",

      "cosplayer": "anonymous_id"

      }

참고: 코스프레자 이름은 동일한 피사체의 여러 이미지를 학습 중 연결하기 위해만 익명화되었습니다(플레이스홀더 ID 사용)—실제 신원은 보존되지 않습니다.

  • 고화질 사진의 경우, JSON 구조는 장면 구성에 중점을 둡니다:

    • {

      "subject": "...",

      "foreground": "...",

      "midground": "...",

      "background": "...",

      "composition": "...",

      "visual_guidance": "...",

      "color_tone": "...",

      "lighting_mood": "...",

      "caption": "..."

      }

구조화된 JSON 외에도, 모든 이미지는 일반 텍스트 캡션과 임의의 캡션 드롭아웃(즉, 일부 학습 단계에서는 캡션 또는 부분적인 메타데이터를 사용하지 않음)으로도 학습되었습니다. 이 이중 접근 방식은 제어성과 일반화를 모두 향상시킵니다.

추론 가이드라인

  • 최대한의 미적 정확성과 스타일 제어를 위해 추론 시 전체 JSON 형식을 사용하세요.

  • 더 넓은 일반화 또는 간단한 프롬프팅을 원할 경우, 일반 텍스트 캡션을 권장합니다.

기술적 세부사항

모든 학습은 Hugging Face Diffusers DreamBooth 학습 스크립트를 맞춤화한 lrzjason/T2ITrainer를 사용하여 수행되었습니다. 이 프레임워크는 Qwen 및 Qwen-Edit(2509)를 포함한 고급 텍스트-이미지 아키텍처를 지원합니다.

이전 작업

이 프로젝트는 확산 기반 이미지 생성 및 편집의 제어성과 효율성을 향상시키기 위해 개발된 여러 이전 도구들을 기반으로 합니다:

  • ComfyUI-QwenEditUtils: ComfyUI에서 Qwen 기반 이미지 편집을 위한 유틸리티 노드 모음으로, 다중 참조 이미지 조건부 지정, 유연한 크기 조정 및 고급 편집 워크플로우를 위한 정밀 프롬프트 인코딩을 가능하게 합니다.
    🔗 https://github.com/lrzjason/Comfyui-QwenEditUtils

  • ComfyUI-LoraUtils: ComfyUI에서 고급 LoRA 조작을 위한 노드 모음으로, LoRA 로딩, 레이어별 수정(정규식 및 인덱스 범위 활용), 디퓨전 또는 CLIP 모델에 대한 선택적 적용을 세밀하게 제어할 수 있습니다.
    🔗 https://github.com/lrzjason/Comfyui-LoraUtils

  • T2ITrainer: Qwen Image, Qwen Edit, Flux, SD3.5, Kolors 등 다양한 아키텍처에서 LoRA(및 LoKr)를 효율적으로 학습할 수 있도록 설계된 가벼운 Diffusers 기반 학습 프레임워크로, 단일 이미지, 쌍형, 다중 참조 학습 패러다임을 지원합니다.
    🔗 https://github.com/lrzjason/T2ITrainer

이 도구들은 높은 정밀도와 유연성으로 개인화된 디퓨전 모델을 학습, 편집 및 배포할 수 있는 강력한 생태계를 구축합니다.

문의

아래 채널을 통해 언제든지 연락 주세요:

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.