ThinkDiffusionXL
세부 정보
파일 다운로드
모델 설명
ThinkDiffusionXL (TDXL)
ThinkDiffusionXL은 놀라운 사진적 사실성을 구현하면서도, 프롬프트 전문가가 되지 않아도 다양한 스타일과 주제에 걸쳐 고품질 이미지를 생성할 수 있는 범용 모델을 만드는 우리의 목표에서 탄생했습니다.
이 모델은 ThinkDiffusion에서 미리 로드되어 제공됩니다.
만족하신다면 리뷰를 남겨주세요. 이렇게 하면 저희가 더 많은 모델을 개발하고 개선하는 데 동기를 부여받을 수 있습니다.
작업 내용
데이터 출처: TDXL은 사진적 사실성, 디지털 아트, 애니메이션 등을 포함한 10,000개 이상의 다양한 이미지로 학습되었습니다. 데이터셋에서 가장 작은 해상도는 1365x2048이지만, 많은 이미지의 해상도는 최대 4622x6753에 달합니다. 총 데이터셋 크기는 42GB입니다.
학습: 180만 스텝에 이르는 학습을 수행했습니다. 비교해 보면, Juggernaut는 60만 스텝, RealVisXL은 34.8만 스텝입니다.
수작업 캡션 이미지: 각 이미지는 수작업으로 정교하게 캡션 처리되어, 최소한의 프롬프트로도 정확하고 고품질의 결과를 생성할 수 있도록 모델의 능력을 향상시켰습니다.
NSFW 기능: 모델에는 1,000개 이상의 세심하게 선별된 NSFW 이미지가 포함되어 있습니다.
우리의 생각
세부 사항과 품질: 대부분의 리얼리스틱 카테고리의 XL 모델은 배경뿐 아니라 눈, 이빨, 피부와 같은 기본적인 특징에서도 세부 사항이 부족합니다. 우리는 TDXL이 대규모고품질 데이터셋 덕분에 이러한 분야에서 우수한 성능을 발휘한다고 믿습니다. 비교해 보면, Juggernaut는 약 절반의 이미지 자료를 가지고 있고, RealVisXL은 단 1,700장의 이미지만 사용합니다. 결국, TDXL은 훨씬 더 많은 “지식”을 보유하고 있습니다.
편향 최소화: 우리는 각 스타일, 성별 등에 동일한 수의 이미지를 사용하도록 신중히 섭취했습니다. 지난 몇 달간 테스트한 다른 모델들은 대부분 어떤 형태의 편향을 보였습니다. 예를 들어, 초상화 촬영, 성별 편향, 특정 인종 등이 그 예입니다. 예를 들어, Juggernaut는 클로즈업 영역에서 편향이 있으며, 시네마틱 조명이 강하게 드러납니다. RealVisXL도 초상화 촬영에 편향되어 있습니다. 반면, TDXL은 원하시는 대로 풍경, 미드샷, 풀바디, 클로즈업, 초상화, 사이드뷰, 백뷰, 액션샷, 시네마틱 등 어떤 장르도 편향 없이 자유롭게 생성해줍니다.
범용 기반 모델: 대규모 균형 잡힌 고품질 데이터셋 덕분에, TDXL은 향후 학습을 위한 베이스 모델로 우수한 유연성을 제공합니다. 완전히 다른 방향으로 새로운 파인튜닝을 생성하거나, 누락된 개념을 보완하기 위해 LoRA를 추가하거나, 더 균형 잡힌 품질의 데이터로 추가 학습을 수행할 수 있습니다.










