RouWei
세부 정보
파일 다운로드
이 버전에 대해
모델 설명
Illustrious의 최고 수준의 프롬프트 준수, 지식 및 최신 성능을 달성하기 위한 심층 재학습.
큰 꿈은 실현된다.
버전 번호는 계획된 학습의 일부가 아니라 현재 최종 릴리스의 인덱스입니다.
약 1300만 장의 이미지(~400만 장은 자연어 캡션 포함)로 구성된 데이터세트를 사용한 GPU 클러스터를 통한 대규모 미세 조정
캐릭터, 개념, 스타일, 문화 및 관련 사항에 대한 신선하고 풍부한 지식
릴리스 시점 기준 SDXL 애니메이션 모델 중 최고의 프롬프트 준수도
Illustrious, NoobAi 및 기타 체크포인트에서 흔히 발생하는 태그 침투 및 편향 문제 해결
광범위한 스타일에 걸친 뛰어난 미적 감각과 지식 (5만 명 이상의 아티스트 (예시), 사설 갤러리에서 가져온 수백 개의 독특한 컬렉션 데이터셋 포함, 일부는 아티스트 본인으로부터 직접 수신)
안정성을 희생하지 않고 높은 유연성과 다양성
청정 데이터셋 덕분에 인기 있는 스타일의 성가신 워터마크 더 이상 없음
버닝 없이 생생한 색상과 부드러운 그라데이션, 엡실론 사용 시에도 전체 범위 유지
Illustrious v0.1을 기반으로 한 순수 학습, 타사 체크포인트, LoRA, 트위커 등 사용하지 않음
이전 버전과 비교해 일부 문제점과 변경사항이 있으므로 RTFM(운영 매뉴얼을 읽으세요).
데이터셋 마감일 - 2025년 4월 말.
기능 및 프롬프팅:
중요한 변경사항:
아티스트 스타일을 프롬프팅할 때, 특히 여러 스타일을 혼합할 때 해당 태그는 반드시 별도의 CLIP 청크에 있어야 합니다. 그 뒤에 BREAK(A1111 및 파생 버전용)를 추가하거나, 컨디셔닝 병합 노드(Comfy용)를 사용하거나, 최소한 끝부분에 배치해주세요. 그렇지 않으면 결과가 크게 저하될 가능성이 높습니다.
기본:
체크포인트는 짧고 간단한 프롬프트뿐만 아니라 길고 복잡한 프롬프트 모두에서 작동합니다. 그러나 모순되거나 이상한 요소가 있을 경우, 다른 모델들과 달리 무시되지 않고 출력에 영향을 미칩니다. 가이드레일, 보안장치, 로보토미 없음.
원하는 장면을 정확히 프롬프팅하고, 이미지에 없어야 할 요소는 프롬프팅하지 마세요. 위에서 내려다보는 시점이 필요하다면 천장은 긍정 프롬프트에 넣지 마세요. 머리가 프레임 밖으로 나온 클로즈업이 필요하다면 캐릭터 얼굴의 세부 묘사를 하지 마세요. 등등. 매우 단순하지만 종종 사람들이 놓치는 부분입니다.
버전 0.8은 자연어 프롬프트에 대한 향상된 이해를 제공합니다. 반드시 자연어를 사용해야 한다는 뜻은 아닙니다. 태그만으로도 충분하며, 특히 태그 조합에 대한 이해도가 향상되었기 때문에 더욱 효과적입니다.
Flux 또는 T5/LLM 텍스트 인코더를 기반으로 한 다른 모델처럼 동작할 것으로 기대하지 마세요. SDXL 체크포인트 전체 크기가 해당 텍스트 인코더 하나보다 작으며, 기반이 되는 Illustrious-v0.1은 Vanilla SDXL-base에서의 일반적인 개념들 대부분을 잊어버렸습니다.
그러나 현재 상태에서도 훨씬 더 나은 성능을 발휘하며, 외부 가이드 없이 보통 불가능했던 새로운 작업을 수행할 수 있고, 수동 편집, 인페인팅 등을 더 편리하게 만들었습니다.
최고의 성능을 얻으려면 CLIP 청크를 관리해야 합니다. SDXL에서 프롬프트는 75개(BOSS와 EOS 포함 77개) 토큰으로 나뉘어 CLIP에 별도로 처리된 후, 합쳐져 Unet에 조건으로 전달됩니다.
캐릭터/객체의 특정 특징을 다른 프롬프트 부분과 분리하여 지정하려면, 해당 특징을 같은 청크 안에 넣고 선택적으로 BREAK로 분리하세요. 이는 특징 혼합 문제를 완전히 해결하지는 못하지만, 텍스트 인코더가 개별 개념보다 전체 시퀀스를 더 잘 처리하기 때문에 전체 이해도를 향상시킬 수 있습니다.
데이터셋은 보루 스타일 태그와 자연어 표현만 포함합니다. 퓨리, 실사 사진, 서양 미디어 등이 일부 포함되어 있지만, 다양한 시스템 혼합으로 인해 발생하는 문제를 피하기 위해 모든 캡션은 고전적인 보루 스타일로 변환되었습니다. 따라서 e621 태그는 제대로 인식되지 않습니다.
샘플링 파라미터:
txt2img: 약 1 메가픽셀, 32의 배수인 모든 비율(1024x1024, 1056x, 1152x, 1216x832,...). Euler_a, 20~28스텝.
CFG: 엡실론 버전은 4
9(최적값 7), vpred 버전은 35Sigmas 곱셈은 결과를 약간 향상시킬 수 있으며, CFG++ 샘플러는 잘 작동합니다. LCM/PCM/DMD/... 및 이색 샘플러는 테스트되지 않음.
일부 스케줄러는 잘 작동하지 않습니다.
하이레스픽스: x1.5 레이턴트 + denoise 0.6, 또는 GAN + denoise 0.3~0.55
vpred 버전에서는 CFG를 3~5로 낮춰야 합니다!
vpred 버전에서는 CFG를 3~5로 낮춰야 합니다!
품질 분류:
단 4가지 품질 태그만 사용:
긍정:
masterpiece, best quality
부정:
low quality, worst quality
그 외는 필요 없습니다. 사실 긍정 태그는 생략하고 부정 태그는 low quality만 사용해도 무방하며, 이 태그들은 기본 스타일과 구성을 영향을 줄 수 있습니다.
lowres 같은 메타 태그는 제거되었고 작동하지 않으므로 사용하지 않는 것이 좋습니다. 저해상도 이미지는 중요도에 따라 삭제되거나 DAT를 사용해 업스케일링 및 정제되었습니다.
부정 프롬프트:
worst quality, low quality, watermark
이것이 전부입니다. "녹슨 트롬본", "먹이에게 방귀 뀌기" 같은 불필요한 표현은 쓰지 마세요. 회색조, 단색 등의 태그는 목적을 명확히 이해하지 않는 한 부정 프롬프트에 추가하지 마세요. 밝기/색상/대비 관련 추가 태그는 아래에 제공됩니다.
아티스트 스타일:
예시 그리드, 리스트/와일드카드 (훈련 데이터에서도 확인 가능)
“by “와 함께 사용해야 필수입니다. 그렇지 않으면 정상적으로 작동하지 않습니다.
“by “는 스타일용 메타 토큰으로, 유사하거나 비슷한 이름의 태그/캐릭터와 혼동/오해를 방지하기 위한 것입니다. 이는 스타일에 대해 더 나은 결과를 제공하면서도 다른 체크포인트에서 관찰되는 무작위 스타일 변화를 방지합니다.
여러 스타일을 함께 사용하면 매우 흥미로운 결과를 얻을 수 있으며, 프롬프트 가중치와 스펠로 제어 가능합니다.
아티스트/스타일 태그 뒤에는 반드시 BREAK를 추가하세요(A1111용), 또는 컨디셔닝 병합(Comfy용), 또는 프롬프트 끝부분에 배치하세요.
예시:
by kantoku, by wlop, best quality, masterpiece BREAK 1girl, ...
일반 스타일:
2.5d, anime screencap, bold line, sketch, cgi, digital painting, flat colors, smooth shading, minimalistic, ink style, oil style, pastel style
보루 태그 스타일:
1950s (style), 1960s (style), 1970s (style), 1980s (style), 1990s (style), 2000s (style), animification, art nouveau, pinup (style), toon (style), western comics (style), nihonga, shikishi, minimalism, fine art parody
그리고 이 그룹의 모든 항목.
아티스트 스타일과도 조합 가능하며, 가중치를 사용해 긍정 및 부정 프롬프트 모두에 적용 가능.
캐릭터:
보루 태그의 전체 이름과 정확한 형식을 사용하세요. 예: karin_(blue_archive) → karin \(blue archive\). 더 나은 재현을 위해 스킨 태그를 사용하세요. 예: karin \(bunny\) \(blue archive\). 자동완성 확장 프로그램이 매우 유용할 수 있습니다.
대부분의 캐릭터는 보루 태그만으로도 인식되지만, 기본 특징을 설명하면 더 정확합니다. 이로 인해 전형적인 기본 특징 누출 없이 프롬프트만으로 원하는 웨이프/허스텐도의 복장을 쉽게 변경할 수 있습니다.
자연어:
보루 태그와 조합하여 사용하면 매우 효과적입니다. 스타일 및 품질 태그 입력 이후에 자연어만 사용하세요. 태그만으로도 충분하므로 마음대로 사용하세요. 최고의 성능을 위해 CLIP 75토큰 청크를 관리하세요.
데이터셋의 약 4백만 장의 이미지는 Claude, GPT, Gemini, ToriiGate가 생성한 하이브리드 자연어 캡션을 기반으로 하며, 이후 정리되고 다양한 변형으로 태그와 결합되어 데이터 증강에 사용되었습니다.
일반적인 캡션과 달리, 이 캡션에는 캐릭터 이름이 포함되어 매우 유용합니다. 간결하고 명확하며 편리한 설명이 가장 효과적입니다. 다음처럼 길고 흐트러진 쓸데없는 문장은 사용하지 마세요:
불확실하지만 젊은 본질을 지닌 신비롭고 매혹적인 여성적 존재로, 그녀의 천상의 얼굴은 천 개의 죽어가는 별들의 초자연적 빛을 발하며, 고대 신화의 금빛 강처럼 흘러내리는 머리카락을 지니고 있으며, 현대 패션 트렌드를 연상시키는 스타일일 수도 있으나 특정 미적 규범에 반드시 부합하지는 않습니다. 그녀의 눈은 무한한 깊이와 색조를 지닌 연못처럼 수천 년의 지혜를 빛내지만, 시간의 제약을 초월하는 순수함을 간직하고 있습니다...
캡션 생성에는 ToriiGate의 단축 모드를 사용하세요.
Flux 및 기타 모델만큼 훌륭하다고 기대하지 마세요. 이 모델은 매우 열심히 노력하며, 몇 번의 샘플링 후에는 원하는 결과를 얻을 수 있지만, 안정성과 세부 표현은 뛰어나지 않습니다.
꼬리/귀 관련 개념이 매우 많이 포함되어 있습니다:
오예:
tail censor, holding own tail, hugging own tail, holding another's tail, tail grab, tail raised, tail down, ears down, hand on own ear, tail around own leg, tail around penis, tailjob, tail through clothes, tail under clothes, lifted by tail, tail biting, tail penetration (including a specific indication of vaginal/anal), tail masturbation, holding with tail, panties on tail, bra on tail, tail focus, presenting own tail...
(보루 의미, e621 아님) 및 기타 자연어 표현이 많습니다. 대부분 완벽히 작동하지만 일부는 많은 샘플링이 필요합니다.
밝기/색상/대비:
이를 제어하기 위한 추가 메타 태그 사용 가능:
low brightness, high brightness, low saturation, high saturation, low gamma, high gamma, sharp colors, soft colors, hdr, sdr
엡실론 및 vpred 버전 모두에서 효과적으로 작동합니다.
엡실론 버전은 이 메타 태그에 지나치게 의존합니다. low brightness나 low gamma, 또는 음성 범위 제한(부정 프롬프트에) 없이 진정한 0,0,0 검은색을 얻기 어려울 수 있으며, 흰색도 마찬가지입니다.
엡실론 및 vpred 버전 모두 진정한 zsnr, 일반적인 결함 없이 전체 색상 및 밝기 범위를 제공하지만, 동작 방식이 다릅니다. 실제로 시도해보세요.
vpred 버전
알아야 할 핵심: CFG를 7에서 5(또는 그 이하)로 낮추세요. 그 외 사용법은 동일하며 장점이 있습니다.
v0.7부터 vpred 버전은 이제 완벽하게 작동하는 것으로 보입니다. nai와 같이 75토큰 청크 경계 근처의 태그를 무시하는 문제가 발생하지 않습니다. 버닝된 이미지가 생기기 어려우며, CFG 7에서도 일반적으로 과포화되지만 부드러운 그라데이션을 유지하여 특정 스타일에 유용합니다. 네, (0,0,0)에서 (255,255,255)까지 모두 가능합니다. 위에서 설명한 밝기 메타 태그를 사용하면 프롬프팅이 더 쉽고 편리하며, 자연어 표현도 잘 작동합니다. 가장 어두운 이미지를 얻으려면 high brightness를 부정 프롬프트에 추가하거나 low brightness, low gamma 태그를 사용하세요. 어두운 배경 위의 매우 밝은 피부가 싫다면 대비를 줄이고 싶다면(또는 반대로 강조하고 싶다면) 부정/긍정 프롬프트에 hdr/sdr을 사용하세요.
가끔 일부 프롬프트에서 대비가 떨어지는 사례가 보고되었지만, 다른 vpred 모델들도 동일한 현상을 보이며, 75토큰 청크 경계 근처에 "구분자"를 추가하면 해결됩니다. 그러나 v0.7에서는 제가 직접 이 문제를 경험하지 못했습니다.
vpred 버전을 실행하려면 A1111의 개발 버전, Comfy(특수 로더 노드 필요), Forge 또는 Reforge가 필요합니다. 엡실론 버전과 동일한 파라미터(Euler a, cfg 35, 2028스텝)를 사용하세요. Cfg rescale은 필요하지 않지만 시도해볼 수 있으며, cfg++는 매우 잘 작동합니다.
기본 모델:
이 모델은 주 학습 후 소규모 Unet 정제를 통해 세부 사항 향상, 해상도 증가 등을 수행했습니다. 그러나 복잡한 프롬프트에서는 세부 사항에서 약간의 오류가 있을 수 있으나 더 나은 성능을 보이는 RouWei-Base도 관심을 가질 만합니다. FP32 버전도 제공되며, 예를 들어 Comfy에서 fp32 텍스트 인코더 노드를 사용하거나 병합/미세 조정하고 싶을 때 유용합니다.
Huggingface 저장소에서 확인 가능합니다.
알려진 문제점:
물론 있습니다:
아티스트 및 스타일 태그는 주 프롬프트와 다른 청크에 위치해야 하거나 프롬프트 가장 끝에 와야 합니다.
드문 경우에 위치적 또는 조합적 편향이 존재할 수 있으나 아직 명확하지 않습니다.
일부 일반 스타일에 대한 불만이 있습니다.
엡실론 버전은 밝기 메타 태그에 지나치게 의존하며, 원하는 밝기 이동을 얻기 위해 종종 사용해야 합니다.
새롭게 추가된 일부 스타일/캐릭터는 기대만큼 품질이나 구분도가 뛰어나지 않을 수 있습니다.
추가 발견 예정
향후 모델에 대한 아티스트/캐릭터 요청을 환영합니다. 성능이 약하거나 정확하지 않거나 강한 워터마크가 있는 아티스트/캐릭터/개념을 발견하면 알려주세요. 명시적으로 추가하겠습니다. 새 버전을 주시하세요.
디스코드 서버 참여하기
라이선스:
Illustrious와 동일합니다. 병합, 미세 조정 등에 자유롭게 사용하되, 링크나 언급을 반드시 남겨주세요. 필수입니다.
제작 방법
나중에 보고서나 그와 유사한 문서를 작성할 계획입니다. 확실히 그렇게 할 것입니다.
요약하면, 98%의 작업은 데이터셋 준비와 관련됩니다. NAI 논문의 태그 빈도 기반 손실 가중치에 맹목적으로 의존하는 대신, 균형 잡힌 비동기 수집기와 맞춤형 지도 손실 가중치 구현을 사용했습니다. 노이즈 스케줄러 증강을 통해 Ztsnr(또는 이에 근접한)와 엡실론 예측을 달성했습니다.
소비된 컴퓨팅 자원 - H100 8,000시간 이상(연구 및 실패 시도 제외)
감사의 말:
우선, 오픈 소스를 지원하고 코드를 개발하며 개선하는 모든 분들에게 감사드립니다. Illustrious의 저자들께서 모델을 공개해 주셔서 감사하고, NoobAI 팀은 이와 같은 규모의 오픈 파인튜닝을 선도하시고, 경험을 공유하며 이전까지 무시되었던 문제를 제기하고 해결해 주셔서 감사합니다.
개인적으로:
예술가들은 개인 작업을 공유하기 위해 익명으로 남고 싶어 합니다; 몇 분의 익명 분들께서 기부, 코드, 캡션 등을 제공해 주셨습니다; Soviet Cat - GPU 후원; Sv1. - LLM 접근, 캡션, 코드; K. - 학습 코드; Bakariso - 데이터셋, 테스트, 조언, 내부 정보; NeuroSenko - 기부, 테스트, 코드; LOL2024 - 수많은 고유한 데이터셋; T.,[] - 데이터셋, 테스트, 조언; rred, dga, Fi., ello - 기부; TekeshiX - 데이터셋. 그리고 도움을 주신 다른 모든 분들. 정말 사랑합니다 ❤️.
물론 피드백과 요청을 해주신 모든 분들께도 감사드립니다. 이는 매우 소중합니다.
누군가를 빠뜨렸다면 알려주세요.
기부
지원하고 싶으시다면, 제 모델을 공유하고 피드백을 남기며, 쿠모미미 소녀가 그려진 귀여운 그림을 만들어 주세요. 물론, 원작자들을 지원해 주세요.
AI는 제 취미이며, 저는 이에 돈을 쓰고 있으며 기부를 구하지 않습니다. 그러나 이는 대규모이자 비싼 프로젝트가 되었습니다. 새로운 학습과 연구를 가속화하기 위해 지원을 고려해 주세요.
(단, 이 돈을 술이나 코스프레 소녀에게 쓸 수도 있다는 점을 기억해 주세요.)
BTC: bc1qwv83ggq8rvv07uk6dv4njs0j3yygj3aax4wg6c
ETH/USDT(e): 0x04C8a749F49aE8a56CB84cF0C99CD9E92eDB17db
XMR: 47F7JAyKP8tMBtzwxpoZsUVB8wzg2VrbtDKBice9FAS1FikbHEXXPof4PAb42CQ5ch8p8Hs4RvJuzPHDtaVSdQzD6ZbA5TZ
GPU 시간(A100 이상)을 제공할 수 있다면, PM 주세요.




















