ChromeShineXL

세부 정보

파일 다운로드

모델 설명

(PixAI에서 이 모델을 사용 중이라면, 추천 파라미터가 별로일 가능성이 높습니다. 제가 다른 사람들이 임포트에 무엇을 넣는지 통제할 수 없으니 죄송합니다.)

MIX-GEM-XL을 기반으로 개발된 '이 달의 맛' 스타일 믹스입니다. 이 모델의 주된 목적은 밝고 역동적인 조명과 우수한 배경, 그리고 센타우르스나 안드로이드 소녀와 같은 비전통적인 프롬프트를 조합하는 것입니다.

ChromeLightXL은 이 모델의 스타일 추출기입니다. 제가 확인한 바에 따르면, 이 도구는 모델 스타일의 약 55%에서 70%를 유지할 수 있지만, 훨씬 작아서 다양한 기본 모델과 결합하여 원하는 경우 좋아하는 모델을 바꾸지 않고도 사용할 수 있습니다(혹은 평생 베이스 폰이나 오토이즘믹스를 고집하는 분들에게 적합합니다).

버전

현재 두 가지 버전이 있습니다. 프로토타입(proto)과 대량 생산(MP)입니다. 이 명칭은 기동전사 건담처럼 '프로토타입 모델'이 더 강력하고 뛰어나지만, 사용하기 어렵고 기능이 제한적이라는 개념을 따릅니다. 세부 내용은 다음과 같습니다:

  • chromeshinexl_proto: 이 버전은 ChromeShineXL의 강력한 질감을 더 잘 반영합니다. 피부 톤과 텍스처 표현, 캐릭터 프레임 구성 방식은 대다수의 경우 MP 버전보다 훨씬 뛰어납니다. 그러나 프롬프트 준수도는 낮고 배경 품질은 더 나쁘며, 정제되지 않은 데이터셋을 가진 LoRA를 처리하는 데 훨씬 취약합니다. 사용하는 LoRA에 워터마크, 서명, Patreon/Weibo/Twitter 로고가 조금이라도 남아 있다면, 그것들이 반드시 생성 결과에 들어갑니다.

  • chomreshinexl_MP: 이 버전은 독창성은 덜하지만 안정성이 높습니다. 정제되지 않은 LoRA 데이터셋을 처리하는 데 더 나은 성능(완벽하지는 않음)을 보이며, 프롬프트 준수도가 훨씬 뛰어나, 실제로 입력한 프롬프트를 더 정확히 따릅니다(예: dynamic_posing 태그의 효과가 특히 두드러집니다). 그러나 프롬프트가 나쁘다면(모순된 태그가 많거나 오타/유효하지 않은 태그가 포함되어 있거나 실제로 원하지 않는 사진/조명 용어를 많이 넣었다면) 결과가 오히려 더 나빠질 수 있습니다. 또한 옷차림과 배경의 일관성 면에서도 다소 더 정확합니다.

어떤 버전을 사용할지 제 추천은 사용 목적에 따라 달라집니다. 모델의 내재된 지식에 의존할 계획인가요, 아니면 다양한 캐릭터/옷 LoRA와 결합할 생각인가요? 자주 '내가 더 잘 알아'라고 말하는 귀찮은 모델을 원하나요, 아니면 더 나아도 당신의 지시를 따르는 순종적인 모델을 원하나요? 항상 그렇듯, 결과가 최고의 증거입니다. 예시 이미지를 확인하고 자신의 필요에 더 잘 맞는 버전을 선택하세요.

프롬프팅

이 모델은 태그 기반 모델이므로, 자연어보다 태그를 주로 활용하고, 가능하다면 자연어는 보조적으로만 사용하세요. 모델이 어떤 태그에 반응하는지 익숙하지 않다면, 애니메이션 스타일 모델의 대부분 학습 데이터는 Danbooru 또는 e621에서 가져옵니다. 두 웹사이트 모두 도움이 되는 태그 위키를 제공하므로 참고 자료로 활용할 수 있습니다.

어쨌든 AI에 대해 주관적인 표현은 사용하지 마세요. 저는 이 점을 자주 관찰해왔는데, best quality, high quality, very aesthetic 또는 score_9, score_8, score_7_up 같은 태그는 AI가 자연스럽게 이해하는 개념이 아니라, 모델에 훈련된 부가 태그입니다(일반적으로 사용자 평가 점수를 기반으로 훈련되며, 수백만 장의 아트워크를 개별적으로 품질 평가하는 것은 우리 인간에게 불가능하기 때문입니다). AI의 황금 법칙은 "너는 무엇을 줘야 그게 무엇인지만 안다"는 것입니다(이것은 또한 beautiful woman이나 perfect face 같은 태그도 훈련 시 태깅되지 않았다면 효과가 없다는 뜻입니다. 소스 데이터나 자동 태깅기를 고려하면, 이런 태그가 훈련에 포함될 가능성은 매우 낮습니다).

음성 프롬프트(negative prompt)는 본인의 선택입니다. 가장 좋은 방법은 동일한 시드를 기반으로 여러 차례 프롬프트를 수정하며 음성 프롬프트를 점진적으로 조정하는 것이지만, 시간이 충분하지 않다면 다음 태그들이 도움이 됩니다: low quality, extra digits, artistic error, watermark, artist name, signature. e621_p_lowscore_6, score_5, score_4보다 토큰 수가 적은 내장형 일반적 음성 품질 태그입니다. 신뢰하지 못한다면 기존의 전체 품질 태그 체인을 사용해도 되지만, 제 생각에는 이 태그가 더 나은 대안입니다. 미리보기 이미지는 좋은 예시이지만, 음성 프롬프트는 본인이 원하는 대로 자유롭게 수정하셔도 됩니다.

샘플링 및 기타 파라미터

모든 디퓨전 모델과 마찬가지로, 음성 프롬프트의 영향은 Classifier-Free Guidance Scale(CFG)이 높을수록 커집니다. 프롬프트는 텍스트 인코더가 레이턴트를 조건화하는 방식이지만, CFG는 그 강도를 조절합니다. 프롬프트가 실제로 레이턴트를 어떻게 유도하는지는 설명하기에 많은 글이 필요하지만, 간단히 요약하면 무조건적 조건(음성 프롬프트)은 레이턴트 공간에 특정 벡터가 적용되는 것을 억제하고, CFG가 높을수록 이 억제 효과가 강해집니다(그러므로 긍정적 조건도 강화됩니다). 물론 CFG를 지나치게 높이면 디노이징 과정에 너무 강한 영향을 주어 이미지가 타버리는 경향이 있습니다. 제 추천은 CFG를 높이지 않고 Perturbed Attention Guidance (PAG)를 사용해 가이던스 강도를 향상시키는 것이며, 또는 Dynamic Thresholding CFG를 사용해 초기 단계에서 CFG를 제한하는 것입니다.

제 추천 샘플러는 Euler A이며, 선호하는 스케줄러를 사용하세요. 저에게는 SGMUniform이 가장 좋고(가장 빠름) 다른 사용자들은 AYS 샘플러를 선호한다고 보고했습니다. AYS 샘플러에 대한 제 개인적인 경험은, 대체로 프롬프트에 더 정확하게 부합하지만, 모델이 학습한(대부분 데이터 정제 부족으로 인한) 비바람직한 질감을 과도하게 증폭시키고, 가끔 텍스트나 워터마크를 삽입한다는 점입니다. 더 이례적인 샘플러를 시도할 의향이 있다면, Euler dy Negative 샘플러가 특히 깨끗하다고 느꼈습니다. 주관적으로는 Euler A보다 '덜 야심적'이지만, 단순하고 명확하며 깔끔한 생성에 매우 뛰어납니다.

25~35단계를 추천합니다. 기본값은 28입니다. 솔직히 말해 이 범위를 크게 벗어나지 마세요. 수렴하지 않는 샘플러(예: 확률적 샘플러나 적대적 샘플러)에서 단계 수를 늘리면 이미지가 극적으로 변하며, 수렴하는 샘플러에서는 35단계를 넘어서는 단계 증가는 거의 효과가 없습니다. 단지 계산 자원을 무의미하게 낭비할 뿐입니다. 더 나은 방법은 단계 수를 늘리는 대신 다른 파라미터(아마도 프롬프트)를 조정하는 것입니다.

모델은 832x1216 또는 768x1344에서 가장 뛰어난 성능을 발휘합니다.

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.