AccretionDiscXL

세부 정보

파일 다운로드

모델 설명

축적 원반 /əˈkrēSHən disk/

  1. (명사) 중력의 영향을 받아 대량체(예: 블랙홀) 주변에 형성된 회전하는 물질 원반.

소개

이 모델은 다소 독특한 성격을 지닙니다. 솔직히 말해, MIX-GEM-QromEW (추천 모델 탭에서 MyMix-J/GEM을 확인하거나, Yodayo나 Tensor.art에서 보고 있다면 내 프로필 페이지를 참고하세요)가 더 뛰어난 구성 감각을 가지고 있고, 더 어두운 검정과 색 대비를 더 잘 표현합니다. 그러나 이 모델은 화풍적 표현에서 QromEW보다 더 나은 성과를 보이며, 비례에 있어서도 약간 더 우수하므로 고유한 장점이 있습니다. 제가 느낀 실망감은 단지 기준을 너무 높게 설정했기 때문일지도 모릅니다. 누가 알겠습니까?

어쨌든, 이 모델은 두 개의 서로 다른 모델을 50/50으로 혼합하여 생성되었습니다: MIX-GEM-lyQrom(이는 QromEW를 약간 수정한 버전)과 임시 이름이 ls-chromeshine-dino8loraquasar8lycomerge-doubled인 다른 모델입니다. lyQrom 모델은 사용 가능하므로 나중에 업로드할 수 있지만, ls-chromeshine-dino8loraquasar8lycomerge-doubled은 다루기 다소 어렵습니다. 전자는 LS Equos V1 위에 LoRA + LyCORIS를 결합한 단순한 모델이며, 후자는 학습된 LS Equos 위에 LoRA + LyCORIS를 결합한 모델입니다. ls-chromeshine-dino8loraquasar8lycomerge-doubled의 일부 출력 결과는 실제로 더 나은 성능을 보였지만, 전반적으로 불안정하게 되어 lyQrom과 병합하게 되었습니다. 이 병합을 통해 높은 성능과 낮은 성능이 평균화되어 모델로서 훨씬 더 실용적으로 만들었습니다. 아래 이미지들은 ls-chromeshine-dino8loraquasar8lycomerge-doubled이 최고의 성능을 발휘할 때의 선택적 결과들로, lyQrom과 병합했을 때의 효과를 보여줍니다. 이 화면을 보기 전에, 이 이미지들이 평균적인 결과를 대표하는 것이 아니라는 점을 미리 밝혀둡니다. 그렇지 않았다면 그냥 ls-chromeshine-dino8loraquasar8lycomerge-doubled을 업로드했을 것입니다.

보시다시피, 병합 과정은 ls-chromeshine-dino8loraquasar8lycomerge-doubled의 스타일 효과를 훨씬 안정적인 lyQrom에 성공적으로 전달했습니다. 또한 ls-chromeshine-dino8loraquasar8lycomerge-doubled이 가진 다른 단점들, 예를 들어 지나치게 세피아 색조가 강하고 머리카락이 너무 ‘뾰족하게’ 나왔다는 점(말을 바꿀 수 없는 단어를 썼지만)은 이 병합으로 개선되었습니다. 하지만 스타일의 유지율은 다소 불안정합니다. 향후 이 모델을 다시 다룰 계획이라면, ls-chromeshine-dino8loraquasar8lycomerge-doubled의 고유한 특성을 더 많이 유지하면서 QromEW의 구성 강점을 도입하는 버전을 만들고자 합니다. 이를 위해 블록 병합 기법을 사용할 수도 있습니다.

프롬프트 작성

이 모델은 태그 기반 모델이므로, 가능한 한 태그를 주로 사용하고 자연어는 보조적으로만 사용하는 것이 좋습니다. 모델이 반응하는 태그 종류에 익숙하지 않다면, 애니메이션 스타일 모델의 대부분 학습 데이터는 Danbooru 또는 e621에서 가져옵니다. 두 사이트 모두 태그 위키를 제공하므로 참고 자료로 유용합니다.

어쨌든 AI 관련하여 주관적 표현은 사용하지 마세요. 저는 자주 관찰하는 사실이지만, best quality, high quality, very aesthetic 또는 score_9, score_8, score_7_up 같은 태그는 AI가 자연스럽게 이해하는 개념이 아니라, 모델에 학습된 자격 태그입니다(일반적으로 사용자 점수 메트릭에 기반하여 수백만 개의 그림을 개별적으로 품질 평가하는 것은 인간에게 불가능하기 때문입니다). AI의 금칙칙은 “당신이 주는 것만 알고 있다”는 것입니다. (이것은 또한 beautiful woman이나 perfect face 같은 태그가 학습 과정에서 태그되지 않았다면 효과가 없다는 것을 의미합니다. 이는 출처나 자동 태깅기 기반으로는 매우 드문 경우입니다.)

아무튼, 부정적 태그는 본인의 선택에 달려 있습니다. 가장 좋은 방법은 동일한 시드를 사용해 여러 번 프롬프트를 수정하며 하나씩 부정적 태그를 조정하는 것입니다. 그러나 시간이 충분치 않다면, 아래 태그들부터 시도해 보세요: low quality, extra digits, artistic error, watermark, artist name, signature. e621_p_lowscore_6, score_5, score_4보다 토큰 수를 적게 사용하는 내장형 일반 부정 품질 태그입니다. 신뢰가 안 간다면 전체 품질 태그 체인을 사용해도 되지만, 제 생각에는 이 태그가 더 나은 대안입니다. 미리보기 이미지는 유용한 참고 자료이지만, 부정적 태그는 본인의 취향에 따라 자유롭게 수정하실 수 있습니다.

샘플링 및 기타 파라미터

모든 확산 모델과 마찬가지로, 부정적 프롬프트의 영향은 Classifier-Free Guidance Scale(CFG) 값이 높을수록 더 큽니다. 프롬프트는 텍스트 인코더가 레이턴트에 조건을 부여하는 방식이지만, CFG는 그 강도를 조절합니다. 프롬프트가 어떻게 레이턴트를 안내하는지는 설명하려면 많은 글이 필요하지만, 간단히 말해 무조건적 조건(부정)은 레이턴트 공간에 특정 벡터가 적용되는 것을 억제하고, CFG가 높을수록 이 억제력이 강해지며(그에 따라 긍정적 조건도 더 강해집니다). 물론 CFG를 지나치게 높이면 디노이징 과정에 지나치게 강한 영향을 주어 이미지가 타버리는 경향이 있습니다. 제 추천은 CFG를 높이지 않고 Perturbed Attention Guidance(PAG)를 사용해 안내 강도를 높이거나, Dynamic Thresholding CFG를 사용해 초기 단계에서 CFG를 제한하는 것입니다.

저는 Euler A 샘플러를 추천하며, 원하시는 스케줄러를 사용하시면 됩니다. 제게는 SGMUniform이 가장 효과적이고 빠르며, 다른 사용자들은 AYS 샘플러를 선호한다고 합니다. 저의 AYS 샘플러 경험은 대체로 프롬프트에 더 정확하지만, 모델이 학습한(대부분 데이터 정제 부족으로 인해) 바람직하지 않은 특성들을 과대 부각시키고, 가끔 텍스트나 워터마크를 삽입하는 경향이 있습니다. 더 이례적인 샘플러를 시도하고 싶다면, Euler dy Negative 샘플러가 특히 깨끗한 결과물을 생성합니다. 주관적으로는 Euler A보다 덜 ‘대담’하지만, 단순하고 명확하며 깔끔한 생성물에 매우 훌륭합니다.

25~35단계를 권장합니다. 제 기본값은 28입니다. 솔직히 말해, 이 범위를 크게 벗어나지 마세요. 수렴하지 않는 샘플러(확률적 샘플러와 조상 샘플러가 그 대표적인 예입니다)에서 단계 수를 늘리면 이미지가 극적으로 변하며, 수렴하는 샘플러에서 35단계 이상을 사용하면 수익은 극히 미미합니다. 그저 무의미하게 컴퓨팅 자원을 낭비하는 것입니다. 더 나은 해결책은 단계 수를 늘리는 대신 다른 파라미터(주로 프롬프트)를 조정하는 것입니다.

모델은 832x1216 또는 768x1344 해상도에서 가장 뛰어난 성능을 발휘합니다.

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.