90년대, 80년대 및 00년대의 통합 모델

저는 제 PATREON을 복원했습니다(혹은 Patreon의 허락을 받아 새 것을 만들었습니다). 누군가 저를 지원하고 싶다면, BOOSTY에서 유료로 제공했던 모든 새로운 모델과 LORA를 하나의 아카이브로 게시했습니다. 무료로라도 Patreon에 구독해 주시면 제 작업에 관심을 가지고 계신다는 것을 알게 되어 기쁩니다.

v5.0에 대해:

최신 LORA에 비해 품질에서 엄청난 도약을 이룬 NAI-XL을 기반으로 이 모델을 구현하기로 결정했습니다. 이 모델은 미세 조정이 쉬워 환경, 눈, 해부학적 정밀도, 손가락, 옷의 다양성 등이 향상되었으며, 무엇보다 대비가 감소되었습니다. v3.0에서는 대비가 매우 높아 추가 LORA를 사용하기 어려웠고, CFG 스케일을 2.5로 설정해야 했지만, 현재 동일한 대비 수준에서 CFG 스케일은 약 4로 설정할 수 있어 추가 LORA 사용에 여유가 생겼습니다.

Latent(최근접 정확) 확대를 사용할 때 아티팩트가 훨씬 적게 나타나며(때로는 전혀 없음), 이는 품질과 해부학적 정확도의 큰 향상을 의미합니다(확대 시 해부학이 더 자주 정확한 범위 내에서 유지됨).

워크플로우(설정을 그대로 복사하세요. 부정 프롬프트를 제외한 모든 항목. 최적의 설정은 아래에 기재되어 있습니다):

이미지 링크

v6.3 및 6.69에 대해:

최종적으로 수정된 미세 조정과 LORA 훈련이 더 오래 걸렸습니다(또한 파이썬을 재설치한 후 모든 WebUI가 깨져서 모두 수리해야 했습니다).

즉시 말씀드리자면, 이 모델은 epsilon이 아닌 v-pred(속도 예측) 기반으로 만들어졌습니다. v-pred와 epsilon(ε-예측)은 확산 모델의 노이즈를 파라미터화하는 서로 다른 수학적 접근법입니다. 자세한 설명은 생략하고, 애니메이션에 적절한 설정을 적용하면 vpred가 더 좋습니다. 그러나 vpred는 이미지 과도한 화소 손실과 낮은 SNR에서 수렴성 약화라는 심각한 문제를 겪습니다(그리고 vpred는 0 SNR에서 사용해야 합니다). v-파라미터화에 대한 올바른 설정을 통해 강한 대비와 색상 손실 문제를 해결하고, SNR을 완전히 비활성화하며, SDXL의 고정값 대신 노이즈를 자동 조정하는 방식을 채택했습니다. 인터넷에는 실제 데이터가 거의 없었고, 실험과 오류를 반복하며 v-pred에 관한 과학 논문을 철저히 읽음으로써 일부 미묘한 점들을 이해할 수 있었습니다. 사실, CivitAI의 원본 NOOBAI는 잘못 학습된 상태입니다. 이는 설정과 학습에 도움을 준 수많은 사람들이 있었던 점을 고려할 때 매우 흥미롭습니다.

실제로 v-pred는 매우 까다롭고 완벽하지 않습니다. 향후 하이브리드 접근법의 발전이 현재의 제한을 해결할 가능성이 있지만, 확산 모델의 아키텍처에 근본적인 변화가 필요할 것입니다.

모델로 돌아와서, 왜 두 버전이 있나요? 얼굴과 눈의 디테일이 약간(그렇지만 중요한) 저하되는 것을 확인했기 때문에, v6.69 버전을 생성하여 얼굴 향상을 위한 전용 LORA를 따로 훈련하고 해부학을 추가로 조정했습니다. 이는 이미 새로운 수준에 도달했습니다. 그러나 70~75%의 경우, v6.3은 그림자 표현에서 약 5% 더 나은 시각적 결과를 보여줍니다. 이는 많은 사람들에게는 큰 차이가 아니지만, 제게는 중요했기 때문에 선택권을 드립니다. v6.69는 해부학적으로 더 우수하고, v6.3은 그림자 표현이 약간 더 나음입니다. (먼저 v6.3을 게시하겠습니다.)

버전 간 비교 및 v5.0(모든 아트는 업스케일 없이 1024x1056 해상도로 제작됨):
샘플러 비교:

[

](https://boosty.to/girlsai/posts/49b336b1-136e-40a6-9dbc-4c11dd659767/media/e4c661d4-572e-4364-8dad-873ba7ba4b1c?from=blog_post)**이제 이 모델이 극한 해상도에서 해부학적 일관성을 어떻게 유지하는지, 이전 모델들과 비교해보겠습니다. 이는 캡션 드롭아웃 비율과 네트워크 드롭아웃 0.05를 추가함으로써 달성했습니다. 이 조정으로 일관성이 수 배 향상되었습니다. 해상도 1400x2000 (이 결과에도 불구하고, 이 해상도는 극단적이며 권장되지 않으며, Latent(최근접 정확) 업스케일을 사용하는 것이 좋습니다):

저의 워크플로우
프롬프트 앞에: masterpiece, best quality, newest, official art, absurdres, highres

부정 프롬프트: worst quality, low quality, (censored, bar censor, mosaic censoring, 4koma), multiple views, blurry, artistic error, bad anatomy, bad feet, wrong foot, bad hands, bad proportions, bad perspective, bad leg, bad arm, bad neck, bad vulva, bad reflection, bad ass, bad face, english text, chinese text, watermark, simple background

부정 프롬프트는 danbooru 사이트의 모든 나쁜 해부학적 항목을 사용한 표준 프롬프트입니다. 단 하나만 제외: simple background. vpred 모델은 매우 단순화하는 경향이 있어, 이 부정 프롬프트는 전체 디테일을 향상시키는 데 도움이 됩니다.

RescaleCFG는 더 이상 필요하지 않습니다. 이제 comfi, forge, reforge, 심지어 표준 automatic1111에서도 안정적으로 사용할 수 있습니다.

기억하세요, vpred 모델은 상세한 설명을 매우 좋아합니다. danbooru 사이트의 booru 태그를 사용하세요. 일반적인 1girls는 작동하지만, 그림은 가능한 한 단순화되고 표준화됩니다. 이는 이러한 모델에서 피할 수 없습니다. epsilon 모델은 이 점에서 더 다양하지만, 그 외 모든 면에서(완전히 모든 면에서) 떨어집니다.

아직 설치하지 않았다면, "sd-webui-tagcomplete" 확장을 설치하세요. 이 확장은 Danbooru와 같은 'image booru' 게시판에서 인식된 태그에 대한 자동 완성 힌트를 표시하며, 주로 애니메이션 스타일 일러스트를 둘러보는 데 사용됩니다.

CFG Scale — 어떤 값이든 가능합니다. 과도한 대비 문제는 더 이상 없습니다. 5–7(표준 값)을 설정할 수 있습니다.

아, 잊어버리기 직전이네요. 80년대, 90년대 및 00년대의 스튜디오 지브리 애니메이션에서 많은 HD 이미지를 추가했습니다. 이제 이 스튜디오의 스타일로 아트를 생성할 수 있습니다. 특히 와이드스크린 이미지가 훨씬 나은 해부학적 일관성을 보이게 되었습니다.

추가된 애니메이션:

hotaru no haka

tonari no totoro

sen to chihiro no kamikakushi

howl no ugoku shiro

tenkuu no shiro laputa