ZootVision - Eta
세부 정보
파일 다운로드
이 버전에 대해
모델 설명
이것은 무엇인가?
나는 이를 다음과 같이 설명하고 싶다: 1024픽셀 이상에서 전적으로 훈련된(“버킷팅” 덕분에) 비정상적으로 다재다능한 SD 1.5 모델. CivitAI의 편리한 온라인 LoRA 트레이너를 통해 깔끔하고 점진적인 방식으로 지속적으로 구축되었다. 아름다운 풍경에서부터 보루 태그 기반의 강렬한 NSFW까지, 거의 모든 스타일을 수행할 수 있다. 특정한 애니메이션, 리얼리즘, 혹은 반리얼리즘 체크포인트가 아니라, 원하는 스타일을 언제든지 선택할 수 있는 모델이다. 모든 샘플 이미지는 세부 조정이나 업스케일링을 전혀 사용하지 않고 직접 생성된 것들이며(즉, 이 모델을 사용할 때 XL 모델처럼 다뤄야 한다), 모든 메타데이터가 포함되어 있다.
어떻게 사용하는가?
자연어나 보루 태그(밑줄이 아닌 공백을 사용) 둘 중 하나를 사용할 수 있다. 나는 보통 둘을 동시에 사용하며, 대체로 일관된 문장을 구성하면서도 실제 존재하는 태그 단어와 문구를 많이 포함한다. 다양한 예시는 샘플 갤러리에서 확인할 수 있다. 해상도 측면에서, 나는 이 모델을 사용할 때 768x768 이하로 내리는 것이 완전히 무의미하다고 생각한다(모든 훈련이 1024픽셀에서 다운스케일링이나 크롭 없이 이루어졌기 때문이다).
개인적으로 나는 이 모델로 1024x768 또는 768x1024 이하의 해상도로 생성하지 않는다. 비정사각형 이미지를 생성할 때는 일반적으로 1216x832와 832x1216을 사용한다. 정사각형 이미지의 경우 나는 항상 1024x1024를 사용한다. 다시 말하지만, 이 모델이 어떤 일을 할 수 있는지 더 잘 이해하려면, 샘플 이미지를 원래 해상도로 다운로드하여 전체 메타데이터를 확인하라. 이 모델은 몇 가지 덜 일반적인 “이국적인” 종횡비/해상도로도 훈련되었다.
또한 2D 스타일 이미지를 프롬프트할 때, 이 모델은 “by whoever” 형식의 많은 아티스트 태그를 인식한다(일부는 더 강력함). 따라서 마음에 드는 아티스트가 있다면 그냥 시도해보라.
팁: 보통 리얼리즘을 목표로 한다면 SDE 샘플러가 이 모델에 더 나은 결과를 제공한다. 나는 개인적으로 DPM++ 3M SDE GPU Exponential을 CFG 약 4.0–4.5에서 선호한다. 그러나 덜 리얼한 스타일의 경우, Euler Ancestral(혹은 가끔 DPM++ 2M Karras)을 CFG 약 7.0에서 시도해보는 것도 좋다.
“ masterpiece, best quality, high quality, worst quality” 같은 키워드는 이 모델에 존재하는가?
네, 존재하지만, 전체 프롬프트가 리얼리즘 또는 반리얼리즘을 목표로 할 경우 이 키워드의 영향은 매우 작다. 이 키워드들은 특히 2D 스타일 이미지에서 가장 뚜렷한 영향을 미친다. 그러나 detailed background와 simple background는 모든 종류의 이미지에 예상한 대로 효과를 발휘한다.
V7.0 Eta 세부사항:
리얼리즘과 프롬프트 준수도가 이전 어느 버전보다도 최고 수준이다. 이 버전에 매우 만족한다. VAE는 항상 내장되어 있다.
V6.5 Zeta Plus 세부사항:
아직 Zootvision V7 Eta가 의도한 수준은 아니지만, 몇 가지 좋고 미세한 개선점이 있다. 이번에는 샘플 갤러리의 이미지에서 모델의 실제 깊이를 좀 더 강조하려고 했다. VAE는 항상 내장되어 있다.
V6.0 Zeta 세부사항:
사실상 모든 것이 개선되었다. 내가 댓글에서 말한 내용을 모두 구현했고, 그 이상도 추가했다. 이 모델이 실제로 할 수 있는 것을 좀 더 보여주기 위해 몇 가지 꽤 독특한 샘플 생성을 했다, 하하. VAE는 항상 내장되어 있다. 이 모델은 내가 이전에 언급한 특정 태그뿐만 아니라, 매우 많은 by whoever 보루 형식 아티스트 태그를 알고 있다는 것을 잊지 말라!
V5.0 Epsilon 세부사항:
v4.0 Delta에 비해 다양한 주제(모든 사진실재성, NSFW, 애니메이션을 최소한 일부 개선)에 대해 추가로 10,000 스텝 훈련했다. 이번 버전은 Ideogram 스타일 데이터셋을 도입했으며, 프롬프트에 ‘by ideogram’을 사용하면 트리거된다. 몇 가지 예시는 샘플 갤러리에서 볼 수 있다. Delta보다 훨씬 나은 개선이라고 생각하며, 즐겁게 사용하시길 바란다. VAE는 항상 내장되어 있다.
V4.0 Delta 세부사항:
두 개의 추가 데이터셋이 병합되었다(사람과 장소의 사진 품질 향상을 위한 하나, 실험적인 “어려운 프롬프트” 풍부한 캡셔닝을 위한 하나). 모두 V3.0 Gamma에 대해 총 9040 스텝 훈련되었다. VAE는 항상 내장되어 있다. 새 사진 데이터셋의 모든 이미지는 모델이 이미 가지고 있던 photo \(medium\) 태그 이해를 바탕으로 하기 위해 photo \(medium\) 태그를 적용했다. 이 버전이 지금까지 가장 뛰어난 버전이며, 즐겁게 사용하시길 바란다!
V3.0 Gamma 세부사항:
1000장의 “미학적” 데이터셋이 병합되었다(V2.0 Beta에 대해 10,000 스텝 훈련). 이 데이터셋은 프롬프트 어디에서든 very aesthetic라는 문구를 사용하면 선택적으로 강화할 수 있다. 이 버전은 항상 VAE가 내장되어 있다.
V2.0 Beta 세부사항:
1000장의 “NSFW Enhancer” 데이터셋과 병합되었다(V1.0 Alpha에 대해 10,000 스텝 훈련). 모든 이미지는 최소한 한 쪽이 1024픽셀 이상이었고, 최대 1216픽셀(832x1216 세로 / 1216x832 가로 XL 스타일 이미지가 꽤 있었다)이었다.
V1.0 Alpha 세부사항:
아름다운 풍경에서부터 보루 태그 기반의 강렬한 NSFW까지, 진정한 일반-purpose 고해상도 SD 1.5 모델을 만들려는(완성되지 않은) 내 시도이다.
현재 상태로 CivitAI에 업로드하는 목적은, 이 모델에 추가로 학습하고 병합할 몇 개의 1000장 데이터셋을 CivitAI의 LoRA 트레이너를 사용해 훈련하기 위함이다. 원한다면 지금이라도 사용해보라(예: 샘플 갤러리에서 Jinx와 같은 캐릭터를 알고 있음). 하지만 이후 버전이나 최종 버전과는 상대적으로 다른 결과를 기대해야 한다.
일반적(항상 관련된) 세부사항:
이 모델에 대해 Clip Skip 2가 항상 “정확하다”고 단정하지 마라. 이 모델은 전통적으로 NAI에서 유래된 것이 아니다. 실제로 내가 테스트한 결과, 특정 시드를 사용했을 때 원하는 프롬프트에 살짝 못 미친다면, Clip Skip 1 또는 2 중 하나를 시도해보는 것이 좋다. 두 가지 모두 상황에 따라 좋은 결과를 제공한다.



















