NovelAI_Diffusion_V2
세부 정보
파일 다운로드
이 버전에 대해
모델 설명
이것은 NovelAI에서 출시한 novelai_v2 모델로, safetensors 형식으로 변환되었습니다. 출력 결과에 차이가 없습니다.
SD1.5를 기반으로 하므로 다운로드 후 즉시 추론에 사용할 수 있습니다. 자세한 내용은 다음 링크를 참조하세요.
https://blog.novelai.net/novelai-diffusion-v2-weights-release-b9d5fef5b9a4
이 모델은 오래된 것처럼 보일 수 있지만, 훈련 품질이 매우 뛰어납니다. 저희보다 항상 앞서나가고 있습니다. 태그 인식 능력은 v1보다 훨씬 뛰어나고 최근의 대규모 SDXL 세밀 조정과도 경쟁할 수 있습니다. 또한 U-Net만으로 학습되어 TE 오염이 전혀 없는 깨끗한 모델입니다.
이 모델은 T2I뿐 아니라 기존 SD1.5 모델과 병합하거나 I2I를 통해 다른 모델의 디테일과 스타일을 향상시키는 데도 유용합니다.
■ 이 모델은 SD1.5를 기반으로 하지만, 원본 해상도는 1024px로 고해상도 생성이 가능합니다.
VAE도 개선된 것으로 보이며, 이전 버전에서 발생하던 흐릿함 문제는 해결되었고 색상이 더 생동감 있게 나타납니다. 단순히 이 점만으로도 기존 SD1.5 애니메이션 모델에도 큰 도움이 될 것입니다.
또한 1024x1536px 해상도로 생성이 가능하며, 약간 불안정하지만 실용적입니다. 약 1344px에서 더 안정적일 수 있습니다.
제가 사용한 모든 샘플 이미지는 Hires fix를 사용하지 않고 1024x1536으로 생성했습니다.
결과는 생생하고 매우 선명합니다.
눈과 작은 액세서리와 같은 미세한 디테일도 뛰어나게 재현할 수 있습니다.
다른 모델과 병합해 사용해보는 것도 흥미로울 수 있습니다.
기존 512px 모델과 병합하면 768px 비율(예: 640x960)로 이미지를 생성할 수 있을 것입니다.
이 모델을 사용할 때는 CLIP skip2로 설정해 주세요.
■ 현재 Civitai의 SD1.5 이미지 생성은 512px로 제한되어 있습니다. 1024px 지원을 요청했지만, 추가될지 불확실합니다. Civitai를 이용해 추론을 원하시는 분들께 죄송합니다.
https://feedback.civitai.com/p/please-consider-adding-768px-and-1024px-resolution-options-for-image
이 요청에 좋아요를 눌러주시면 도움이 됩니다. 더 많은 지지가 중요성을 보여줄 것입니다.
■ 이 모델은 다양한 개념을 이해하고 태그 프롬프트에 잘 반응합니다.
U-Net만으로 학습되었기 때문에 깨끗하며 세밀 조정의 훌륭한 기반입니다.
이미 많은 개념을 알고 있으므로 텍스트 인코더 학습이 꼭 필요하지 않을 수도 있습니다.
현재 1536px에서는 캐릭터가 분리될 수 있으나, 1280px 또는 1536px에서 LoRA를 학습하면 안정성이 향상될 수 있습니다.
■ ComfyUI 추론 워크플로우를 준비했습니다. 참고로 사용해 주세요.
Tipo와 와일드카드를 사용한 워크플로우가 권장되며, 이 방식을 사용하면 태그를 직접 작성하지 않고도 다양한 변형을 시도할 수 있습니다.
저 역시 이 모델을 완전히 이해하지 못했으므로, 더 나은 이미지 생성 방법이 분명히 존재할 것입니다.
■ 고해상도 추론이 느리다면 HyperLoRA를 사용해 스텝 수를 줄일 수 있습니다.
사용법에 익숙하지는 않지만, 참고용으로 워크플로우를 추가했습니다.
더 나은 워크플로우나 속도 향상 방법이 있다면 알려주세요.
https://huggingface.co/ByteDance/Hyper-SD/blob/main/Hyper-SD15-8steps-CFG-lora.safetensors
■ SDXL에서 사용한 기본 해상도 비율을 그대로 사용하는 것이 좋습니다. 약간의 불안정을 감수한다면 1024x1536도 가능합니다.
1024x1024
896x1152
832x1216
768x1344
640x1536
■ 아직 초기 테스트 단계이며 품질이 완벽하지는 않지만, 1024x1536 생성을 안정화하기 위한 DoRA를 만들었습니다.
추후 테스트를 계속 진행하여 시간이 나면 업데이트하겠습니다.
제가 생각하기에 고해상도 이외에도, LoRA는 과노출과 과포화를 줄여 이미지를 더 균형 있게 만드는 데 도움을 주므로 스타일 LoRA를 만드는 것이 좋습니다.
/model/1253884?modelVersionId=2133885
■ 품질 안정화를 돕기 위해 네거티브 TI를 만들었습니다. 자유롭게 사용해 주세요.
/model/1809022?modelVersionId=2047219
■ 또한 반실사 스타일의 DoRA도 제작했습니다.
/model/1253884?modelVersionId=2134238
■ 제가 추천하는 샘플러:
・euler_ancestral: 가장 안정적이고 파손될 가능성이 가장 낮지만, 결과는 평균적입니다.
・dpmpp_sde: 텍스처와 안정성의 완벽한 균형을 제공합니다. 다른 샘플러보다 느리지만 스텝 수는 절반으로 줄어듭니다. 2m/3m보다 선호합니다.
・2m/3m: 다른 샘플러와 동일한 스텝 수가 필요하며, 스텝이 적으면 파손될 수 있습니다.
・gradient_estimation: euler과 유사하지만 수렴이 빠르며, 낮은 스텝에서도 안정적입니다.
저는 "simple" 스케줄러를 선호합니다.
"GITS 스케줄러"는 선명하고 세련되며 생동감이 있으며, 속도가 빠르고 수렴이 빠릅니다. 그러나 설정 변화에 민감해 불안정한 설정은 문제를 일으킬 수 있습니다. 손과 해부학적 구조가 파손되기 쉬우며, 결과가 저하되면 설정을 조정하거나 일반 스케줄러로 되돌리세요.
■ Uncondzero를 추천합니다. 약간의 속도 향상과 autocfg 효과를 통해 생성 안정성을 높여줍니다.
https://github.com/Extraltodeus/Uncond-Zero-for-ComfyUI
■ 태그 순서
"1boy, 1girl, characters, series, 기타 일반 태그..."
그러나 공식 설명의 대부분은 v3 이후 버전을 기준으로 하므로 v2에는 적용되지 않을 수 있습니다. 스스로 이해하기 쉬운 순서를 사용하는 것이 좋습니다.
novelai_v1 방식이 때로는 더 나은 결과를 낼 수도 있으며, 오히려 더 정확할 수 있습니다.
품질 태그의 순서는 다소 불명확하지만, 공식 V2 모델 예시에서는 품질 태그가 시작부분에 위치합니다. v3 이후에는 끝부분에 추가됩니다. 제가 잘못 알고 있다면 알려주세요.
실제로 태그 순서는 강도와 주요 주제를 결정합니다.
간단한 프롬프트의 경우, 품질 태그를 먼저 두면 고품질 결과를 얻기 쉬워집니다.
자세한 프롬프트의 경우, 품질, 메타데이터, 등급 태그가 원치 않는 요소를 도입할 수 있으므로 끝에 두는 것이 간섭을 피하는 데 도움이 될 수 있습니다. 아마도...
모델이 인식하는 태그를 확인하려면, 가장 신뢰할 수 있는 방법은 실제 NovelAI 웹사이트에서 이미지를 생성할 때 나타나는 추천 태그를 확인하는 것입니다.
■ 새 고유 태그 목록 (블로그는 다른 태그에 언급하지 않았지만, 나머지는 nai_v1과 동일할 가능성이 높습니다.)
여기에서도 유용한 정보를 찾을 수 있습니다.
https://docs.novelai.net/image/tags.html
https://docs.novelai.net/image/qualitytags.html
■ 품질 태그
best quality
amazing quality
great quality
normal quality
bad quality
worst quality
■ 미적 태그
very aesthetic
aesthetic
displeasing
very displeasing
■ 연도 태그
year 2022 등...
Danbooru 데이터셋 경향으로 인해 2020년 이후 이미지는 일반적으로 품질이 높습니다. 특히 2022년 이후가 그렇습니다.
2018년 이전 이미지는 전문가가 아닌 경우 품질이 불균형합니다. 어떤 연도 태그가 효과적인지 예측하는 가장 좋은 방법은 Danbooru 사이트의 이미지 트렌드를 확인하는 것입니다.
이 모델은 2023년 말에 학습되었으므로 그 이후 태그는 작동하지 않을 수 있습니다. 2023 태그는 비교적 잘 작동하지만 신뢰도는 낮습니다. 2022년 이전 태그는 안전합니다.
개인적으로, 2014년 같은 오래된 스타일에 연도 태그를 사용하면 효과가 있었습니다.
최근 연도는 큰 이점을 주지 못했습니다. 가끔 분위기를 좋게 만들었지만, 흑백 이미지나 텍스트 아티팩트를 유발하는 경우가 많았습니다.
year 2020과 year 2021은 비교적 나았습니다.
특정 연도의 스타일을 원하지 않는다면, 연도 태그를 품질 지표로 사용하지 않는 것이 더 안정적입니다.
■ 등급 태그
rating:general
rating:sensitive
rating:questionable
rating:explicit
NSFW (대소문자 구분 없이 동일한 결과를 보입니다.)
novelai_v2의 경우 "rating:"을 붙이는 것이 올바른지 불명확합니다.
붙였을 때와 안 붙였을 때 모두 테스트해 보았지만, 확실한 결론을 내리지 못했습니다.
■ 이름이 변경된 태그
v는 peace sign으로 표기해야 합니다
double v는 double peace로 표기해야 합니다
|_|는 bar eyes로 표기해야 합니다
\||/는 open \m/로 표기해야 합니다
:|는 neutral face로 표기해야 합니다
;|는 neutral face로 표기해야 합니다
eyepatch bikini는 square bikini로 표기해야 합니다
tachi-e는 character image로 표기해야 합니다




















