NatViS: Natural Vision

세부 정보

파일 다운로드

모델 설명

설명을 꼭 읽어주세요

NatViS(Natural Vision)은 SDXL의 사진처럼 사실적인 전체 파라미터 미세 조정 모델로, 자연어 프롬프트를 사용하여 고품질의 SFW/NSFW 이미지를 생성합니다. 이 모델은 1년 이상 확장되고 정제된 데이터셋에서 1백만 개 이상의 이미지-캡션 쌍으로 학습되었습니다.

v3.0은 다양한 프롬프트 스타일에서 텍스트-이미지 정렬을 향상시키고 지식 도메인을 확장하기 위해 완전히 재구축 중입니다.

현재 v3.0 상태: 데이터 확보

현재 저는 여가 시간에만 업데이트 작업을 진행하고 있으므로, 공식 릴리즈 일정은 없습니다.

피드백 및 제안은 아래 Ko-Fi에 메시지를 보내주세요. 이메일과 공개 디스코드는 곧 오픈됩니다!


저에게 커피 한 잔 사주세요 ❤

https://ko-fi.com/ndimensional

저는 이메일을 통한 요청을 좋아하지 않지만, 이 규모의 SDXL 미세 조정은 점점 비싸워지고 있습니다. 그래서 마지못해 요청드립니다. 제가 만든 모델을 좋아하시고 지원하고 싶으시다면, Ko-Fi에서 기부를 고려해 주세요 💗
기부자분들께는 업데이트를 공유하고, 질문에 답변하며, 피드백을 수렴하고, 조기 접근(비독점) 모델을 제공할 예정입니다.

모든 기부금은 새로운 Stable Diffusion 미세 조정 모델 및 오픈소스 AI 도구 개발에 사용됩니다.


변경 사항

============

11-24-24 NatViS v2.7 Hyper 4Step 및 4step Lightning 링크 (🤗)

  • NatViS v2.7의 4단계 Hyper 변형을 업로드했습니다. 자세한 내용은 _이 버전에 대하여_를 참조하세요.

  • Lightning: 현재 v2.7의 4단계 Lightning 변형은 여기에서 사용 가능합니다. 8단계 _Lightning_은 작성일로부터 하루 이내에 업로드될 예정입니다.

  • 참고: 시간 제약으로 샘플 이미지가 제한되어 있습니다.

============

11-21-24 NatViS v2.7 Hyper 8step

  • 일관된 CFG를 적용한 NatViS v2.7의 8단계 Hyper 변형을 출시했습니다. 자세한 내용은 _이 버전에 대하여_를 참조하세요.

11-18-24 NatViS v2.7

  • 시간 제약으로 사전 출시 변경 사항은 현재 여기에서 확인 가능합니다.

  • 참고: 동일한 샘플 이미지를 반복 생성하는 데 지쳐, 몇 가지 새로운 프롬프트로 재미를 더했습니다. 이전 버전의 프롬프트는 v2.7에서도 정상 작동합니다. 시간이 나면 구 프롬프트로 생성된 이미지 전용 갤러리를 별도로 업로드할 예정입니다.

============

10-26-24 NatViS v2.5 Lightning 4step (비권장!):

  • NatViS 2.5의 4단계 Lightning 버전을 업로드했습니다.

  • 필요한 경우에만 사용하세요

============

10-25-24 NatViS v2.5 Lightning 8step

  • NatViS v2.5의 8단계 Lightning 버전을 출시했습니다. _이 버전에 대하여_를 읽어주세요.

    • 참고: 이전 8단계 Lightning 출시와 달리, 이 버전은 SDXL Lightning LoRA와 간단히 병합한 것입니다. 저 CFG를 원하는 요청에 대응하기 위함입니다.

      • Lightning의 특성을 완전히 이해하지 못해 샘플 이미지가 모델의 성능을 완벽히 반영하지 않을 수 있습니다.
    • 미세 조정에서 세밀한 특징을 더 잘 보존하는 것으로 보이는 FULL CFG 8단계 Lightning 버전도 곧 출시할 예정입니다.

============

10_23_24 NatViS v2.5

새로운 점은?

  • NatViS v2.5를 업로드했습니다.

    • v2.0에서 손상된 태그/부루 스타일 프롬프팅 기능을 복원하기 위한 텍스트 인코더 업데이트

    • 새로운(개선된) 데이터셋에서 단문 및 강력한 캡션을 가진 이미지-캡션 쌍을 부분적으로 포함

      • 새로운 데이터셋 정보(향후 모델/업데이트용): 다양한 캡션 스타일을 포함하고, 모든 자동화 프로세스는 인간(저)이 수동으로 검증합니다.
    • 더 진정성 있는 사실성을 위해 아날로그 사진 및 고전 영화적 이미지 데이터를 추가했습니다.

다음 계획은?

  • 일반: SD3.5 라이선스를 검토해 활용 가치를 판단 중.

    • 나쁘지 않습니다. 미세 조정/LoRA용 모델 아키텍처 연구를 시작하겠습니다.
  • 일반: Anti-Pony Alpha 모델 출시(애니메이션, 디지털 일러스트).

    • 사전에 밝히자면, Pony만큼 강력하지 않습니다. 이는 크라우드 펀딩을 위한 아이디어 관심도 테스트입니다.

    • 캐릭터 지식과 품질을 염두에 두고 훈련: 혁신적인 booru+ 태그 시스템과 자연어 프롬프팅, 여러 스타일/매체, 아티스트 지식, 무의미한 품질 랭킹 태그 없음, SDXL 호환(즉, 과적합되지 않고 깨지지 않음)

    • 더 자세한 정보는 곧 공개됩니다.

  • NatViS: NatViS v2.5용 Lightning 버전 출시.

    • 이번엔 더 효과적으로 진행했습니다.
  • NatViS: 마침내 PDF 가이드를 작성하고 출시할 계획입니다.

  • NatViS: v3.0의 미세 조정을 계속 진행합니다.

============

10_2_24 NatViS v2.0 Lightning 4step

  • v2.0용 4단계 Lightning 모델을 업로드했습니다.

============

10-1-24 NatViS v2.0 Lightning 8step

  • v2.0용 8단계 Lightning 모델을 업로드했습니다.

============

9-25-24 NatViS v2.0

새로운 점은?

  • 프롬프팅: 이 업데이트는 주로 텍스트 인코더에 초점을 맞췄습니다. 자연어 프롬프팅 능력이 더 느슨한 형식을 따르도록 개선되었으며, 특정 토큰에 대한 의존도가 줄어들었습니다.

  • 인종 및 민족: 다양한 인종 및 민족의 생체 형질 정확도가 향상되었습니다. 신체 구조뿐 아니라 옷, 머리카락, 풍경 등도 포함됩니다. 작은 예시는 여기에서 확인하세요.

  • 카메라 EXIF: 프롬프트에 포함할 수 있는 인기 있는 현대 및 아날로그 카메라의 EXIF 데이터를 포함했습니다. 카메라 이름, 초점 거리, 조리개, ISO, 셔터 속도, 렌즈 유형 등이 포함되며, ND 필터, 편광 필터 등 악세서리도 포함됩니다.

  • 아날로그: 아날로그 및 빈티지 사진 생성 품질이 개선되었습니다.

  • 조명 및 그림자: 장면 내 물체/주체에 대한 빛(또는 그에 따른) 상호작용을 프롬프트할 수 있도록 했습니다. 기타 일반적인 조명 관련 수정사항도 포함됩니다. 자세한 정보는 곧 제공됩니다.

  • 피부 텍스처: 피부 텍스처의 세부사항이 개선되었으며, 피부 세부정보와 관련된 명시적 토큰은 줄어들거나 아예 없습니다.

  • 의사명령어 구현: 이는 더 긴 설명이 필요합니다.

  • 남성 해부학 향상

  • 레즈비언 표현 추가

다음 계획은?

  • 향후 몇 일 이내에 Lightning 모델을 출시할 예정입니다.

  • 다음 주 내에 전체 PDF 가이드 및 문서를 제공할 예정입니다.

  • 다음 달 내에 v3.0 관련 정보를 공개할 예정입니다.

8/4/24 NatViS v1.0 Lightning 4step

  • v1.0의 4단계 Lightning 버전을 업로드했습니다(자세한 내용은 _이 버전에 대하여_를 참조하세요).

============

8/3/24 NatViS v1.0 Lightning 8step

  • v1.0의 8단계 Lightning 버전을 업로드했습니다(자세한 내용은 _이 버전에 대하여_를 참조하세요)

============

8/2/24 NatViS v1.0

  • 초판 출시

사용 팁

참고: 이는 단지 권장 사항일 뿐이며, 자유롭게 실험해 보세요.

프롬프팅

NatViS는 SDXL의 bigG 텍스트 인코더를 활용해 자연어 프롬프팅을 지원합니다.

자연어 프롬프팅이란?
Stable Diffusion v1.4 출시 이후, 사용자들은 시각적 설명 태그/문구를 콤마로 구분한 목록에 익숙해졌습니다. 이는 초기 Stable Diffusion 모델의 아키텍처와 텍스트 인코더 선택의 결과였습니다. SDXL의 이중 텍스트 인코더/토크나이저 아키텍처 덕분에, 더 자연스러운 설명형 프롬프트를 작성할 수 있습니다.

원하는 이미지를 단순히 사람이에게 설명하듯 묘사해 주세요.

예:
콤마 구분 목록: a woman, standing, outdoors, sun beams, dappled light, apple tree, wearing denim jeans, flannel shirt, brown hair, long hair, looking at viewer, highest quality, atmospheric, 35mm, masterpiece

자연어: A masterpiece, 35mm-style photo of a woman with long brown hair, standing outdoors in dappled sunlight beneath an apple tree. She wears denim jeans and a flannel shirt, gazing directly at the viewer with an atmospheric quality.

참고: 이것은 자연어 프롬프트 작성법을 보여주는 예일 뿐입니다. 더 나은 예시는 샘플 이미지를 참조하세요.

NatViS는 제가 말하는 모든 것을 이해할 수 있나요?
절대 아니요.
개인적으로 미세 조정할 수 있는 데이터 크기와 아키텍처의 한계로 인해, 모델이 원하는 결과를 생성하지 못하는 경우가 있습니다. 일반적으로 다른 표현 방식, 토큰 위치 조정(예: 문장이나 토큰을 프롬프트의 시작이나 끝에 가까이 배치), 충돌 가능한 토큰 제거 등을 실험해야 합니다. 이는 프롬프트마다 달라지므로 명확한 해결책은 없습니다. 안타깝게도 어떤 경우에도 해결책이 성공하지 않을 수 있습니다.

태그를 여전히 사용할 수 있나요?
간단히 말해:
SDXL의 이중 텍스트 인코더/토크나이저 아키텍처는 두 인코더에 동시에 토큰/시퀀스를 처리할 수 있으므로, 자연어 프롬프팅을 사용할 필요는 없습니다.

참고: 학습 데이터는 전부 자연어 설명으로 캡션화되었기 때문에, 일반적으로 사용되는 모든 설명 태그가 모델에 인식되지는 않습니다. 특히 Booru, Booru 스타일 태그가 그렇습니다.

많은 샘플 이미지에서 볼 수 있듯이 하이브리드 시스템이 잘 작동합니다.

예:
자연어 프롬프트를 시도했지만 결과를 더 영화적이고 싶다면, 전체 프롬프트를 수정하지 말고 끝에 cinematic lighting, harmonious, film still, ect..를 추가하기만 하면 됩니다.

품질 태그/분류기? (score_up_x)
이런 건 그르다.
원한다면 품질 랭킹/분류기를 사용할 수 있습니다. 하지만 이들은 학습 데이터에 포함되지 않았습니다.

네거티브 프롬프트
다른 SDXL 모델과 유사합니다. 콤마로 구분된 태그를 사용하고 간결하게 유지하세요. 필요에 따라 네거티브 프롬프트에서 토큰을 추가하거나 제거하세요.

생성 파라미터

CFG:

  • 권장: 5-7

  • 특정 스타일/매체를 강조하려면 7+

샘플러/샘플링 단계:
이것은 주관적이므로, 직접적인 권장보다 제가 보통 사용하는 설정을 공유하겠습니다.

  • 샘플러 - DPM++ 2M SDE

  • 스케줄러 - Karras

  • 단계 - 55

ADetailer: (확장 프로그램)
링크
마찬가지로 주관적이므로 제 설정을 공유합니다.

  • 모델 - mediapipe_face_full (사진적 사실성을 위해 mediapipe 사용)

  • 신뢰도 - 0.45

  • 나머지 기본값

CFG Rescale: (확장 프로그램)
링크
이 확장 프로그램이 설치되어 있는 것을 잊고 있었습니다. 이 매개변수가 노이즈 스케줄에 제로 터미널 SNR을 적용했는지 확신이 서지 않습니다. 매개변수가 null이었으므로 적용되지 않았을 것입니다.

  • Phi - 0

중요

정확한 시드와 파라미터를 사용해도 샘플 이미지를 재현할 수 없다면, 이는 노이즈 스케줄러 때문일 가능성이 높습니다. WebUI에서 이를 고정하는 기능을 활성화했지만, 이후 WebUI를 재설치하면서 다시 활성화하지 못했습니다. 이 문제는 NatViS v1에만 해당합니다.


학습 정보

할 일
이 내용을 정리하는 데 시간이 오래 걸릴 것입니다. 그 동안:
TLDR; 1백만 개 이상의 이미지, 개인 개발 중인 Dataset Toolkit을 통해 처리/정제, Multimodal Large Language Model (MLLM)을 사용한 캡션(부분은 Dataset Toolkit의 일환으로, GPT 아님). 학습 데이터, 구성, 커스텀 스크립트는 최종 버전 출시 시 공개될 예정입니다. Dataset Toolkit은 출시 일정이 아직 없습니다.


다른 모델도 확인해보세요

SDXL 체크포인트: https://civitai.com/collections/966964

SDXL LoRAs: https://civitai.com/collections/966969

40K 시리즈: https://civitai.com/collections/956187

SD1.5 체크포인트: https://civitai.com/collections/966974

SD1.5 LoRAs: https://civitai.com/collections/966972


TensorArt (v1)에서 실행


🤗Huggingface 저장소

🤗Huggingface 저장소 - Lightning

🤗Huggingface 저장소 - Hyper

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.