AnySomniumXL

세부 정보

파일 다운로드

모델 설명

[Proudly introducing, AnySomniumXL v3, an SDXL Model]

Ko-Fi에서 저를 지원해주세요.

이 SDXL 모델은 2D(만화풍) 스타일을 학습한 것으로, 기본 SDXL 모델(SDXL Base v1.0)을 기반으로 하며, 텍스트 인코더 학습을 통해 자연어로 2D 스타일을 생성하도록 트레이닝되었고, SDXL Base에 내재된 리얼리스틱한 스타일은 거의 생성하지 않습니다.

이 모델은 수십만 장의 다양한 출처에서 선별된 133,000장 이상의 이미지를 기반으로 학습되었습니다. 데이터셋은 미적 점수가 최소 17점 이상, 최대 50점 이하인 이미지만을 저장하여 구성되었습니다(만화풍을 유지하고 너무 리얼리스틱해지지 않기 위해). 이 점수 척도는 저희가 개발한 고유한 미적 평가 메커니즘을 기반으로 합니다. 또한, 서명이나 코믹/만화 이미지와 같은 텍스트나 워터마크가 포함된 이미지는 제외되었습니다. 따라서 미적 점수가 17점 미만이거나 50점 초과인 이미지, 또는 워터마크나 텍스트가 포함된 이미지는 모두 제거됩니다.

AnySomniumXL v3 기술 사양:

  • 1 에포크당 학습: 16 에포크 (AnySomniumXL에서 16 에포크 사용 결과)

  • 고유 멀티모달 LLM에 의해 캡션 생성 (LLaVA보다 우수)

  • 버킷 크기 1280x1280으로 학습

  • 캡션 셔플: 사용

  • Clip Skip: 2

  • NVIDIA A100 80GB 2대 사용하여 학습

이 데이터셋을 생성하는 기술은 christophschuhmann의 CLIP 모델과 MLP 점수 방법을 기반으로 하며, 저희가 수정하여 VIT-L/14를 사용해 -1에서 100까지의 미적 점수를 산출하고, 저희가 추가한 워터마크 감지 기능을 통합하여 개선했습니다.

성과:

✓ 과도한 부정 또는 긍정 프롬프트 없이 기본적으로 더 많은 2D 모델을 자연어로 생성

✓ adetailer 또는 inpainting 없이 평균 Stable Diffusion 모델보다 손가락 생성 품질이 우수

✓ 부정 프롬프트 없이 더 진짜 같은 2D 모델 생성

✓ 임의의 워터마크나 텍스트를 생성하지 않음

제한 사항:

✓ 무기나 물건을 정확하게 들고 있는 캐릭터 생성에 약간의 어려움 존재

✓ 더 넓은 데이터셋 학습이 여전히 필요

✓ 텍스트 인코더에 아직 일부 간극 존재. 개선 여지 있음

✓ 텍스트를 정확히 생성할 수 없음

✓ 이 모델은 인간 또는 변형된 인간 생성에 최적화됨. SCP, 폰이, 비인간 캐릭터 등은 기대한 결과를 얻기 어려울 수 있음

AnySomniumXL v3 추천 팁:

AnySomniumXL v3은 1280x1280 해상도로 학습되었으므로, 많은 면에서 일반 SDXL 모델과 해상도 비율이 다를 수 있습니다.

최적 해상도 (가로/세로 방향에 따라 해상도 숫자를 바꿔 사용 가능):

  • 1280x1280

  • 1472x1088

  • 1152x1408

  • 1536x1024

  • 1856x832

  • 1024x1600

향후 더 넓은 데이터셋과 학습된 텍스트 인코더를 기반으로 더 많은 버전이 출시될 예정입니다. 저희 목표는 학습용으로 가장 클린하고 방대한 데이터셋을 제공하는 것입니다. 이 모델은 Automatic1111 WebUI 사용을 권장합니다.

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.