AnySomniumXL
세부 정보
파일 다운로드
이 버전에 대해
모델 설명
[Proudly introducing, AnySomniumXL v3, an SDXL Model]
Ko-Fi에서 저를 지원해주세요.
이 SDXL 모델은 2D(만화풍) 스타일을 학습한 것으로, 기본 SDXL 모델(SDXL Base v1.0)을 기반으로 하며, 텍스트 인코더 학습을 통해 자연어로 2D 스타일을 생성하도록 트레이닝되었고, SDXL Base에 내재된 리얼리스틱한 스타일은 거의 생성하지 않습니다.
이 모델은 수십만 장의 다양한 출처에서 선별된 133,000장 이상의 이미지를 기반으로 학습되었습니다. 데이터셋은 미적 점수가 최소 17점 이상, 최대 50점 이하인 이미지만을 저장하여 구성되었습니다(만화풍을 유지하고 너무 리얼리스틱해지지 않기 위해). 이 점수 척도는 저희가 개발한 고유한 미적 평가 메커니즘을 기반으로 합니다. 또한, 서명이나 코믹/만화 이미지와 같은 텍스트나 워터마크가 포함된 이미지는 제외되었습니다. 따라서 미적 점수가 17점 미만이거나 50점 초과인 이미지, 또는 워터마크나 텍스트가 포함된 이미지는 모두 제거됩니다.
AnySomniumXL v3 기술 사양:
1 에포크당 학습: 16 에포크 (AnySomniumXL에서 16 에포크 사용 결과)
고유 멀티모달 LLM에 의해 캡션 생성 (LLaVA보다 우수)
버킷 크기 1280x1280으로 학습
캡션 셔플: 사용
Clip Skip: 2
NVIDIA A100 80GB 2대 사용하여 학습
이 데이터셋을 생성하는 기술은 christophschuhmann의 CLIP 모델과 MLP 점수 방법을 기반으로 하며, 저희가 수정하여 VIT-L/14를 사용해 -1에서 100까지의 미적 점수를 산출하고, 저희가 추가한 워터마크 감지 기능을 통합하여 개선했습니다.
성과:
✓ 과도한 부정 또는 긍정 프롬프트 없이 기본적으로 더 많은 2D 모델을 자연어로 생성
✓ adetailer 또는 inpainting 없이 평균 Stable Diffusion 모델보다 손가락 생성 품질이 우수
✓ 부정 프롬프트 없이 더 진짜 같은 2D 모델 생성
✓ 임의의 워터마크나 텍스트를 생성하지 않음
제한 사항:
✓ 무기나 물건을 정확하게 들고 있는 캐릭터 생성에 약간의 어려움 존재
✓ 더 넓은 데이터셋 학습이 여전히 필요
✓ 텍스트 인코더에 아직 일부 간극 존재. 개선 여지 있음
✓ 텍스트를 정확히 생성할 수 없음
✓ 이 모델은 인간 또는 변형된 인간 생성에 최적화됨. SCP, 폰이, 비인간 캐릭터 등은 기대한 결과를 얻기 어려울 수 있음
AnySomniumXL v3 추천 팁:
AnySomniumXL v3은 1280x1280 해상도로 학습되었으므로, 많은 면에서 일반 SDXL 모델과 해상도 비율이 다를 수 있습니다.
최적 해상도 (가로/세로 방향에 따라 해상도 숫자를 바꿔 사용 가능):
1280x1280
1472x1088
1152x1408
1536x1024
1856x832
1024x1600
향후 더 넓은 데이터셋과 학습된 텍스트 인코더를 기반으로 더 많은 버전이 출시될 예정입니다. 저희 목표는 학습용으로 가장 클린하고 방대한 데이터셋을 제공하는 것입니다. 이 모델은 Automatic1111 WebUI 사용을 권장합니다.









