ECLIPSE XL

세부 정보

파일 다운로드

모델 설명

설명 하단에 변경 사항 로그. 요약하면, V1은 V1.3(테스트)보다 우수합니다.

Eclipse XL v1.0은 63,000장의 이미지로 미세 조정된 모델로, 고화질 기반 애니메이션 XL 모델을 생성하는 것을 목표로 합니다. 이 프로젝트는 WasabiHecatonchirea가 공동으로 수행했습니다. 우리는 토큰 기반 접근 방식을 사용하여, 주로 Booru 기반 태그로 구성된 데이터셋에 몇 개의 추가적인 Rule34 태그와 원본 태그를 포함시켰습니다. 태그는 태그 편집 애플리케이션(HW tagger, github튜토리얼)을 사용해 정제하고 클린업했으며, 반자동으로 검토했습니다.

기술적으로 기본 모델은 Pony v6이며, 자연어 프롬프트와 Pony v6 기반 LoRA는 이 모델과 호환될 가능성이 높습니다(기술 섹션에서 설명한 이유로 Pony의 품질 태그는 사용하지 않는 것이 좋습니다). 우리는 생성을 더 정밀하게 제어하기 위해 조명(구성 태그), 새로운 품질 태그 및 다양한 기타 기능을 도입했습니다. 우리의 초점은 캐릭터나 스타일이 아닙니다. 왜냐하면 사람들은 이미 LoRA를 생성할 것이며, LoRA를 사용하면 더 나은 이미지를 얻을 수 있기 때문입니다.

이 프로젝트에는 여러 부가적인 목표가 있었는데, 조명 개선, 태그에 대한 민감도 향상, Pony의 지식 덮어쓰기, 태그와 연결된 스타일 분리, 일관적이고 유연한 스타일 달성, Pony처럼 스타일에 과도하게 집착하지 않도록 하는 것이 포함됩니다(기술 섹션에서 자세히 설명). 보다 심층적인 세부 사항은 기술 문서에서 제공할 예정입니다.

우리는 어떠한 자금이나 스폰서도 없이 운영되고 있으므로, 이 모델에 감사를 느낀다면 어떤 금액이라도 후원해 주시면 큰 도움이 됩니다. Patreon을 통해我们也 지원해 주실 수 있습니다.

이 유연한 모델은 SFW 및 NSFW 이미지를 모두 생성할 수 있습니다. 책임감 있게 사용해 주세요. XL 모델을 실행할 수 없고 SD Forge를 모르신다면, XL 모델을 더 효율적으로 실행할 수 있도록 꼭 확인해 보시기 바랍니다. 또한 관련 기술 문서를 확인해 주세요. 이 문서에는 본 모델에서 사용된 태그의 csv 파일이 포함되어 있어, 웹UI 태그 자동완성 확장 프로그램에 직접 적용할 수 있습니다.

사용 방법:

권장 시작 프롬프트:

긍정적 프롬프트 [기타 태그 기반 모델과 동일한 방식]:

masterpiece, best, great, ...

부정적 프롬프트(긴 부정 프롬프트는 불필요):

worst, worse, average, signature, watermark

권장 해상도 및 프롬프팅 방법:

(768, 1280), 3:5 비율
(768, 1344), 4:7 비율
(832, 1216), 13:19 비율
(896, 1152), 7:9 비율
(960, 1088), 15:17 비율
(1024, 1024), 정사각형 비율

CFG는 5~8 사이, 샘플링 스텝은 20 이상을 권장합니다(우리는 36단계 사용). CLIP SKIP 1을 사용하세요. (Pony는 2를 사용하라고 하지만, kohya에서 XL 학습 시 CLIP SKIP은 비활성화되어 있어 2를 사용하는 것은 의미가 없습니다. 사용자들은 SD 1.5 경험으로 인해 자기를 속이고 있을 가능성이 높습니다.)

특수 태그 정보:

우리는 XL 모델 내부의 텍스트 인코더 모델(Vit 및 BIG)이 이해하는(또는 이해하지 못하는) 의미를 기반으로 새로운 태그를 도입했습니다. 대부분의 새로운 토큰은 1~2토큰 길이로, 학습 과정에서 정보가 더 잘 흡수됩니다.

품질 태그:

masterpiece, best, great, good, average, worse, worst

품질 태그는 imgutils의 미적 평가기로 부여했으며, 그 편향을 인지하고 수동으로 수정했습니다. 비록 완벽하지 않지만, 다른 옵션보다 나으므로 이를 선택했습니다. 자세한 내용은 기술 세부사항 문서를 참고하세요.

추가 디테일 태그:

dense, intricate

이 태그는 상세한 부분이나 요소가 많은 이미지에 추가되었습니다. 일부 이미지에는 둘 다 적용되었습니다:

  • intricate : 객체/피사체의 디테일이 조밀하게 배열되어 단순한 디자인이 아닌 경우 (예: 란제리, 복잡한 드레스, 디자인된 갑옷 장식, 여러 액세서리 등)

  • dense : 여러 객체/피사체가 존재하여 이미지가 더 조밀하게 구성된 경우

조명 태그:

dim composition, ambient composition, dun composition, dark composition, contrast composition, bright composition, vibrant composition, dark background

이 태그들은 기본 조명에는 필요하지 않지만, 매우 극단적인 조명이나 어두움을 가진 이미지에 추가되었습니다. 학습 시 태그링을 일관되게 유지하기 위해 아래 정의를 따랐습니다. 생성 시 혼합하여 흥미로운 효과를 얻을 수 있습니다:

  • dim composition : 어두우나 시각적으로 완전히 보이는 이미지이며, 여러 개의 조명 소스가 존재

  • ambient composition : 어두우나 시각적으로 완전히 보이는 이미지이며, 단일 조명 소스만 존재

  • dun composition : 어두우나 시각적으로 완전히 보이는 이미지이며, 확산된 빛이 존재하고 명확한 조명 소스는 없음

  • dark composition : 완전히 어두워서 빛이 없고, 거의 검정색에 가까운 이미지

  • contrast composition : 이미지 내 어두운 부분과 밝은 부분이 모두 존재하며, 이 둘은 반드시 조화를 이루지 않아도 됨 (예: 천국과 지옥, 낮과 밤, 또는 큰 그림자)

  • bright composition : 매우 밝고 강한 하이라이트를 가진 이미지 (흰색에 가까운 하이라이트)

  • vibrant composition : 대부분의 이미지에서 높은 강도(채도)의 색상을 가진 이미지로, 조명 소스와 무관함

스타일 태그:

illustration style, western style, anime coloring, realistic, photorealistic, bold lines, 3d, 3d blender, 3d koikatsu, 3d mmd, 3d filmmaker

이 태그들은 기본 모델에서 원하지 않는 스타일을 흡수하기 위해 도입되었습니다. 또한 데이터셋 내에 존재하는 특정 스타일을 표시하여 주요 스타일과 구분했습니다(기술 세부사항에 목록 있음). 생성 결과가 기본 스타일에서 벗어나면 부정 프롬프트에 "3d" 및 "western style" 등 태그를 포함하세요. 기본 Pony의 지식이 때때로 누출되나, 우리는 추가로 발견되는 학습되지 않은 태그들을 문서화하고 수정할 계획입니다.

  • illustration style : 기본적인 셰이딩만 사용한 애니메이션 스타일 이미지 (그라데이션 사용 거의 없음)

  • western style : 기본 스타일과 일치하지 않는 모든 서양 스타일 이미지

  • anime coloring : 애니메이션 색상이 적용된 이미지

  • realistic/photorealistic : 이 모델은 이를 목적으로 하지 않지만, 하이퍼리얼리즘 일러스트나 사진처럼 보이는 이미지에 사용. Danbooru 정의 따름

  • bold lines : 서양 스타일과 일부 일러스트에서 흔히 사용. 두꺼운 선이 특징인 이미지에 적용

  • 3d : "3d" 태그만 붙은 이미지는 아래 범주에 속하지 않는 3D 이미지

    • 3d blender : Blender로 제작된 3D 이미지

    • 3d mmd : MMD로 제작된 3D 이미지

    • 3d koikatsu : Koikatsu로 제작된 3D 이미지

    • 3d filmmaker : 3D Filmmaker로 제작된 3D 이미지

번역된 태그:

완벽한 세계가 아니라 모든 토큰이 개념 누출 없이 정확히 학습되지 않기 때문에, 우리는 일부 태그를 수정하여 정확하게 학습할 수 있도록 조정했습니다. 이유와 번역된 태그 목록은 기술 세부사항 문서에 있습니다. 몇 가지 예시:

  • "torii" → "red torii"와 "stone torii"로 분리

  • "clothed nude " → "nude "와 "clothed "로 분리하여 개별 개념으로 더 잘 흡수

알려진 문제:

일부 태그는 그대로 남아 있거나 현재 모델로는 충분히 학습되지 않아 기본 Pony의 지식이 발현될 수 있습니다(예: "bimbo" 및 데이터셋에 없는 기타 미세 태그). 향후 버전에서 이러한 개념을 포함한 이미지를 추가하여 기본 지식을 덮어쓸 계획입니다. 기본 Pony 모델에서의 가짜 서명 문제는 우리 모델에서 약화되었지만 여전히 존재합니다. 우리는 강력한 브루트 포스와 누출 방지 전략을 조합하여 이를 해결할 것으로 기대합니다.

버전 이력 및 기대사항:

버전 이력:

  • Eclipse XL v2: 준비 중

  • Eclipse XL 1.3: Te2의 학습률을 훨씬 낮춤. 일부 Pony 지식이 유지되었으나, V1에 비해 약간 미완성된 느낌이 있음 (2024년 6월 29일 공개)

  • Eclipse XL 1.1 및 1.2: 새로운 설정값 테스트 및 개념 퇴화 방지 방법 실험 (편집: 품질이 저하되어 중간에 학습 중단)

  • Eclipse XL v1 (2024년 5월 31일 공개): 프로젝트의 Phase 0 ~ Phase 2를 포함하며, 최종 설정 사용

  • 베타 버전 (명칭 없음): Phase 0 및 Phase 1 데이터셋, 설정 테스트

Eclipse XL v2는 다음을 포함하는 Phase 3 데이터셋을 포함할 예정입니다:

  • 무기(검, 총 등)

  • 더 많은 판타지 인종, 퓨리 및 비퓨리, 로봇(Gundam 등)

  • 더 많은 각도

현재 추가할 긴 개념 목록이 있으며, 현재 버전에서 작동하지 않는 부분에 대한 피드백을 받아 우선순위에 따라 목록에 추가할 예정입니다.

기대하지 마세요:

  • 우리는 좋은 "기반" 모델을 만들고자 하므로, 작고 제한된 팬덤 내에서만 존재하는 모든 내용은 목록에 포함되지 않습니다.

  • 소규모 애니메이션에서 나온 임의의 캐릭터를 지원하는 것은 중요하지 않습니다. Mudae에 나열된 모든 캐릭터를 학습한다고 상상해보세요. 캐릭터당 약 50장의 이미지 × 110,000명의 캐릭터 = 약 550만 장의 이미지. 이는 LoRA 제작자들이 하거나 Pony v7을 기대해야 할 작업입니다.

  • 임의의 영화 참조도 마찬가지입니다. 필요한 데이터셋 크기는 쉽게 누적되며, 이는 LoRA에 더 적합한 작업입니다.

버전 로그:

현재 최고의 모델: Eclipse V1

현재 테스트 버전: V1.3, 학습률 및 스케줄러 등을 테스트 중

감사의 말:

작성자: Wasabiya, Hecatonchirea

테스터: Nebuchadnezzar 및 기타 익명의 사람들

초기 개발을 도와준 AnzhcShippy에게 감사드립니다. deepGHS의 파이썬 라이브러리와 모델에 도움을 주신 분들께도 감사드립니다. 그리고 이 프로젝트의 형성에 참여하거나 도움을 주신 모든 익명의 분들께 진심으로 감사드립니다.

라이선스:

이 모델은 수정된 Fair AI Public License 1.0-SD (https://freedevproject.org/faipl-1.0-sd/) 라이선스 하에 배포됩니다. Pony v6을 시작점으로 사용했기 때문에, 다음 수정 사항이 적용됩니다: 본 모델을 웹사이트나 응용 프로그램에서 수익화(유료 추론, 더 빠른 등급 등)를 허용하는 환경에서 추론을 실행할 수 없습니다. 이 제한은 모든 파생 모델 또는 모델 병합에도 적용됩니다.

이 설명문은 초안입니다. 오류 발견 시 또는 더 명확한 설명이 필요할 경우 업데이트할 예정입니다.

최종 수정: 2024년 6월 29일

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.