LHC
세부 정보
파일 다운로드
모델 설명
LHC(Large Heap o' Chuubas)는 모든 VTuber 생성 요구 사항을 위한 모델이 되는 것을 목표로 합니다. 다른 부수적인 목표로는 미적 요소, 배경, 해부학적 정확성 개선이 있지만, 주된 목표는 LoRA 없이 VTuber를 생성할 수 있는 옵션을 제공하는 것입니다.
Alpha V0.5
LHC v-pred v0.5는 NoobAI v-pred 1.0의 맞춤형 미세조정 버전입니다. 이미지 품질이 향상되었으며, NoobAI의 원래 예술가 지식을 거의 모두 유지하면서 VTuber에 대한 지식을 대폭 확장했습니다.
모든 VTuber가 동일한 수준으로 인식되는 것은 아닙니다. 일부는 추가 태그가 필요하거나 테스트 결과 잘 작동하지 않습니다. 태그 및 사용법에 대한 전체 캐릭터 목록은 여기에서 확인할 수 있습니다: https://huggingface.co/Jyrrata/LHC_XL/blob/main/alpha_v05/vtubers_valpha05.txt. 또한 모든 VTuber(ComfyUI 메타데이터 포함)의 예시 이미지 앨범은 여기에 준비되어 있습니다: https://catbox.moe/c/pjfwt1.
데이터셋 세부사항:
모든 VTuber는 분리되었으며, 이미지 수는 가능한 한 100을 목표로 80~120개 사이로 정규화되었습니다. 또한 다중 캐릭터 생성 능력을 훈련하기 위해 1000장의 여러 VTuber가 포함된 이미지도 추가되었습니다. 이로 인해 약 16,000장의 이미지로 구성된 데이터셋이 만들어졌습니다. 모든 이미지는 최소 1MP 이상으로 업스케일되었으며, JPEG 이미지는 웹툰의 압축 아티팩트를 제거하는 데 특화된 업스케일러를 사용해 정리되었습니다.
일부 VTuber는 아직 관련 태그가 없는 대량의 데이터가 필요했습니다. 이 경우 AI 태깅 모델을 사용하여 보조했습니다. 모든 이미지를 수작업으로 완전히 태그하고 싶었지만, 데이터셋의 규모가 현재 제가 처리할 수 있는 범위를 초과합니다.
훈련 세부사항
LHC v0.5는 데이터셋의 대규모 재구성 이후 파라미터에 대한 불확실성으로 인해 다양한 학습률과 배치 크기로 102 에포크 동안 훈련되었습니다. 일반적으로 Unet 학습률은 1.5e-5에서 5e-5 사이였고, TE 학습률은 4e-6에서 8e-6 사이였습니다. 코사인 스케줄러와 8~32 사이의 배치 크기를 사용했습니다. 텐서보드의 정확한 훈련 로그는 Hugging Face에서 확인할 수 있습니다.
훈련은 400시간 이상 소요되었으며, 160만 개 이상의 샘플을 처리했습니다.
Alpha V0.4
이전 버전들이 LoKR 방법을 사용한 것과 달리, v0.4는 Noob V-Pred 0.6의 전체 미세조정 버전입니다. 약 34만 개 이상의 샘플(80 에포크 동안 4,500장의 이미지)을 학습했으며, 훈련에 약 90시간이 소요되었고 이는 여러 실험을 포함하지 않은 시간입니다. 그럼에도 불구하고 예술가 및 개념에 대한 이해는 여전히 기본 모델과 매우 유사합니다.
캐릭터 목록은 여기에서 확인할 수 있습니다: https://huggingface.co/Jyrrata/LHC_XL/blob/main/characters/alpha04.txt. 일부는 캐릭터 태그만으로도 충분하지만, 일부는 추가 설명 태그가 필요합니다.
Lora 추출본은 여기에 있습니다: https://huggingface.co/Jyrrata/LHC_XL/blob/main/alpha/v04/lhc_04_extract.safetensors
훈련 세부사항
데이터셋:
약 3,500장의 이미지(반복 포함 4,500장)를 사용했습니다. 이는 총 약 350장의 이미지를 가진 3명의 아티스트, 다중 캐릭터 이미지 약 500장, 그리고 포함된 100명의 캐릭터 이미지 약 2,650장을 포함합니다.
반복은 각 캐릭터가 에포크당 30~50장의 이미지를 가지도록 선택되었습니다. 가능한 한 해상도가 1MP 이상인 고품질 PNG를 선택했습니다. 불가능한 경우 JPEG 아티팩트 제거에 특화된 업스케일링 모델을 사용해 이미지를 업스케일하거나 정리했습니다.
Alpha V0.3.1
Alpha v0.3 훈련 중 일부 실수로 인해 이 모델은 NoobAI에서 크게 벗어났습니다. 그럼에도 불구하고, 훈련된 79명의 VTuber 대부분에 대해 좋은 이해를 보이며, 나머지에는 충분한 성능을 제공합니다. 개요는 다음을 참조하세요:
https://huggingface.co/Jyrrata/LHC_XL/blob/main/characters/alpha03.txt
및 두 v0.3 모델의 기본 캐릭터 이해에 대한 시각적 안내는 여기에서: https://civitai.com/posts/9579061. 많은 캐릭터가 활성화 태그만으로도 작동하지만, 일부는 추가 태그가 필요합니다.
Alpha V0.3 및 V0.3.1은 NoobAI-XL V-Pred-0.6 버전을 기반으로 훈련되었습니다.
추출된 LoRA 버전은 여기에서 확인할 수 있습니다: https://huggingface.co/Jyrrata/LHC_XL/blob/main/alpha/v03/lhc_v03_1_lora.safetensors
V0.3을 사용하려면 다음에서 찾을 수 있습니다: https://huggingface.co/Jyrrata/LHC_XL/blob/main/alpha/v03/LHC_alphav03-vpred.safetensors
또한 이 Hugging Face 저장소에는 eps 버전과 rouwei-vpred를 기반으로 훈련된 중간 데이터셋 버전도 포함되어 있습니다. v0.2.5의 지식 개요는 캐릭터 .txt 파일을 참조하세요.
Alpha V0.2
v0.1과 동일한 일반적인 접근 방식을 사용했으나, 데이터셋에 추가로 10명의 VTuber가 포함되어 총 28명이 되었으며, 마지막 두 에포크는 미적 개선 및 모델 재정렬을 목표로 한 1,200장의 다양한 개념을 포함한 실험적 데이터셋을 포함했습니다.
이번에 포함된 VTuber:
aradia ravencroft
bon \(vtuber\)
coni confetti
dizzy dokuro
dooby \(vtuber\)
haruka karibu
juniper actias
kogenei niko
malpha ravencroft
mamarissa
michi mochievee
rindo chihaya
rin penrose
atlas anarchy
dr.nova\(e\)
eimi isami
isaki riona
jaiden animations
juna unagi
kikirara vivi
mizumiya su
tsukinoki tirol
alias nono
biscotti \(vtuber\)
mono monet
rem kanashibari
yumi the witch
새로운 캐릭터를 추가할 뿐만 아니라 일부 이전 캐릭터의 데이터셋도 재구성했습니다. 특히 juna unagi와 juniper actias가 대표적입니다. Juniper는 두 개의 새로운 태그, juniper actias \(new design\) 및 juniper actias \(old design\)를 추가하여 두 가지 별개의 디자인 단계를 구분하려고 시도했습니다. 이는 실험적이며 향후 버전에서 유지되지 않을 수 있습니다.
기본 캐릭터 태그 이해의 사례는 여기에서 확인할 수 있습니다: https://civitai.com/posts/9183473?returnUrl=%2Fmodels%2F940235%2Flhc%3FmodelVersionId%3D1064798. 일부 VTuber는 캐릭터 태그만으로는 작동하지 않으며, 추가 설명 태그가 필요합니다.
Alpha V0.1
이 모델은 여전히 알파 단계입니다. 현재 상태는 모든 향후 기능을 나타내는 것이 아니라 단지 개념 증명입니다.
기본 테스트 모델이지만 우수한 결과를 제공합니다. 기본 NoobAI 모델이 잘 모르던 약 18명의 VTuber를 중심으로 약 1,000장의 이미지로 훈련되었습니다. 이 모델은 NoobAIXL v-pred-0.5 버전을 기반으로 합니다.
V-pred 모델이므로 모든 WebUI에서 작동하지는 않으며, vpred 샘플링을 구현한 UI에서만 작동합니다. Comfy 및 ReForge와 같은 UI에는 모델의 필요한 상태 사전을 설정하여 자동으로 필요한 설정을 구성했습니다. 그렇지 않은 경우, v-pred 샘플링을 활성화하고 ztsnr도 켜는 것이 권장됩니다.
새롭게 추가/향상된 VTuber(훈련된 태그 기준):
Aradia Ravencroft
Malpha Ravencroft
Mamarissa
Koganei Niko
Rindo Chihaya
Mizumiya Su
Isaki Riona
Kikirara Vivi
Coni Confetti
Dizzy Dokuro
Dooby (Vtuber)
Haruka Karibu
Juna Unagi
Juniper Actias
Michi Mochievee
Rin Penrose
Jaiden Animations
또한 Nerissa Ravencroft와 Vienna (Vtuber)를 특별히 포함했고, 2명 이상의 캐릭터가 함께 등장하는 이미지도 많이 포함되었습니다.
기본 캐릭터 이해의 사례는 다음 포스트에서 확인하세요: https://civitai.com/posts/9039071.
권장 설정:
샘플러: Euler
CFG: 4-5
스텝: 25 이상
훈련 세부사항:
KohakuXL 시리즈의 방법론을 기반으로, 여기에서 발견된 Lycoris 설정(https://huggingface.co/KBlueLeaf/Kohaku-XL-Delta/blob/main/docs/lyco_config.toml)을 사용해 전체 차원 LoKr로 훈련했습니다.
구체적 파라미터:
데이터셋: 1,035장의 이미지
배치 크기: 2
그래디언트 누적: 4
훈련 스텝: 약 6,400
훈련 에포크: 약 50
Unet 학습률: 3e-5 (마지막 12 에포크는 2e-5로 감소)
TE 학습률: 2e-5 (마지막 12 에포크는 1e-5로 감소)
옵티마이저: AdamW 8-bit
상수 스케줄러
특별한 감사:
kblueleaf (Kohaku Blueleaf): Lycoris 라이브러리 및 LoKr 기반 미세조정 자료 제공
OnomaAI & Laxhar Dream Lab: 뛰어난 기본 모델 제공
kohya-ss: sd-scripts 제공









