[Pony] Yuuki Sakuna (結城さくな)
세부 정보
파일 다운로드
이 버전에 대해
모델 설명
유키 사쿠나(結城さくな) - 폰이 LoRA
면책조항
- 제 LoRA를 사용하여 AI 이미지를 생성하고, 트위터/X에서 그 팬아트에 해시태그를 달지 마세요. 단, 해당 이미지에 충분한 기여를 하셨다면 괜찮습니다.
버전 3 설명
dim/alpha를 16/12로 줄임
스케일 가중치 정규화를 1.5로 설정 (과적합 방지)
스케줄러 변경
새로운 데이터셋 + 캡션 추가
그녀의 미소가 :) 대신 :3로 덜 나타남
트리거 단어 (버전 3 전용)
- 기본 복장
yuuki sakuna, long hair, blush, animal ears, pink hair, medium breasts, hair ornament, maid headdress, bow, maid, animal ear fluff, puffy sleeves, apron, white dress, bowtie, collarbone, hairclip, hair bow, detached collar, black footwear, shoes, black choker, white thighhighs
- 어떤 복장이든
yuuki sakuna, long hair, blush, cat ears, pink hair, medium breasts, hair ornament, bowtie, hairclip, hair bow
제한 사항
일부 복장은 제대로 변경되지 않음 (데이터셋 부족으로 인해)
전체 신체 표현은 여전히 부정확함 (하지만 큰 개선됨)
버전 2 설명
실험적 옵티마이저 사용 (전체 신체에 개선 효과 있음, 그러나 카메라 각도는 프롬프트하지 않으면 여전히 변하지 않음)
옷을 바꿔도 리본이 여전히 남아 있음
버전 1 설명
- 고양이 귀 소녀를 좋아해서 LoRA로 학습함 (그녀의 과거는 전혀 모름 :<)
트리거 단어
- 트리거 단어
yuuki sakuna
- 어떤 복장이든 (여전히 충분히 유연하지 않음)
yuuki sakuna, long hair, animal ears, pink hair, blush, cat ears, pink eyes, two side up, ahoge, colored inner hair, two-tone hair
- 데뷔 복장 (좋음, 하지만 일부 구성 요소가 여전히 누락됨)
yuuki sakuna, long hair, hair ornament, bow, animal ears, pink hair, blush, cat ears, maid headdress, hair bow, frills, hairclip, pink eyes, pink bow, blue bow, maid, puffy sleeves, two side up, cat hair ornament, ahoge, heart hair ornament, puffy short sleeves, clothing cutout, pink dress, blue bow, colored inner hair, two-tone hair, cleavage, breasts
- 전체 신체를 표현하려면 다음 텍스트를 추가하면 도움이 됨 (신발은 여전히 정확하지 않음)
shoes, black footwear, white thighhighs
제한 사항
복장을 제대로 변경할 수 없음 (데뷔 복장의 일부 구성 요소가 여전히 남아 있음)
전체 신체 표현이 효과적이지 않을 수 있음
LoRA가 여전히 약간 언더피팅됨 (마치 미디엄 레어 돼지고기처럼) (버전 1 기준)
버전 2는 일부 세부 사항이 개선되었으나 데이터셋이 여전히 불균형한 이미지로 인해 다양성이 부족함
학습 세부 정보 (버전 3)
LoRA 크기
- 차원을 8로 줄이고 sv_fro=0.95 적용
데이터셋
- 42장의 이미지
파라미터
해상도 = 1024
배치 크기 = 2
dim, alpha = 16, 12 (학습용)
혼합/저장 정밀도 = bf16/bf16
옵티마이저 = AdEMAMix + weight_decay=0.025 betas=0.9,0.999,0.9999
UNet 학습률 = 2e-4
TE 학습률 = 1e-4
스케줄러 = cosine_with_min_lr (min_lr_ratio 0.67)
huber snr = 0.85
스텝
에포크 = 5
총 스텝 = 1575
반복 = 15 (한 개념만)
도구
kohya-ss GUI v24.3.0 (제가 파생한 버전)
torch 2.5.0 cu124
RTX 3060 12GB + xformers + gradient_checkpointing
가중치
UNet 평균 가중치: 0.0149531283161857
TE1 평균 가중치: 0.011002991641968642
TE2 평균 가중치: 0.009832777519477531
학습 세부 정보 (버전 2)
LoRA 크기
- 차원을 8로 줄이고 동적 alpha 적용
데이터셋
- 38장의 이미지 (대부분 반신)
파라미터
해상도 = 1024
배치 크기 = 2
dim, alpha = 16, 16 (학습용)
혼합/저장 정밀도 = bf16/bf16
옵티마이저 = AdEMAMix (32비트로 VRAM 소모)
UNet 학습률 = 2e-4
TE 학습률 = 1e-4
스케줄러 = inverse_sqrt, 워머업 100스텝
L2 손실만 사용
스텝
에포크 = 10
총 스텝 = 2850
반복 = 15 (한 개념만)
도구
kohya-ss GUI v24.2.0
torch 2.5.0 cu124
RTX 3060 12GB + xformers + gradient_checkpointing
가중치
UNet 평균 가중치 강도: 0.015634962041489377
텍스트 인코더(1) 평균 가중치 강도 Clip_L: 0.011193290141749815
텍스트 인코더(2) 평균 가중치 강도 Clip_G: 0.010691167576002698
학습 세부 정보 (버전 1)
데이터셋
- 38장의 이미지 (대부분 반신)
파라미터
해상도 = 1024
배치 크기 = 2
dim, alpha = 16, 16 (LoRA가 충분히 좋다면 품질을 유지하기 위해 리사이징하지 않음 :P)
혼합/저장 정밀도 = bf16/fp16 (실수로 변경됨)
옵티마이저 = AdEMAMix8bit
UNet 학습률 = 1e-4
TE 학습률 = 5e-05
스케줄러 = inverse_sqrt, 워머업 100스텝
huber snr, c = 0.85
스텝
에포크 = 10
총 스텝 = 2850
반복 = 15 (한 개념만)
full_bf16 학습
도구
kohya-ss GUI v24.2.0
torch 2.5.0 cu124
RTX 3060 12GB + xformers + gradient_checkpointing
가중치
UNet 평균 가중치 강도: 0.008335085569112463
텍스트 인코더(1) 평균 가중치 강도 Clip_L: 0.0073367764333498705
텍스트 인코더(2) 평균 가중치 강도 Clip_G: 0.005826970830639767
설명 출처: Gtonero
*이 LoRA는 새로운 학습 기법으로 LoRA 학습을 연구하기 위한 목적으로 제작되었으며, VTuber를 해치는 용도로 사용하지 마세요. (그녀를 응원해주세요.)








