Sniffing / smelling (own) armpit - Pony
세부 정보
파일 다운로드
모델 설명
이 LoRA는 사람이 자신의 겨드랑이를 맡거나 쐐는 장면을 묘사할 수 있게 해줍니다.
놀랍게도 Pony는 이 개념을 이미 알고 있지 않습니다(적어도 제가 시도한 태그들로는), 그래서 이를 위한 LoRA를 만들기로 결정했습니다.
주요 트리거: 겨드랑이 맡기
추가 태그(태그 빈도 순): 노출된 겨드랑이, 옷으로 가려진 겨드랑이, 팔을 내린 상태
(마지막 태그는 이미지 수가 너무 적어서 결과가 불안정합니다. 옷으로 가려진 겨드랑이를 생성할 때는 부정적 태그로도 노출된 겨드랑이를 함께 사용하는 것이 더 낫습니다. 왜냐하면 '겨드랑이'라는 단어만으로도 Pony가 이미 겨드랑이를 생성하는 데 매우 기뻐하기 때문입니다.)
권장 LoRA 가중치: 원하는 스타일에 따라 0.4 – 1.0
Pony가 이 개념에 이렇게 취약한 이유는 다른 boorus에서 해당 태그가 거의 붙지 않기 때문일 것입니다.
그리고 이에 대해 잠시 다음과 같은
학습
특히, 저는 여러 boorus에서 36개의 샘플을 수집했습니다(정말로 골라낸 것이 아니라, 제가 찾을 수 있었던 모두 좋은 샘플이었습니다).
그 후, ControlNet(깊이 및 포즈 모델의 혼합)을 사용하여 Pony Diffusion으로 추가로 170개의 이미지를 생성했습니다. 이때 랜덤한 예술 스타일, 성별 등을 사용했습니다.
ControlNet에 입력한 이미지는 그림과 실제 사진 모두 포함되었습니다(이 주제에 대한 스톡 사진이 상당히 많습니다). 이 이미지들은 일반적인 이미지 검색에서 가져왔으며, 그 중 19개를 학습 이미지로 추가했습니다.
이로 인해 총 225개의 학습 이미지가 생성되었습니다.
모든 이미지는 SmilingWolf의 wd-swinv2-tagger-v3를 사용해 태그를 자동으로 붙인 후, 위에 나열된 4개의 태그를 수동으로 추가했습니다.
그 후, 먼저 RemBG(Human)로 마스크를 생성하고, 이어 ClipSeg를 사용해 'Arm', 'Armpit', 'Face' 텍스트에 대한 마스크를 추가했습니다. 데이터셋이 작고 빠르게 확인해보니 모든 마스크가 정확하지 않았기 때문에, 마스크를 수동으로 수정하는 과정도 병행했습니다.
그리고 OneTrainer를 사용하여 LoRA를 학습했습니다.
관련 학습 파라미터는 다음과 같습니다:
- Prodigy 옵티마이저
- 24 에포크 @ 560 스텝
- 10회 이미지 반복(이미지 및 캡션 변형 포함)
- 배치 크기 4
- 이미지 마스크 사용, 마스크되지 않은 확률 0.03, 마스크되지 않은 가중치 0.02
- 1024 해상도 + 비율 버킷팅
- LoRA 랭크 48, 알파 2 (나중에 32로 조정, sv_fro 0.99)
학습은 RTX 4090에서 약 8시간 동안 진행되었습니다.
추가로 궁금한 사항이 있으시면 언제든지 문의해주세요.



















