Qwen Breast Type Selector (WIP)
세부 정보
파일 다운로드
이 버전에 대해
모델 설명
이것은 여러 종류의 유방을 포함하는 허브입니다. 왜일까요?
정확도 – 더 다양한 이미지를 추가할수록 LoRA와 학습 시간이 희석됩니다. Qwen은 유방이 무엇인지 이미 알고 있지만, 유두륜이 어떻게 생겼는지는 모릅니다. 유방을 하나의 단일 개체로 학습하면 매우 높은 호환성을 유지할 수 있고 결과도 일관됩니다. 제 인니 바지니스 LoRA를 사용할 수 있으므로, 이제 당신은 바지니스와 유방 유형을 선택할 수 있습니다. 이 LoRA는 유방에만 초점을 맞추고, 유방의 위치와 방향을 안내하기 위해 외부 영역의 일부만 포함합니다. 캐릭터에 대해 학습된 LoRA를 사용하여 외형을 유지하고 싶다면, 포즈나 측면 각도에서도 신체 크기를 변경하지 않고도 잘 작동합니다.
학습 속도 – 이 점이 가장 중요합니다. 이 LoRA는 단 1.2시간 만에 학습되었고, 다른 경우는 8시간甚至 1.5일이 걸렸습니다.
지금의 문제는 무엇인가요? 학습 해상도입니다. 4K와 같은 고해상도 이미지는 구하기 어렵고, 저에게 그런 고해상도를 학습할 하드웨어가 없기 때문에 512와 1024만이 가능한 옵션입니다. 이 학습 해상도는 인체 해부학의 세부 사항을 충분히 포착하기에 부족하여 혈관이나 정확한 유두륜을 볼 수 없습니다. 따라서 유두륜은 흐릿하게 보일 수 있습니다. 업스케일링 및 hires.fix는 이 문제를 해결하는 옵션이 될 수 있습니다. 일반 소비자 하드웨어는 VRAM 부족을 보완하기 위해 128GB의 RAM이 있어야만 충분히 강력하지만, 64GB RAM과 5090 GPU는 불행히도 충분하지 않습니다.
트리거 단어는 b00b135입니다.
(이 단어는 학습 과정에서 예기치 못한 결과를 초래했습니다. 주의하세요. 이후 단계에서 수정되었지만, 낮은 강도에서는 여전히 나타날 수 있습니다.)
제가 깨달은 것은, Qwen은 LoRA에 트리거 단어 없이 캡션을 붙이면 싫어한다는 점입니다. 캐릭터가 그 추한 선글라스를 쓰지 않게 하려면, 그 이미지를 데이터셋에 포함시키지 마세요. 학습 시 Qwen은 트리거 단어만을 사용하는 모델로 더 잘 작동합니다. 캐릭터의 녹색 음영이 마음에 들거나 독특하다면, 기존 단어로 캡션을 붙이거나 마스킹하고 자신만의 트리거 단어를 만들어주세요.
학습하려면 어떻게 해야 하나요?
마스크 레이어링을 사용하세요. 이게 뭐죠? 유방을 여러 레이어로 분리하는 것입니다. 젖꼭지는 레이어 1, 유두륜은 레이어 2, 유방 본체는 레이어 3으로 나눕니다. 이 이미지를 3번 복제하고 3개의 서로 다른 마스크를 생성한 후, 하나씩 마스킹해야 합니다. 이렇게 하면 3개의 별도 LoRA를 얻게 됩니다. 이 방법이 가장 정확하지만 매우 비효율적입니다. 왜냐하면 Qwen은 유두륜이 무엇인지 모르기 때문에, 단어를 더 추가할수록 AI가 더 혼란스러워지기 때문입니다. LoRA 없이 ‘유방’이라고 말하면, 유두륜도 포함되지만 매우 나쁜 결과가 나옵니다. 각 레이어에 대해 자체 트리거 단어를 만들어 분리하면, Qwen의 잘못된 캡션 또는 열악한 데이터셋을 우회할 수 있습니다. 목표는 모델이 Qwen의 내부 지식이 아닌, 당신의 데이터셋에서 유두륜을 배우게 하는 것입니다.
이 LoRA는 단 하나의 유방 유형만을 포함하므로, 유두륜도 포함할 수 있습니다. 이것이 아티팩트 없이 LoRA를 학습하는 가장 좋은 방법입니다. 유일한 문제는 이미지의 해상도가 충분하지 않았다는 점입니다. 마스크의 경계 영역도 중요합니다. 저는 유방으로 정의된 핵심 영역만 마스킹했고, 캐릭터의 전체 외형은 포함하지 않았습니다. 피부색과 일부 두더지가 약간 보일 수 있지만, 그 이상은 없습니다.
한 가지 생각을 더하면, Qwen의 지식 기반에 없는 단어를 사용하면, 그 단어의 의미와 상관없이 이미지의 모든 요소가 당신의 데이터셋에 따라 학습됩니다. 기존 단어를 사용하면 Qwen의 기존 지식을 덮어쓰려 시도합니다. 저는 이 방식으로 시도해봤고, 6000 스텝 이후에도 별다른 변화가 없었습니다. 왜냐하면 제가 사용한 단어가 두 사람이 키스하는 것과 연결되어 있었기 때문입니다. 트리거 단어를 사용하면 이 문제가 해결됩니다.
캡션은 학습 데이터셋이 아니라, ComfyUI 또는 기타 WebUI 인터페이스에서 자세히 작성해야 합니다. 모델 자체는 이미지가 너무 복잡하지 않다면, 캐릭터를 구성하는 각 특징을 학습합니다.
예를 들어, 실제 사람을 학습하고 '남성'이라는 단어를 사용하면, LoRA는 Qwen의 남성에 대한 지식을 사용하게 되고, 신체 형태는 사라지지만 얼굴은 대부분 유지됩니다. 왜냐하면 AI는 일반적으로 얼굴 인식에 매우 뛰어나기 때문입니다. 트리거 단어는 그 단어를 캐릭터 전체로 취급합니다. WebUI의 캡션은 트리거 단어의 정의(사전처럼)라고 생각하면 됩니다.














