VestalWater's Illustrious Styles for Qwen Image
세부 정보
파일 다운로드
모델 설명
개요
이 LoRA는 Qwen Image의 출력 결과를 Illustrious 파인튜닝 이미지처럼 보이게 하기를 목표로 합니다. 구체적으로 이 LoRA는 다음을 수행합니다:
두꺼운 붓터치. 피부의 밝은 전환과 그림자에 부드러운 그라디언트를 사용하는 예술 스타일 대신 이 방법을 선택했습니다. 왜냐하면 이 특정한 인물 표현 방식은 초기 AI 이미지 모델과 연결되기 때문입니다. 아시죠, 그 기괴한 AI 초정밀 피부? 그거요.
매력적인 비율을 가진 여성들을 생성합니다. 넓은 엉덩이, 날씬한 허리 등.
눈을 지나치게 크게 또는 애니메이션 스타일로 표현하지 않습니다. 이는 스타일적 선호도이며, 결과물을 진지한 개념 아트에 더 유용하게 만듭니다.
NSFW 지식을 복원합니다. 이 LoRA로 젖꼭지와 음부를 생성할 수 있습니다. 더 이상 설명할 필요 없죠.
양자화된 Qwen 버전 및 8단계 라이트닝 LoRA와 호환됩니다.
비교
큰 가슴과 금발 헤어 토시를 가진 벌거벗은 여성. 빨간 자판기가 있다. 시청자 바라봄. 무릎을 꿇고 판지 상자를 잡고 있으며 팔에 파란 팔밴드를 착용. 투명한 흰색 안전조끼 착용. 분홍색 스마트워치 착용. 파란 유틸리티 벨트 착용. 젖꼭지가 드러나며, 가슴은 벌거벗고, 유두가 보임. 얼굴은 붉게 화끈거림. 분홍색 카라 착용. 장면은 공공장소에 설정되어 있으며, 바닥에 판지 상자가 놓여 있다.
중간 크기의 가슴을 가진 항공 객실 승무원이 비행기 내부에서 카트를 밀고 있다. 긴 금발 헤어 토시를 하고 있으며, 파란 재킷과 매우 짧은 스커트를 착용하고 있어 엉덩이와 팬티가 드러남. 목에는 실크 스카프를 두르고 있음. 측면에서 촬영된 엉덩이 각도. 당황하고 얼굴이 붉게 달아 있음. 비행기에는 승객들이 가득 차 있으며 그들이 그녀를 바라보고 있다.
큰 가슴을 가진 여성. 시청자 바라봄. 흐린 조명, 부드러운 그림자. 언더부브가 드러나는 니트 오프숄더 스웨터와 민트그린 톤 스타일의 반바지를 착용. 정면, 옆머리 땋은 머리, 검은 머리카락, 게시판 및 교실 포스터. 검은 눈, 질투심 어린 표정, 책상 위에 앉아 다리를 교차하고 팔을 꼭 안고 있음. 뒤쪽에 흰색 칠판이 있는 햇빛이 들어오는 교실 안.
오버워치의 D.Va, 긴 갈색 머리와 큰 가슴을 가진 여성. 언더부브가 드러나는 복장. 미소 짓고 있으며, 검정과 분홍색 응원복을 착용, 분홍색 비키니 팬츠, 검은색 펌펀을 들고 한 팔을 치켜들고 있음. 열광하는 관중들이 가득한 게임 경기장 안에 있음. 천장에서 컨페티가 떨어짐.
설정 및 작업 흐름
이미지 캐러셀의 모든 이미지에 ComfyUI 워크플로우가 첨부되어 있습니다.
요약:
샘플러: Euler
스케줄러: Simple
LoRA 강도: 1.0
8단계 라이트닝 LoRA를 사용하는지 여부에 따라 단계수와 CFG가 달라집니다. 8단계 LoRA를 사용하는 경우:
단계수: 8
CFG: 1
모델 시프트: 2
8단계 LoRA를 사용하지 않는 경우:
단계수: 20-40
CFG: 4
학습 방법
LoRA 학습에 대한 문화적 봉쇄 기조를 막고, 봉쇄된 LoRA를 아무런 활용 없이 방치하는 문제를 해결하기 위해, 저는 제 전체 학습 방법과 일부 데이터셋을 공유합니다.
저는 Ostris의 AI 툴킷을 사용하여 5090 GPU와 그가 제공하는 스타일 LoRA 학습에 대한 탁월한 튜토리얼을 따랐습니다.
Ostris의 AI 툴킷: https://github.com/ostris/ai-toolkit
Ostris의 튜토리얼 영상: https://youtu.be/MUint0drzPk?si=7UrMNAL0fDAutfB3
영상에서 제시된 설정을 그대로 따르되 몇 가지 변경 사항이 있었습니다:
transformer를 3비트 ARA에서 6비트로 변경했습니다. 이는 RunPod에서 5090 GPU를 사용했고, 더 높은 양자화 모델을 허용하기 때문입니다.
학습률을 0.0001에서 0.0002로 변경했습니다. 이는 영상의 두 번째 실행에서 그가 수행한 것과 동일한 커스터마이징입니다.
학습 방법 요약
장치: RunPod의 RTX 5090, 시간당 $0.9, 총 학습 시간 약 4시간.
단계수: 3000, 하지만 CivitAI에 업로드한 체크포인트는 2750단계였습니다. 이 단계가 가장 마음에 들었기 때문입니다.
작업 설정
- 트리거 단어: 설정되지 않음
모델 구성
모델 아키텍처: Qwen-Image
이름 또는 경로: Qwen/Qwen-Image
옵션: Low VRAM 사용
양자화
Transformer: 6비트
텍스트 인코더: Float8 (기본값)
타겟 구성
타겟 유형: LoRA
선형 랭크: 16
저장 구성
데이터 형식: BF16
저장 주기: 250
보존할 최대 저장 단계 수: 4
학습 구성
배치 크기: 1
그래디언트 누적: 1
단계수: 3000
최적화기: AdamW8bit
학습률: 0.0002
무게 감쇠: 0.0001
타임스텝 유형: Weighted
타임스텝 편향: Balanced
노이즈 스케줄러: FlowMatch
EMA(지수 이동 평균): EMA 사용 안 함
텍스트 인코더 최적화: Unload TE는 사용 안 함, Cache Text Embeddings는 사용
정규화: Differential Output Preservation은 사용 안 함
데이터셋
LoRA 가중치: 1
캡션 드롭아웃 비율: 0.05
설정: Cache Latents는 사용 안 함, Is Regularization은 사용 안 함
해상도: 256은 사용 안 함, 512는 사용, 768은 사용, 1024는 사용, 1280은 사용 안 함, 1536은 사용 안 함
데이터셋 이미지 수: 43장
데이터셋 샘플
짧은 검은 머리를 가진 여성. 녹색 비키니, 반투명 플라스틱 앞치마, 녹색 선글라스, 끈과 ID 배지가 달린 녹색 카라를 착용하고 있고, 마트 진열대 사이에 서 있다.
갈색 머리와 갈색 눈을 가진 여성. 침대 위에 등을 대고 누워 다리를 벌리고 있음. 검은 가죽 바디 하네스를 착용하고 있으며, 오른쪽 상단에서 손이 스마트폰을 들고 그녀를 향해 촬영하고 있음.
짧은 검은 머리와 앞머리를 가진 여성. 더블 체인 목걸이, 반투명한 검은 긴팔 상의 위에 반짝이는 검은 비키니, 빨간 벨트와 홀스터가 달린 검은 스커트를 착용. 어두운 좁은 공간에서 빨간 자판기와 푸른 밝은 자판기 사이에 서 있음.
데이터셋 캡셔닝 방법론
LoRA 학습에서 기억해야 할 좋은 원칙은 다음과 같습니다:
캡셔닝하지 않은 모든 요소는 LoRA가 스타일과 연결하여 학습합니다.
쓰레기가 들어가면, 쓰레기가 나옵니다.
캡셔닝
저의 캡셔닝 방법론은 위의 첫 번째 원칙을 따릅니다. Qwen이 매력적인 비율의 여성들을 생성하도록 하기 위해, 데이터셋 내 여성들의 힙이 넓거나 가슴이 큰 것처럼 설명하지 않았습니다. 이를 통해 LoRA가 “여성 = 데이터셋의 이미지”라는 것을 학습하도록 만들었고, “곡선이 있는 여성 = 넓은 힙과 큰 가슴을 가진 여성”이라는 의미로 학습하게 하지 않았습니다. 그 결과 LoRA는 기본적으로 데이터셋 이미지와 같은 여성의 모습을 생성하도록 학습됩니다.
피부 및 빛의 전환 방식도 마찬가지입니다. 데이터셋 내 모든 이미지에는 개념 아트 스타일의 두꺼운 붓터치가 포함되어 있음을 알 수 있습니다. 하지만 이 점을 캡션에 전혀 언급하지 않았습니다. 그 결과 LoRA는 모든 것을 두꺼운 붓터치로 렌더링하게 되었고, 이것이 바로 이 LoRA가 원하는 목표입니다.
데이터셋을 더 나아 보이게 만드는 방법
Illustrious는 눈을 나쁘게 생성하는 것으로 유명합니다. 고해상도로 이미지를 수정하면 눈은 좋아지지만 머리카락은 지나치게 이상하게 변합니다. 그래서 데이터셋에 얼굴 디테일러를 적용했고, 이는 눈에 탁월한 효과를 냈습니다. 샘플 이미지에서 볼 수 있듯이. 여전히 완벽하지는 않으며, 예를 들어 홍채가 완전히 둥글지 않습니다.
손이 나쁩니다. 이 문제는 후처리 방법으로 신뢰할 수 있게 수정하기 어렵습니다(인페인팅도 성공률이 불확실하므로). 그래서 저는 좋은 손을 가진 이미지를 얻을 때까지 계속 시도했습니다.
무의미한 배경. 배경이 어느 정도 일관성 있게 나오기까지 주사위를 굴렸습니다.
만약 더 인내심이 있었다면, 전체 데이터셋의 흐릿한 텍스트나 로고를 포토샵으로 수정했을 것입니다.








