DALL-E 3-like Girls
세부 정보
파일 다운로드
모델 설명
생성:
트리거 단어 없음.
매우 간단한 태그 기반 프롬프트 예시:
자세함, 두 소녀, 혀 내밀기, 미소, 밤 레이브
데이터셋에서 흔히 사용된, 프롬프트에 대체할 수 있는 더 유용한 단어들:
혀 내밀기, 입술을 불룩하게 내밀기, 누워 있음, 등을 대고 누움, 배를 대고 누움, 링 조명, 아시아인, 라틴계, 아프리카계, 3D, 애니메이션
강력히 권장하는 설정:
좋아하는 모든 프롬프트에 대해, 3000 스텝으로 학습된 기본 LoRA와 3250 스텝 버전을 모두 시도해보길 권장합니다. 둘 다 좋고 충분히 다릅니다.
프롬프트에
자세함을 포함하는 것이 항상 더 나은 결과를 줍니다.1328x1328 해상도로 생성하는 것이 1024x1024보다 항상 더 나으며, 다양한 해상도를 시도해보세요.
euler-simple/euler ancestral-simple/lcm-simple을 시도하고, shift 값을 0.5에서 4까지 조정해보세요.
4 스텝 라이트닝 LoRA를 사용해 빠른 Qwen Image 워크플로우를 집중할 때, 제가 개인적으로 좋아하는 설정을 발견했습니다. 생성 설정을 조정하면 DALL-E 3 스타일의 소녀 이미지가 쉽게 변하므로, 원하는 스타일에 맞는 설정을 찾아보세요.
제가 사용하는 설정:
저는 실제로 Qwen Image 편집 라이트닝 LoRA를 사용하며, 이는 훨씬 더 흥미로운 결과를 제공하고 Qwen Image의 낮은 시드 변동성 문제를 해결하는 데 가장 큰 기여를 한다고 생각합니다. 다만, 일반적으로 약간 더 잡티가 많아지는 단점이 있습니다. 다른 라이트닝 LoRA도 시도해보세요.
1328x1328, 4 스텝, cfg 1, euler-simple, shift 2.5 (또는 0.5/1/2/3.1)
라이트닝 없이 최소한의 테스트를 진행했으며, 2.5 cfg, 50 스텝으로도 괜찮은 결과가 나왔습니다. 50 스텝 워크플로우 프롬프트 끝에 공식적으로 권장되는 , Ultra HD, 4K, cinematic composition. 문자열을 추가하는 것도 좋습니다.
한계점:
데이터셋에 약간의 손과 신체의 블러 현상이 있었고, 이 현상이 발생할 수 있습니다.
3000 스텝 모델에서는 이상한 옷과 문신 개념의 혼합이 일어날 수 있지만, 저는 여전히 이 모델이 DALL-E 3 스타일의 얼굴과 스타일이 더 낫다고 생각합니다.
프롬프트와 설정에 따라, 훈련 데이터셋에서 일부 완전히 태그되지 않은 독특한 이미지 때문에, 몸에 액체가 흘러넘친 듯한 개념 혼합이 일어날 수 있으며, 특히 1024x1024 해상도에서 더 자주 발생합니다.
위와 같은 문제가 좋아하는 시드에서 발생할 경우, 긍정/부정 프롬프트를 조정하여 문제 개념을 완화하고 LoRA 강도를 낮추며 혼합 현상을 제거해보세요.
학습 정보:
ai-toolkit를 사용했으며, 이 공식 튜토리얼과 그 설정을 기반으로, 학습률 0.0002, 3500 스텝으로 학습했습니다. 3500 스텝은 LoRA를 과도하게 학습시키며, 3000 및 3250 체크포인트가 더 적절합니다.
약 100장의 이미지, 대부분 1024x1024, 매우 적고 단순한 태그 기반 캡션만 사용.
흥미로운 생성 설정을 발견하셨다면 아래 댓글에 공유해주세요.

