RTX On - PonyDiffusionXLV6
세부 정보
파일 다운로드
모델 설명
이것은 ponyDiffusion_V6XL 베이스 모델을 기반으로 학습된 SDXL LoRA입니다. (다른 모델에서는 작동하지 않지만, 자유롭게 시도해도 됩니다).
이 LoRA의 목적은 고품질(적절히 조명된) 3D 렌더링처럼 보이는 이미지를 생성하는 것입니다.
베이스 모델은 이미 3d 및 blender 태그를 사용하여 3D 스타일의 이미지를 완벽하게 생성할 수 있지만, 저는 특정 스타일을 더 강조하고 가능하다면 더 큰 유연성을 원했습니다.
이를 위해, 캡션 작성 시 특정 키워드 목록을 태그했으며, 특정 스타일을 명시적으로 지정할 수 있기를 기대했습니다. 그러나 많은 이미지들이 이러한 태그들을 혼합하여 포함하고 있었기 때문에, 가장 큰 영향을 주려면 여러 태그를 동시에 사용해야 합니다. 그러나 아예 태그를 사용하지 않더라도 어느 정도 영향을 미칩니다.
과장되고 선택적으로 추출하지 않은 예시(3d 및 blender 태그를 사용하지 않고, source_anime 태그만 사용하며, 시드 1,2,3을 적용한 경우)를 보여드리겠습니다. 다음 프롬프트로 LoRA의 효과를 확인할 수 있습니다:
score_9,score_8_up,score_7_up, 1girls, big_breasts, sfw, selfie, female, light_skin, slim, crop_top, leggings, pink_hair, brown_eyes, v_sign, peace_sign, living_room, source_anime, rating_safe

(전체 해상도로 보기 여기)
특정 태그와 그 설명은 다음과 같습니다:
RTX_on – 모든 이미지에 적용하려고 의도한 기본 태그입니다.
RTX_soft – 부드러운 렌더링 및 부드러운 조명이 적용된 이미지.
RTX_flat – 피부 텍스처가 특히 평평한 3D 이미지에 사용 (예: Overwatch 모델을 Source Filmmaker로 조명을 적게 사용해 렌더링한 것처럼).
RTX_pt – “path tracing”을 의미하며, 뚜렷한 조명과 그림자, 또는 장면이 매우 잘 조명된 이미지에 태그됨 (실재적인 글로벌 일루미네이션, 앰비언트 오클루전, 간접 조명, 정확한 그림자 등).
RTX_hairsim – “시뮬레이션된 머리카락”을 의미하며, 많은 개별 머리카락으로 현실적으로 시뮬레이션된 이미지의 일부에만 태그함. 그러나 모든 이미지를 태그하지 않았고, 부족한 경우가 많아 이 태그는 다소 불안정할 수 있음.
RTX_texture – RTX_flat과 반대되는 개념으로, 현실적인 피부 또는 패브릭 텍스처가 사용되었거나, 피부에 현실적인 액체(땀/물)가 있는 경우에 적용됨. 이 태그도 전체 이미지에 일관되게 태그되지 않았기 때문에 다소 부정확할 수 있음.
_RTX_texture_와 _RTX_flat_은 반대 개념처럼 보이지만, 일부 소스 이미지에서는 둘 다 태그한 경우도 있었습니다. 비디오 게임 용어로 설명하면, 이는 피부에 알베도 텍스처가 없었지만 노멀 맵이 있고, 올바른 각도로 조명되어 그림자가 자연스럽게 생성된 경우입니다.
개별 태그의 효과를 대략적으로 이해하려면 다음 예시 이미지를 참조하세요.
이 이미지는 모든 태그의 매트릭스이며, 열은 행보다 가중치가 높게 설정되어 태그의 효과를 더 강조합니다. 항상 두 태그가 프롬프트에 포함되며, 열 태그가 먼저 오도록 했습니다. 이미지를 외부에서 열어보시기를 권장합니다.

(전체 해상도로 보기 여기)
이미지 출처는 rule34이며, 이 LoRA는 비인간형 또는 현실적인 특징에 대해 더 나쁜 결과를 낼 수 있습니다. (비인간형 이미지 몇 개를 시도해봤는데, SDXL 덕분에 괜찮은 결과가 나왔지만, 다른 사용자의 샘플 이미지와 리뷰를 확인해보는 것을 권장합니다).
학습
항상처럼, 학습에 대해 간단히 설명드리겠습니다.
이번이 제가 베이스 모델이 아닌 모델로 학습한 첫 번째 시도이며, 처음 시도한 스타일이었습니다. 개인적으로 결과에 충분히 만족하지만, 좀 더 나은 결과를 기대했습니다.
rule34에서 1250개의 고해상도 베이스 이미지를 선정했습니다. 이미지의 느낌과 품질에 대한 제 요구사항 때문에, 이 이미지들 중 상당수는 Overwatch, Cyberpunk 2077 또는 유사한 게임에서 가져온 것이었습니다. 많은 소스 이미지에는 워터마크도 포함되어 있었습니다. 이는 특정 캐릭터를 프롬프트하지 않을 때, Overwatch 캐릭터처럼 보이는 캐릭터를 생성할 가능성을 높일 수 있으며, 워터마크를 생성할 가능성도 높입니다.
수집된 이미지들은 원래 태그를 그대로 유지했고, 위에 나열된 사용자 정의 태그를 추가했습니다. RTX_on은 매우 적은 예외를 제외하고 거의 모든 이미지에 태그했습니다. 또한, 이미지에 적절하다고 판단되는 경우 관련 태그도 추가했습니다. 대부분의 이미지가 특정 기본 스타일을 가지고 있었기 때문에(예: Cyberpunk 2077 스크린샷처럼), 해당 이미지에는 RTX_on 태그만 유지하고, RTX_hairsim 또는 RTX_texture 같은 태그는 추가하지 않았습니다. 되돌아보면(다시 한다면), 모든 이미지에 이러한 세부 태그도 추가했을 것입니다.
학습은 kohya에서 진행했으며, 4번 반복, 배치 크기 6, 에포크 30을 선택했습니다. 이로 인해 총 25,110 스텝이 생성되었습니다. booru 태그를 사용했기 때문에, 캡션을 무작위로 섞고 각 캡션의 처음 3개 토큰을 유지했습니다. 또한 일부 이미지에는 booru에서 수많은 태그가 있었기 때문에, 최대 토큰 길이를 150으로 증가시켰습니다.
이번에 Prodigy 옵티마이저를 처음 사용해보았고, 다른 누군가에게 효과가 좋았던 설정과 매우 유사하게 설정했습니다. 이 설정에 대해 더 알고 싶다면, 다음 영상을 시청하는 것을 강력히 추천합니다: https://www.youtube.com/watch?v=QpWacUWeqbE
30 에포크 동안 LoRA는 과적합되지 않았기 때문에, 이전에 만들었던 LoRA들과 달리 여러 버전을 혼합하지 않았습니다. 따라서 이번에는 safetensors 파일의 추가 메타데이터도 확인할 수 있습니다.
학습은 랭크 128(차원 및 알파 모두)에서 진행되었으며, 나중에 목표 랭크 32로 조정되었습니다.
전체 학습 과정은 클라우드 RTX 4090에서 약 19시간 이상 소요되었으며, 최대 VRAM 사용량은 23.5GB였습니다.
추가 질문이 있으시면 언제든지 문의해주세요.
라이선스
이 모델은 Pony Diffusion V6 XL을 기반으로 학습되었으므로, LoRA는 수정된 Fair AI Public License 1.0-SD (https://freedevproject.org/faipl-1.0-sd/) 라이선스를 적용하기로 결정했습니다.
Fair AI Public License에 아래와 같은 수정 사항이 추가되었습니다:
이 모델을 웹사이트나 애플리케이션에서 수익화(유료 추론, 더 빠른 등급 등)를 위한 목적으로 추론을 실행할 수 없습니다. 이 제한은 모든 파생 모델이나 모델 병합에도 적용됩니다.
CivitAi 및 Hugging Face에는 상업적 추론에 대한 명시적 허가가 부여됩니다.



















