lumi_鹿鸣——人工桌面(米哈游)
세부 정보
파일 다운로드
이 버전에 대해
모델 설명
미하유의 인공 데스크탑 루밍 LoRA 모델. 유사한 텍스처를 가진 베이스 모델이 없어 최종적으로 SD1.5 공식 모델을 베이스로 선택하였으며, 이로 인해 다양한 파생 모델과의 호환성이 우수하다. 처음에는 최신 라이브 방송에서 등장한 두 벌의 옷만 학습할 계획이었고, 총 60여 장의 스크린샷을 수집하였으나, 같은 라이브 방송 내에서 배경과 의상의 유사도가 지나치게 높아, 손실값(loss)이 낮음에도 불구하고 배경과 의상은 과적합되었고, 얼굴은 여전히 미적합 상태였다. 따라서 이후 루밍의 닝보 계정에서 동영상을 다운로드하여 다양한 이미지를 캡처하였고, 총 300여 장의 스크린샷을 확보하였다. 일부 영상의 해상도가 낮아 캡처 품질이 떨어졌으며, 이전 학습 결과를 기반으로 추가 학습을 실시하여 현재의 결과를 도출하였다. 전반적으로 효과는 양호하며, 여러 벌의 의상을 포함한다. 그러나 루밍의 동영상 배경은 대부분 밝은 색조로 구성되어 피부색과 매우 유사하여 손 부분을 구분하기 어렵다. 따라서 출력 시 손 부분을 재생성하지 않는 경우 얼굴을 기반으로 확률적 추출이 필요하다. 가중치는 약 0.8일 때 효과가 비교적 안정적이며, EasyNegative 등의 부정적 프롬프트 모델과 함께 사용할 경우 더욱 우수한 결과를 얻을 수 있다.
가중치를 0.4로 설정하면 모델의 주요 특징을 유지하면서 자세, 의상, 배경을 교체할 수 있는 자유도가 증가하여, 덜 정확하지만 더 일반적인 이미지를 생성할 수 있다.
고화질 복원 미사용: 일반적으로 먼저 텍스트-이미지 생성으로 저해상도 이미지를 대량 생성한 후, 이미지-이미지 SD Upscale 스크립트를 사용하여 초해상도 확대를 실시한다. 540x960 이미지를 두 번 확대하면 더 나은 4K 이미지를 얻을 수 있으며, 이 방법은 직접 고화질 복원보다 GPU 부하가 적어 하드웨어 사양이 낮은 환경에서도 더 빠르게 고해상도 이미지를 생성할 수 있다. 확대 시 매개변수를 미세 조정해야 하며, 여러 이미지를 확대한 후 결합하기 때문에 재생성 범위를 지나치게 크게 설정하면 이미지의 각 부분이 무관해질 수 있다. 실사 베이스 모델로 애니메이션 캐릭터를 생성할 때 과도하게 실제에 가깝게 그리면 미적 효과가 떨어질 수 있으므로, 실사 베이스 모델의 가중치를 낮춰 코스프레 스타일의 이미지를 생성하는 것이 좋다.
고화질 복원 사용: 초기 해상도 540x960, R-ESRGAN 4x+ 확대 알고리즘을 사용하여 재생성률 0.3으로 2배 확대한 후, 이미지-이미지 SD Upscale 스크립트로 동일한 알고리즘을 적용하고 재생성률 0.1로 초해상도 확대하면 우수한 4K 고화질 이미지를 얻을 수 있다. (이 방법은 첫 번째 단계에서 직접 1080P 이미지를 생성하므로 결과가 얼굴에 크게 의존하며, 일괄 처리가 어렵다. 16GB VRAM에서는 최대 4장까지 동시에 생성 가능하며, 출력 및 수정 효율은 낮지만 품질은 높다.)
lumi_루밍——인공 데스크탑(미하유) - v1.0 | 투스 [차단된 링크] (tusiart.com) (여기서 온라인으로 이미지를 실행하여 효과를 확인할 수 있으며, 고화질 복원을 사용하고 얼굴에 따라 확률적 추출이 필요하며, 속도는 괜찮고 매일 무료 사용량이 제공된다)
2.0 버전 설명은 아래 참조: (참고: 2.0 버전은 반드시 SDXL 모델을 베이스로 사용해야 하며, VAE도 해당 버전과 호환되는 것을 사용해야 함)
2.0 버전은 SDXL 1.0을 베이스로 학습된 LoRA 모델로, 기존 학습 데이터에서 일부 흐릿한 이미지를 교체하고, 반하, 그리고 최신 라이브 방송에서 등장한 단발 스타일 등 새로운 의상을 추가하였다. SDXL 1.0 모델과 결합하여 실행해야 하며, 이는 나의 첫 번째 SDXL 모델 학습 프로젝트였다. 이틀 동안 20시간 이상의 실험 끝에 겨우 쓸만한 모델을 얻을 수 있었으며, SDXL 모델 학습은 SD1.5에 비해 방식과 하드웨어 요구 사항 모두 한 차원 높은 수준이며, 최종 결과가 SD1.5 버전보다 낮을 수도 있다. 하지만 SDXL은 문맥 이해 능력이 SD1.5보다 훨씬 우수하여, 모델이 과적합되는 경우가 거의 없고, 태그를 사용해 정확한 스타일을 재현하기가 훨씬 어렵다.
가중치를 0.8~1로 설정하면 비교적 정확한 재현 효과를 얻을 수 있으며, 낮은 가중치는 더 높은 자유도를 제공하지만 의상 등 스타일의 일관성이 크게 떨어진다. 사용자가 직접 다양한 설정을 시도하여 최적의 결과를 찾아보기를 권장한다. SDXL 모델 학습 프로세스는 아직 성숙하지 않으며, 우수한 베이스 모델도 많지 않아 다양한 문제가 발생할 수 있으니 양해를 부탁한다.
2.0 프롬프트는 커버 이미지의 태그 템플릿을 참고할 것. 이 태그는 타인이 학습한 또 다른 루밍 모델에 사용한 것으로, 나도 시도해본 결과 매우 우수한 효과를 얻었다. 베이스 모델은 SDXL 1.0 공식 모델을 추천하며, 다른 모델보다 더 나은 결과를 얻을 수 있다. 나머지 의상 태그는 점차 게시할 예정이다.
lumi_루밍——인공 데스크탑(미하유) - v2.0 | 투스 [차단된 링크] (tusiart.com) (여기서 온라인으로 이미지를 실행하여 효과를 확인할 수 있으며, 속도는 괜찮고 매일 무료 사용량이 제공된다)




















