The Essence of Star Trek DS9
세부 정보
파일 다운로드
이 버전에 대해
모델 설명
이 LoRA는 Deep Space Nine의 일반적인 "분위기"를 포착하고, 영향을 받는 출력에 핵심적인 주제들을 일부 추가하는 것을 목표로 합니다. 특정 캐릭터를 완벽하게 복제하려는 것이 아니라, 일부 주요 캐릭터의 이름을 기반으로 학습되었습니다.
저는 Star Trek: Deep Space Nine의 에피소드 스틸, 잡지 이미지, 잡지 스캔, 공식 아트워크, 에피소드 스크린캡, 아카이브 영상 등 1000여 장의 철저히 선별된 자동 및 수동 캡션 이미지를 사용하여 이 모델을 학습했습니다.
소스 이미지에는 모두 'star trek ds9'를 접두사로 사용했기 때문에, 프롬프트에 이 문구를 어디든 포함시키면 대부분 도움이 됩니다.
이 모델은 SDXL로 학습되었으며, SDXL Lightning와 잘 작동합니다.
제 테스트 결과, 기본 모델로 Lightning Fusion XL v1.4를 사용할 때 특히 효과적이었지만, 매개변수 설정이 다소 민감하므로 변경 시 매우 작은 조정만 수행하세요.
추천 추론 매개변수
저는 모든 이미지 생성에 InvokeAI를 사용합니다.
해상도: 1024x1024
기본 모델: Lightning Fusion XL
샘플러: LMS Karras
스텝: 6-8
기본 모델 CFG 강도: 1.5-1.8~
LoRA CFG 강도: 0.6-0.8~
학습 데이터
인터넷을 뒤져 약 2000장의 이미지를 수집했고, 이를 1500장으로 정제한 후, v1.0 버전에서는 약 700장으로 줄였습니다.
많은 소스 이미지를 Topaz Photo AI, Pixelmator Pro 및 몇 개의 자체 제작 스크립트를 조합하여 업스케일링하고 노이즈를 제거했습니다.
캡션 작성
먼저 Kohya_SS를 사용하여 WD14 AI 분류 방법으로 모든 소스 이미지에 자동 캡션을 적용했습니다.
그 후, 캐릭터 이름, 장소 등 많은 이미지에 수작업으로 세부 캡션을 추가하는 데 수많은 시간을 할애했습니다.
모델은 캡션의 처음 6개 토큰을 유지하고 나머지는 랜덤으로 섞어 학습되었습니다.
제한 사항
일반적으로 v1.0에 매우 만족하지만, 다음과 같은 약점이 있습니다:
매개변수가 매우 민감함 (예: LoRA CFG를 0.75에서 0.70으로 변경하는 것만으로도 결과가 크게 달라질 수 있음).
두 명의 알려진 캐릭터를 동시에 생성하는 능력이 부족함. 예를 들어, "star trek ds9, Miles and Bashir drinking coffee"와 같은 프롬프트를 사용하면, 보통 Miles 두 명 또는 Bashir 두 명이 생성됨. 이 문제를 해결하는 방법은 아직 조사하지 않았지만, 다음 버전을 학습할 때는 관심이 있음.
때때로 눈이 깨어진 듯한 글리치가 발생함. 다양한 각도에서의 고해상도 클로즈업 이미지가 더 필요하며, 모델의 일부를 과도하게 학습했을 가능성이 있음.
이 모델은 개별 캐릭터를 직접 복제하려는 것이 아니지만, 제가 선호하는 일부 캐릭터는 포함했습니다. 완벽하지는 않지만 나쁘지도 않으며, 기본 모델로 Lightning를 사용할 때 주요 문제점은 다음과 같습니다:
Bashir의 이마가 종종 비정상적으로 큼.
Dax의 눈이 종종 너무 "몽환적"이고 TOS 스타일임.
Miles의 눈이 종종 글리치됨.
Quark가 너무 악랄하고 각진 모습으로 생성됨.
Worf의 학습 이미지가 충분하지 않아, 프롬프트에 Worf가 포함될 경우 일반적인 클링곤 분위기로 생성됨.












