Raven Teen Titans (2003) Lora Qwen / Wan 2.1 14B T2v / I2V
세부 정보
파일 다운로드
이 버전에 대해
모델 설명
수정:
10/22: Qwen 버전을 학습했습니다. 자세한 내용은 릴리스 노트를 확인하세요.
저의 ko-fi 페이지에서 기부하거나 구독해 주세요.
(모든 수익은 추가 LoRA 제작에 바로 재투자됩니다.)
이 LoRA는 TV 애니메이션 《티ーン 타이탄즈》(2003)에 등장하는 캐릭터 레이븐을 생성하기 위해 설계되었으며, 해당 애니메이션의 특유의 스타일을 따릅니다. 향후 스타일을 포함하지 않고 단순히 레이븐만을 위한 더 유연한 LoRA를 별도로 제작할 예정입니다. 이 LoRA는 T2V 모델로 학습되었으므로 I2V 모델에도 적용 가능합니다.
필수 트리거 단어: TeenTitans Style. RAVTT
추천 강도: 1.0
(프롬프트 작성에 대한 추가 정보는 아래를 참조하세요.)
저는 "RAVEN"이라는 단어를 트리거로 사용하지 않습니다. 왜냐하면 이 단어는 새를 생성하기 때문입니다.
이 LoRA는 100 에포크 동안 학습되었으며, 그중 #20 에포크가 가장 좋은 결과를 냈습니다. 다만, 몇 가지 다른 에포크도 직접 비교해 보시기 바랍니다:
에포크별 차이점:
- 에포크 20: 추천됩니다. 감정과 표현이 풍부하지만 스타일이 약간 어색합니다.
- 에포크 37: 나쁘지 않지만 약간 뻣뻣해 보입니다. 스타일은 잘 맞습니다.
- 에포크 63: 얼굴이 매우 뻣뻣하지만, 애니메이션 스타일과 매우 잘 맞습니다.
데이터셋
2003년 애니메이션에서 캡처한 레이븐의 이미지 87장으로 구성된 균형 잡힌 데이터셋입니다. 이 중 약 5장은 팬이 제작한 NSFW 콘텐츠에서 캡처한 것들입니다.
해상도: 512x512
주요 트리거 단어
필수 트리거 단어: TeenTitans Style. RAVTT
스타일 강화용 선택적 트리거 단어: animated, anime (필요하지 않을 수 있음)
저는 일반적으로 프롬프트 시작에 "TeenTitans Style."을 넣고, 이후에는 캐릭터를 "RAVTT"라고 명칭합니다.
"animated" 또는 "anime"를 사용하여 애니메이션 스타일을 유도하고, "live action"을 사용하여 실사 버전을 생성할 수 있습니다. 하지만 학습 데이터에는 코스프레 사진이 없으므로 효과가 없을 수도 있습니다. 향후 이 기능을 위한 별도 LoRA를 출시할 예정입니다.
레이븐의 복장을 표현하려면 프롬프트에 다음 문장을 포함하세요:
검은 청색 긴 소매 레오타드, 보라색 후드 달린 망토, 빨간 보석 벨트, 목에 금색 단추, 검은 발목 부츠
또한 "hood up" 또는 "hood down"을 명시할 수 있으며, 후드를 올린 상태일 경우 "후드의 그림자로 얼굴이 부분적으로 가려진"이라는 표현을 추가하면 입과 눈만 드러나는 효과를 얻을 수 있습니다. 망토의 색상은 애니메이션에서처럼 분홍색, 회색, 노랑색 등으로 변경할 수 있습니다.
레이븐의 외모를 표현하려면 프롬프트에 다음 문장을 포함하세요:
짧고 각진 보라색 머리, 이마에 붉은 타원형 보석, 창백한 라일락 색 피부
이마의 보석과 피부 색상은 일반적으로 명시적으로 프롬프트에 포함해야 합니다.
"바unny 레이븐"도 프롬프트로 생성할 수 있으나, 저는 테스트하지 않았습니다:
재미삼아, 레이븐을 토끼로 묘사한 이미지와 캡션을 일부 추가했습니다.
RAVTT를 BunnyRAVTT로 교체하고, 아래 설명을 추가하면 더 좋습니다:
검은 콧수염과 드러난 앞니를 가진 흰 토끼 형태. 긴 흰 토끼 귀와 분홍색 안쪽을 지님. 검은 청색 후드 달린 망토를 입고 있으며, 후드는 올려져 있습니다.
학습 정보
RunPod에서 L40S GPU를 사용해 약 3일간 연속 학습했습니다.
기본 설정 외:
LR: 2e-5, 반복 횟수: 5
에포크 20: 4,500 스텝
에포크 37: 8,500 스텝
에포크 60: 13,500 스텝
(참고로 에포크 100은 23,000 스텝까지 진행되었습니다.)
첨부된 파일에는 모든 캡션과 "training data" 폴더 내 예시 워크플로우가 포함되어 있습니다.
모든 에포크는 여기에서 학습 데이터와 함께 확인할 수 있습니다.
저는 VLC를 사용해 애니메이션에서 스크린샷을 캡처하고, Birme 웹사이트를 통해 모든 이미지를 자르고 크기를 조정했습니다. 그런 후, 각 5장씩 묶어 Google의 Gemini 2.5 Pro에 입력하여 캡션을 생성했습니다(Gemini는 이미지 캡션 생성에 뛰어납니다). 캡션 생성 기반으로 seruva19의 프롬프트를 사용했으며, NSFW 콘텐츠는 이미지를 수정해 SFW로 바꾸거나 수작업으로 캡션을 작성했습니다. 캡션은 복장 및 디자인 변경 시 유연성을 확보하기 위해 가능한 한 상세하게 작성했고, 스타일의 학습과 과적합의 결과를 이해하고자 했습니다. 따라서 데이터셋은 대부분 애니메이션에서 직접 캡처한 장면으로 구성했고, 트리거 단어를 분리했습니다. 즉, "RAVTT"를 프롬프트에 포함하지 않고 임의의 인물을 묘사하더라도, 그 인물과 배경을 애니메이션 스타일로 생성할 수 있습니다. 단, 학습 결과를 보면 모든 여성 캐릭터가 레이븐 스타일로 나올 가능성이 높아, 모든 캐릭터를 캡션화하거나 일반적으로 묘사하는 것이 더 좋습니다. 캐릭터별로 별도 LoRA를 만드는 것이 이상적입니다. 다른 타이탄즈 주요 캐릭터들도 학습 데이터에 포함되어 있지만 일반적으로 캡션화되어 있어 프롬프트로 생성은 가능하나 품질은 좋지 않을 것으로 보입니다. 스타파이어는 일부 학습했지만 결과가 어색했습니다. 때로 녹색 동물이 베스트보이처럼 보이기도 합니다.
예시 캡션:
TeenTitans Style. RAVTT. RAVTT는 어두운 방에서 오른쪽을 바라보며 양팔을 옆으로 뻗고 있다. 창백한 라일락 피부, 짧고 각진 보라색 머리, 이마에 붉은 타원형 보석을 지닌 RAVTT는 검은 청색 후드 달린 망토를 입고 있으며, 후드는 아래로 내려 어깨에 놓여 있고 금색과 빨간 원형 단추로 고정되어 있다. 검은 긴 소매 레오타드를 입고, 금색 띠에 빨간 원형 보석 세 개가 달렸으며, 손목에는 검은 청색 손목장식이 있으며 각각 금색 원과 빨간 보석이 있다. 창백한 라일락 색 다리가 드러나 있다. 표정은 중립적이다. 검은 청색 망토는 약간 왼쪽으로 휘날린다. 배경은 어두운 방으로, 흐릿하고 각진 청색과 회색 벽 구조물이 있으며, 왼쪽 뒤로 어두운 금속질 기하학적 구조물의 일부가 보인다. 카메라 구성 및 시점은 눈높이의 중간 샷이다.
왜 이것을 만들었나요?
이 LoRA는 주로 학습 실험을 목적으로 만들었습니다. 저는 이 캐릭터와 애니메이션의 스타일을 좋아했고, 애니메이션 캐릭터 LoRA를 만들어보고 싶었습니다(이 LoRA는 제 Bowsette LoRA 이전에 만들었습니다). 또한 스타일과 캐릭터를 하나의 LoRA로 학습할 수 있는지 시도해보고 싶었습니다. 100 에포크(22,000개 이상의 스텝)까지 학습하여 과적합의 시점과 그 영향을 이해하고자 했습니다. 스타일은 매우 잘 유지되었지만 얼굴 표정이 정지된 채 고정된다는 것을 알게 되었습니다. 초기 에포크(10 등)에서는 애니메이션과 실사 구분이 어려웠지만, 스타일 부분이 점차 우세해지는 과정을 보는 것이 흥미로웠습니다. 여전히 "animated"라는 단어를 프롬프트에 포함해야 원하는 결과를 얻을 수 있다고 판단합니다. 긍정적인 교훈으로는, 캡션을 잘 작성했다면 많은 이미지가 필요 없어도 스타일을 잘 학습할 수 있고, 움직임이 스타일의 핵심이 아니라면 영상이 필요하지 않다는 점이었습니다.
큰 감사의 말씀
항상 seruva19의 Ghibli 및 Red Line LoRA와 학습 데이터가 제게 지속적인 영감과 지식의 원천이 되어 주었습니다.
학습 관련 질문에 항상 답해 주신 Banodoco 디스코드 커뮤니티에 감사드립니다.
그리고 멋진 노드와 사용법에 대한 조언을 주신 Kijai에게 감사드립니다.



















