Retro 90's Anime / Golden Boy Style Lora Wan 2.2 14B

세부 정보

모델 설명

Wan 2.2 14B V1 새로 추가된 내용:

- 이는 2.1 LoRA와 동일한 데이터셋 및 캡션을 사용하지만, 고급 및 저급 WAN 2.2 14B 모델 모두에서 학습되었습니다.

- 2.1에서 2.2로 업그레이드된 모든 혜택을 누릴 수 있습니다. 특히 움직임과 카메라 제어가 매우 훌륭합니다.

- 경고: 스타일 측면에서 데이터셋과 더욱 멀어진 느낌이 듭니다. 나중에 더 많은 학습을 시도해볼 예정이지만, 지금 상태에서 충분히 발표할 수 있다고 생각합니다. 다음으로 새로운 작업에 넘어가고 싶습니다. 이 업데이트는 주로 2.2 학습 방법을 익히기 위한 것이었죠. 아래에 제 학습 프로세스에 대한 새로운 정보를 설명합니다.

이 LoRA는 무엇인가요?

이 LoRA는 1995년 애니메이션 시리즈 "골든보이"의 스타일을 재현하기 위해 사용됩니다. 이 시리즈는 90년대 중반의 멋진 매트 페인팅 배경을 가지고 있으며, 이 스타일이 LoRA에서 훌륭하게 구현되었습니다. 캐릭터의 여자아이들을 그리는 방식도 뛰어나며, 당시의 거친 코미디 애니메이션 아트 스타일을 잘 대표합니다. 단순히 90년대 중반 레트로 애니메이션 분위기를 원한다면 이 LoRA를 사용해도 좋습니다. 이 LoRA는 일반적으로 오래된 스타일의 애니메이션을 매우 잘 구현합니다. 또한 자세한 환경 장면을 만드는 데 완벽합니다. 캡션은 인물뿐만 아니라 자전거, 차량, 맛있어 보이는 음식, 쓰레기 등 다양한 사물에 대해 학습되었습니다. 이 LoRA는 T2V 모델로 학습되었으므로 I2V에도 적용할 수 있습니다.

트리거 단어: Goldenboystyle

(애니메이션 또는 애니메이션 스타일에 대한 추가 설명은 프롬프트에 포함할 필요 없습니다. 이 트리거 단어만으로도 스타일이 적용됩니다.) 실제로 애니메이션 관련 키워드를 프롬프트에 추가하는 것은 권장하지 않습니다. 기반 모델이 이전보다 애니메이션에 훨씬 더 잘 학습되었기 때문에, 추가 키워드는 오히려 편향을 유발할 수 있습니다. 트리거 단어가 필요 없을 수도 있지만, 그래도 포함해 두었습니다.

시리즈의 모든 캐릭터가 학습 데이터에 포함되어 있습니다. 금발의 여자 캐릭터(마담 대통령)는 금발 여성으로 묘사하면 거의 정확히 생성됩니다. 시리즈의 어떤 캐릭터를 묘사하든 정확하게 생성될 가능성이 높습니다. 주인공 켄타로 오에는 이름 대신 묘사로만 생성됩니다. 캐릭터들이 하는 어이없는 표정도 학습 데이터에 포함되어 있습니다. 학습 데이터에는 가슴이 드러난 장면이 있지만, 하체는 포함되어 있지 않습니다.

권장 설정

기본 Wan 워크플로우 그대로 실행해도 잘 작동하며, 원본 소스의 진정한 레트로 애니메이션 스타일을 유지합니다. 하지만 이 LoRA를 아래의 최적화 LoRA와 혼합하는 것을 권장합니다. 아래 3가지 설정을 추천하며, 각각 장단점이 있습니다.

아직 기본 설정 외에 최적의 설정을 단정하기는 어렵습니다. 저는 2.1 라이트 LoRA를 선호하는데, 2.2는 움직임을 너무 강하게 억제하고 스타일을 원작과 멀어지게 만들기 때문입니다. 그래도 여전히 멋진 레트로 분위기는 유지됩니다.

앞으로는 제 LoRA용 워크플로우를 만들어 링크로 공유할 예정입니다. 따라서 이 LoRA에 대한 예제 워크플로우를 다운로드해서 직접 시도해보세요.

아래 이미지에서 스타일 변화를 확인할 수 있습니다. 움직임은 제공한 예제 생성 결과를 확인해 주세요. 댓글에 제가 사용한 설정이 명시되어 있습니다.

예제 워크플로우 링크

/model/1868641

1) 기본 설정
다른 LoRA 없이 이 LoRA만 실행하면 잘 작동합니다. 원본 소스의 스타일과 가장 가까운 느낌을 유지합니다. 3090 GPU에서는 720p 영상 생성에 20분 이상 소요됩니다.

20 스텝 (10/10), CFG 3.5, NAG 없음

장점: 학습 데이터에 가장 가깝습니다. 움직임, 품질, 카메라 제어 등 2.2의 모든 혜택을 얻을 수 있습니다.

단점: 느리고 리소스 소모가 큼

2) Lightx2V Wan 2.1 LoRA 최적화

  1. 이 LoRA (Golden Boy Style) (고급 및 저급 모두 강도 1.0)

  2. Wan21_T2V_14B_lightx2V_cfg_step_destill_lora_rank32 (고급 및 저급 모두 강도 1.0, 동일한 LoRA 파일 사용)

7 스텝 (3/4), 또는 4/4 또는 2/2로 시도 가능. CFG 1, NAG 사용

장점: 더 적은 스텝으로 고해상도를 완성할 수 있습니다. 움직임은 유지되며, 스타일은 기본 설정에 더 가깝습니다(라이트 LoRA보다).

단점: Lightx2V는 Wan 2.1 LoRA이므로, 출력이 2.2보다 2.1에 더 가까워질 수 있습니다. 또한 색상이 약간 어두워 보입니다. 때때로 이상한 눈꽃 효과가 추가되는데, 이는 Lightx2V LoRA의 강도를 높이면 완화할 수 있습니다.

3) Lightning 1.1 Wan 2.2 LoRA 최적화

7 스텝 (3/4), 또는 4/4 또는 2/2로 시도 가능. CFG 1, NAG 사용

  1. 이 LoRA (Golden Boy Style) (고급 및 저급 모두 강도 1.0)

  2. Wan 2.2 Lightning v1.1 LoRA (고급 및 저급 모두 강도 1.0)

장점: 더 적은 스텝으로 고해상도를 완성할 수 있습니다. 색상이 밝고 채도가 낮아지며, 이 스타일을 선호한다면 좋습니다. 2.2 LoRA이므로 2.2 Wan의 장점을 얻을 수 있습니다. 다만 제대로 작동하지 않는 경우가 있습니다.

단점: 스타일에 큰 영향을 미칩니다. 여전히 애니메이션 레트로 느낌은 있지만, 색상이 원작보다 너무 밝아집니다. 움직임이 매우 약해집니다.

4) 기타 2.1 LoRA

위 두 LoRA는 2.1 버전에서 매우 훌륭했지만, 저는 사용하지 않습니다. 왜냐하면 2.1 LoRA를 많이 사용할수록 출력이 2.2가 아니라 2.1로 되돌아가기 때문입니다. 만약 이 LoRA들의 2.2 버전이 공개된다면 업데이트하겠습니다.

아래 예제를 통해 각 설정이 원본과 비교해 출력에 어떤 영향을 미치는지 확인하세요.

결국, 모든 설정에는 단점이 있으므로 정확한 최적의 선택은 없습니다. 아직 시기상조라 최적의 설정을 말하기 어렵습니다. 향후 더 나은 방법을 발견하면 이 부분을 업데이트하겠습니다. #3에서 움직임이 사라져서 저는 주로 #2를 사용합니다. #1은 너무 느려서 인내심이 없어요. 좋은 설정 제안이 있다면 알려주세요.

학습 정보

저급 LoRA 모델:

[model]

type = 'wan'

ckpt_path = '/data/trainingstuff/wan2.2_base_checkpoint/low_noise_model'

transformer_path = '/data/trainingstuff/wan2.2_base_checkpoint/low_noise_model'

dtype = 'bfloat16'

transformer_dtype = 'float8'

timestep_sample_method = 'logit_normal'

blocks_to_swap = 8

min_t = 0

max_t = 0.875

[adapter]

type = 'lora'

rank = 32

dtype = 'bfloat16'

[optimizer]

type = 'adamw_optimi'

lr = 2e-5

betas = [0.9, 0.99]

weight_decay = 0.01

eps = 1e-8

고급 LoRA 모델:

LoRA 설정과 거의 동일하나, max_t/min_t가 0.875에서 1.0 범위로 변경됨.

type = 'automagic'

lr = 2e-5

weight_decay = 0.00195

lr_bump = 5e-6

eps = 1e-8

그래프에 대해 설명해보겠습니다:

아래는 저급 LoRA 그래프입니다:

Image

그래프가 위아래로 뛰며, 시간이 지나면서 점차 하향 추세를 보입니다. 65 에포크에서는 괜찮았지만, 더 학습했습니다. 정직히 말해 65 에포크와 106 에포크 사이에는 큰 차이가 없었습니다. 0.8 이하로 낮추지는 못했는데, 학습 설정을 제대로 조정하면 가능할 수도 있습니다.

아래는 고급 LoRA 그래프입니다:

Image

(제 학습 데이터를 찾지 못했지만, 이 이전 스크린샷으로 대략적인 경향을 파악할 수 있습니다. 이와 유사한 추세를 보이다가 플랫해집니다. 고급 LoRA는 손실 추세가 훨씬 더 나은 편이며, 필요한 스텝 수도 훨씬 적습니다.)

죄송합니다만, 학습 데이터를 찾지 못했습니다. 삭제되었을 수도 있습니다(에포크 파일은 여전히 보관 중입니다). 그러나 이 모델은 저급 LoRA와 달리 빠르게 좋은 상태에 도달하기 때문에 큰 문제가 아닙니다. 저는 고급 LoRA가 미리보기에서 일반적인 형태를 잡는 데 적합하다고 생각합니다. 왜냐하면 움직임을 위한 모델이기 때문입니다. 세부 사항은 저급 LoRA에서 채우도록 하세요. 형태가 충분히 가깝지 않으면 저급 모델에서 세부 사항이 이상하게 보일 수 있습니다.

참고:

저급 모델에 대해 처음으로 automagic을 실행해봤지만 결과가 나빴습니다. Lightx LoRA 없이 작동하지 않았고, 잔상과 모션 블러가 발생했습니다. 그런 다음 위에 나열된 설정으로 저급 모델에 adamw_optimi를 적용해 다시 학습했더니 모든 문제가 해결되었습니다. 확신할 수는 없지만, 저급 모델은 기본 설정과 adamw_optimi를 사용하면 더 잘 학습될 것이라 생각합니다. 고급 모델은 둘 다 가능합니다. 고급 모델은 학습이 매우 빠르며, 저급 모델처럼 오랜 스텝이 필요하지 않습니다. 저급 모델은 학습이 느리고 손실 추세가 매우 불안정합니다.

또한, 65 에포크 후 체크포인트를 재개할 때 저급 LoRA 학습을 잘못했습니다. 어떤 이유에서인지 마지막 한 번 학습 시 30 에포크 동안 이미지만 학습한 것 같습니다. 부정적인 결과는 관찰되지 않았으므로, 최신 에포크만 제공하겠습니다. 학습 데이터에 포함된 다른 저급 에포크도 시도해보세요.

Wan 2.2 LoRA를 테스트하는 것은 어렵습니다. 기본적으로 고급 및 저급 두 모델을 모두 학습한 후 미세 조정해야 합니다. 이미 2.1 LoRA를 가지고 있다면, 고급 모델에 사용하고 저급 모델을 먼저 학습할 수 있지만, 2.1과 2.2를 혼합하게 되므로, 테스트 전에 먼저 고급 모델을 학습하는 것이 더 좋습니다. 전반적으로 이 두 LoRA 시스템은 좋지 않습니다. 문제 발생 시 너무 많은 변수를 테스트해야 하기 때문입니다. 디버깅에 오랜 시간이 걸렸고, 10,000스텝 이상의 학습 데이터를 포기해야 했습니다.

큰 감사의 말

감사할 분들이 너무 많습니다. Banodoco 디스코드에서 허무한 질문을 자주 드렸지만, 모두 친절하게 제 질문에 답해주고 도와주셨습니다. 항상 Kijai님의 훌륭한 도움에 감사드리며, lightx 팀의 LoRA와 Seruva19님의 LoRA 및 상세한 문서화에 감사드립니다. 이 분야에 필요한 것은 바로 이런 정보입니다. 저는 제대로 된 지식이 없었고, 기존 정보를 모아서 끊임없이 시도해봤습니다. 모두가 즐길 수 있는 결과를 얻고 싶었습니다.

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.