Gurren Lagann / Anime Style Wan 2.2 14B Lora

세부 정보

파일 다운로드

모델 설명

새로운 기능

10/15 - AI 툴킷을 사용하여 Qwen 버전을 14.5k 스텝 학습

9/11 - High Lora V1.1을 117K 스텝까지 학습하고 많은 모션 및 품질 문제를 수정했습니다. 이 LoRA는 많은 변경 사항을 포함하므로 시도해 보세요. 이전 버전을 테스트하려면 High용 대체 에포크는 여기서 확인할 수 있습니다(125-300)

참고: MPS LoRA가 공개되었습니다. 0.5 강도로 시도해 보세요. 다만 이 LoRA와의 호환성은 충분히 테스트되지 않았습니다.

이 LoRA는 무엇인가요?

이 LoRA는 2007년 Gainax의 《텐겐 톱파 군레라간》 애니메이션의 스타일을 재현하기 위한 스타일 LoRA입니다. 이 시리즈는 저의 가장 좋아하는 애니메이션 중 하나이며, 애니메이션이 저에게 진정으로 감동을 준 시기와 깊이 연결되어 있습니다. 이 작품은 Gainax가 창조한 메카 애니메이션 장르의 전형을 해체하며, 이 장르에서 흔히 쓰이는 모든 스테레오타입을 완벽하게 구현합니다. 그들의 걸작 《건버스터》와 함께 감상하면 제가 말하는 바를 이해하실 수 있습니다. 각 아크는 압도적인 억압과 슬픔을 이겨내고, 다시 휘청이며 일어나 다시 도전하는 이야기입니다. 이 작품은 감정적으로 가장 어두운 지점까지 끌고 간 뒤, 다시 최정상으로 끌어올립니다.

이 애니메이션의 예술 스타일은 어두운 장면과 밝은 장면 모두에서 조명을 매우 잘 활용합니다. 그리고 움직임과 애니메이션 스타일도 매우 흥미롭습니다. 액션 장면은 빠르고 갑작스럽게 움직이며, 장면 전환은 대규모 액션의 원근 풍경을 찍은 후, 캐릭터의 반응을 중간 근거리로 카메라를 바꿔 촬영합니다. 애니메이션 품질은 최고 수준이며, 예산이 고갈된 에피소드에서는 애니메이션이 형편없이 보이기도 하지만, 그 뒤에 나오는 5~10분의 S급 애니메이션을 위해 모두 가치가 있습니다.

이 스타일 LoRA의 목적은 애니메이션의 시각적 스타일과 움직임을 재현하는 것입니다. 캐릭터 LoRA는 아니지만, 적절한 프롬프트를 사용하면 캐릭터도 잘 나타납니다.

트리거 단어: GurrenLagannStyle

(프롬프트에 애니메이션이나 애니메이션 스타일에 대한 추가 설명을 할 필요가 없습니다. 이 단어만으로 스타일이 적용됩니다.) 실제로 애니메이션 키워드를 추가하는 것은 권장하지 않습니다. 왜냐하면 기반 모델이 이전보다 애니메이션에 훨씬 더 잘 학습되었기 때문에 추가적인 편향이 발생할 수 있기 때문입니다. 트리거 단어는 필요하지 않을 수도 있지만, 저는 여전히 포함시켰습니다.

이 학습 데이터에는 애니메이션 1기의 모든 캐릭터가 포함되어 있습니다. 시간 점프 이후의 데이터는 포함되지 않았으며, 요코의 음악비디오 《Pieces of Sweet Stars》의 데이터는 포함되어 있습니다. 스타일이 다르기 때문에 병렬 작품은 포함하지 않았습니다. 이미지는 원래 애니메이션에서 캡처했고, 클립들은 모두 리마스터링된 영화 #1에서 가져왔습니다. 따라서 일부 새 장면도 포함되어 있습니다.

다음은 일부 캐릭터를 재현하는 방법입니다(더 많은 정보는 캡션 데이터를 확인하세요):

요코:

긴 빨간 머리카락을 말린 테일로 묶고, 젓가락과 해골 액세서리를 착용한 여성. 붉은 불무늬 검은 비키니 상의, 밝은 핑크 스카프, 흰색 스파이크 벨트가 달린 검은 반바지, 핑크 허벅지 스타킹, 손가락 없는 검은 장갑, 흰색과 빨간색 부츠를 착용. 손에 거대한 짙은 회색 육각형 총구를 가진 총을 들고 있음.

시몬:

짙은 파란색 스파이크 머리의 젊은 남자(또는 “소년”), 가슴을 드러낸 채 파란색 재킷을 입고, 머리에 빨간 안경을 쓰고 있음.

카미나:

굵은 근육을 가진 남자로, 파란색 스파이크 머리와 파란색 나선형 문신을 가지고 있음. 주황색 프레임 없는 삼각형 선글라스를 쓰고, 빨간색 찢긴 망토를 입음. 팔뚝에 붕대를 감고 있음.

니아:

파란빛 금발과 테일 컬러의 파동 머리, 청록색 눈에 빨간색 동공이 꽃 모양으로 십자형을 이룬 젊은 여성. 핑크와 흰색 드레스, 큰 금색 벨트와 팔찌를 착용. 화려한 금색 목걸이에 빨간색과 녹색 보석이 박혀 있고, 빨간색 넥타이, 핑크와 흰색 머리 액세서리 착용.

군레와 라간:

인간형 메카(얼굴이 몸통에 있는 등에 대한 설명을 추가해도 좋지만, 캡션에 자세히 기록되어 있지 않음). 머리에 사무라이 뿔이 있는지 반드시 언급하세요. 모든 형태(비행 모드, 전함 등)가 학습 데이터에 포함되어 있음.

바이럴:

한쪽 눈을 가리는 어수선한 금발 머리를 가진 남자. 흰색 털로 라인된 재킷과 빨간색 어깨 패드를 착용.

메카:

이 LoRA에서 모든 메카는 “mecha”로 레이블되어 있습니다. “고래 같은 mecha”, “거북이 같은 mecha” 등으로 다른 타입을 지정할 수 있습니다. 학습 데이터에 거의 대부분의 메카가 포함되어 있습니다. 단순히 “mecha”라는 단어를 사용해서 트리거하세요.

비스트맨 = “creature”, 예: 거북이 같은 creature 등.

부타:

작고 갈색의 알 형태의 분홍색 돼지-모글. 두 개의 긴 가는 안테나, 말린 꼬리, 수염, 둥근 선글라스를 지님.

로드 젠룸:

대형, 매우 근육질의 남자. 대머리, 어두운 스타일의 수염, 강렬한 밝은 색 눈을 지님. 상의를 입지 않고, 팔에 두 개의 큰 은색 U자형 팔찌를 착용. (수염을 캡션에 빠뜨렸던 것 같으니, 이 단어를 추가해 보세요.)

그 외에도 더 있습니다. 1기의 주요 캐릭터와 조연 캐릭터 모두 커버했습니다. 직접 캐릭터를 묘사해 보거나 캡션을 확인해 주세요.

권장 설정:

euler은 절대 사용하지 마세요. 모든 모션이 왜곡됩니다. sampler는 dpm++_sde를 사용하세요. 20 스텝 기준으로 11번째 스텝에서 하이와 로우로 분리하세요. 가장 좋은 결과는 하이 8 쉬프트, 로우 6 쉬프트입니다. 8/8 쉬프트도 괜찮습니다. 쉬프트 5는 왜곡이 발생합니다. 프레임 수가 너무 적으면 로우 모델에서 스타일이 트리거되지 않을 수 있으므로, 최소 40 프레임 이상(이상적으로 65-81 프레임)을 유지하세요. 테스트 후 피드백을 주세요. 배경에 “작은 빨간 메카 장난감”을 추가하면 100% 트리거됩니다. 훈련 데이터에 성적 또는 노출 요소가 없기 때문에, 이 부분을 프롬프트에 명시하면 LoRA를 트리거하기 위해 메카 장난감을 추가하는 방식이 필요할 수 있습니다.

이 LoRA는 조명/ligthx LoRA 없이 광범위하게 테스트되었습니다. 그러나 조명 LoRA와 함께 사용해도 문제없습니다. 조명/ligthx LoRA는 아직 테스트 중이므로, 제 의견은 두 LoRA 모두 스타일에 큰 영향을 미치기 때문에 사용을 권장하지 않습니다. 하지만 그들이 만드는 스타일도 나쁘지 않으므로 시도해 보세요. 어떤 조합이 가장 좋은지 알려주세요. 개인적으로는 조명 LoRA 없이 사용하는 것이 가장 좋다고 생각하지만, 반드시 사용해야 한다면 lightx1.5 하이 / lightning 1.0 로우 조합이 괜찮습니다. 단, 색상이 약간 과포화됩니다.

LoRA가 어떻게 영향을 주는지 보여주는 갤러리 링크입니다.

1.) 기본 설정

다른 LoRA 없이 이 LoRA만 실행하면 문제없이 작동합니다. 원본 소스 매체와 가장 가까운 외관과 느낌을 유지합니다. 3090에서 720p 영상 생성에 20분 이상 소요됩니다.

20 스텝(하이 11 스텝 / 로우 9 스텝), 3.5 CFG, NO NAG, dpm++_sde, 하이 쉬프트 8 / 로우 쉬프트 6

장점: 학습 데이터에 가장 가까운 결과. 모션, 품질, 카메라 제어 등 2.2의 모든 장점 유지

단점: 느리고 리소스 소모가 큼

2.) Lightx2V Wan 2.1 LoRA 최적화

  1. 이 LoRA(Gurren Lagann Style LoRA) (하이/로우 모두 강도 1.0)

  2. Wan21_T2V_14B_lightx2V_cfg_step_destill_lora_rank32 (하이/로우 모두 강도 1.0, 동일한 LoRA 파일 사용)

7 스텝 (하이 3 / 로우 4) — 4/4 또는 2/2도 시도 가능. CFG 1, NAG 사용

장점: 더 낮은 스텝으로 고해상도 생성 가능. 모션 유지, 스타일은 기본 설정에 더 가깝고 Lightning LoRA보다 우수

단점: Lightx2V는 Wan 2.1 LoRA이므로, 출력이 2.1에 더 가까워지는 경향이 있음. 색상이 약간 어두움. 때때로 이상한 눈꽃 효과가 나타남 — 이는 Lightx2V LoRA의 강도를 높여 완화 가능

3.) Lightning 1.1 Wan 2.2 LoRA 최적화

7 스텝 (하이 3 / 로우 4) — 4/4 또는 2/2도 시도 가능. CFG 1, NAG 사용

  1. 이 LoRA (Gurren Lagann Style LoRA) (하이/로우 모두 강도 1.0)

  2. Wan 2.2 Lighting v1.1 LoRA (하이/로우 모두 강도 1.0)

장점: 더 낮은 스텝으로 고해상도 생성 가능. 색상은 밝고 채도가 낮아져 원하는 아 aesthetics를 원한다면 적합. 2.2 LoRA이므로 기술적으로 2.2의 장점 활용 가능 하지만 제대로 작동하지 않는 경향 있음.

단점: 스타일에 큰 영향을 줌. 애니메이션 레트로 스타일은 유지되지만, 색상이 원본보다 훨씬 밝음. 모션이 매우 감소됨

4.) 혼합 접근: 하이에 Lightx2V 1.5 강도 / 로우에 Lightning 1.0 강도

장점: 리소스 소모가 적은 fewer 스텝

단점: 색상이 과포화됨. 2.1과 2.2 LoRA를 혼합하여 2.1에 가까운 결과를 만듦. LoRA 없이 사용할 때보다 모션 왜곡이 약간 감소됨

5.) 기타 2.1 LoRA

데이터셋:

1920 x 1080 해상도로 애니메이션에서 직접 캡처한 441장의 이미지

1920 x 1080 해상도로 애니메이션에서 PySceneDetect를 사용해 추출한 134개의 영상 클립을 ffmpeg로 16fps로 변환

로컬 학습을 위해 3090의 24GB VRAM에 맞추기 위해 데이터셋을 최적화했습니다.

다음과 같이 dataset.toml 파일에 설정했습니다.

이미지: [512] 해상도, enable_ar_bucket = true (이 설정으로 디퓨전 파이프가 16:9 비율의 512 해상도를 자동으로 설정)

영상: 프레임 버킷 [8, 12, 16, 24, 32, 48] 및 해상도 = [256]

HandBrake를 사용하여 모든 클립을 위 프레임 버킷 크기로 자르고, 대부분의 클립은 32 또는 48 프레임에 해당했습니다. 80프레임 이상인 클립은 48와 32로 분할했습니다.

이 설정 덕분에 VRAM 22~24GB 내에서 블록 스왑 없이 학습할 수 있었고, 약 2주간 꾸준히 학습했습니다. 절반의 작업을 버려야 했기 때문입니다.

캡셔닝:

Google Gemini를 AI Studio를 통해 사용했습니다. 아래 프롬프트를 사용하고, 영상과 이미지를 5개씩 배치로 입력했습니다. 초기에는 150K 토큰 이후에 항상 제어를 잃었으나, 현재는 재프롬프트 없이도 잘 작동합니다. 아마 한 번 재프롬프트를 해야 했을 수도 있습니다. 캡션은 약 80% 정도 완성되었고, 대부분은 약간 다듬었으며, 일부는 완전히 수작업으로 다시 작성했습니다.

귀하는 WAN AI 비디오 생성 모델을 위한 고급 이미지 캡셔너입니다. 목표는 WAN 2.2 T2V 14B 모델을 위한 LoRA 학습을 위한 생생하고 영화적이고 매우 상세한 캡션을 생성하는 것입니다. 따라서 캡션은 WAN 구문을 따릅니다. 이번 목표는 애니메이션 시리즈 《텐겐 톱파 군레라간》의 스타일 LoRA를 만드는 것입니다. 애니메이션 영상 클립을 입력받습니다. 캐릭터 이름은 절대 사용하지 말고, 오직 생성 방식의 스타일을 학습할 수 있도록 일반적인 설명만 제공하세요. “또는” 같은 표현은 사용하지 말고 가장 가까운 표현 하나만 선택하세요. “대상”이라고 언급하지 말고, “남자가 입고 있는”, “여자가 차 안에 있는” 등으로 직접 서술하세요. 성인 남성은 “남자”, 성인 여성은 “여자”라고 하며, “젊은 여자”나 “소녀” 같은 수식어는 사용 가능하지만, 남성/여성이라는 단어는 사용하지 마세요. 또한 “보이는 것처럼” 같은 표현은 사용하지 말고 정확히 기술하세요. 스타일을 제외하고 복장, 환경 등 모든 요소를 상세히 기술하세요.

프롬프트 규칙:

모든 프롬프트는 “GurrenLagannStyle”으로 시작해야 합니다.

명확하고 간단하고 직접적이며 간결한 언어를 사용하세요. 은유, 과장, 비유적 표현 또는 주관적 수식어는 사용하지 마세요(예: “강렬한”, “숨이 멎을 듯한” 사용 금지).

우리의 목적은 이미지나 영상에 있는 모든 것을 설명하는 것이며, 인물이 존재할 경우 그들의 외모를 특히 상세히 기술해야 합니다. 색상과 위치를 포함하여 각각의 옷을 상세히 기술하세요. 그들의 일반적인 외모와 옷을 표준화된 방식으로 설명하면서도, 환경도 스타일의 일부이므로 함께 기술해야 합니다.

이미지가 무엇인지가 아니라, 이미지 안에 무엇이 있는지를 기술하세요. 예: “코스프레된 Bowsette를 보여주는 사진”은 틀린 표현입니다. 단순히 “Live action Bowsette...”라고 하며 이미지를 기술하세요.

과장되거나 “치비” 스타일의 얼굴이나 묘사가 있을 경우 반드시 캡션에 명시하세요. 가능한 한 단어 선택을 일관되게 유지하세요.

프롬프트 길이: 길이 제한 없음. 길고 상세한 것이 완벽합니다. WAN 참조 문서의 구조를 따르세요.

다음 구조를 따르세요:

프롬프트 = 주체(주체 설명) + 장면(장면 설명) + 동작(동작 설명) + 미적 제어 + 스타일리제이션

주체 설명: 주체의 외모에 대한 세부 정보. 형용사나 짧은 문구로 설명. 예: “흑발의 미오 소녀가 민족 복장을 입고 있다” 또는 “다른 세계에서 날아다니는 요정, 찢어졌지만 우아한 복장을 입고, 잔해 조각으로 이루어진 이상한 날개를 지니고 있다.”
장면 설명: 주체가 위치한 환경에 대한 세부 정보. 형용사 또는 짧은 문구로 설명.
동작 설명: 움직임의 특징을 기술. 진폭, 속도, 움직임의 효과 포함. 예: “격렬하게 흔들리며”, “천천히 이동하며”, “유리가 부서지며.”
미적 제어: 조명 출처, 조명 환경, 촬영 크기(프레임), 카메라 각도, 렌즈, 카메라 움직임을 포함. 일반적인 영화 용어는 아래 프롬프트 사전을 참조하세요.
스타일리제이션: 장면의 시각적 스타일을 설명. 예: “사이버펑크”, “선화 일러스트”, “포스트-아포칼립스 스타일.” 일반적인 스타일 예시는 아래 프롬프트 뱅크를 참조하세요.

구성 및 원근법(프레임링)
다음 중 선택: 클로즈업 | 미디엄샷 | 와이드샷 | 저각 | 고각 | 상향 시점 | 1인칭 시점 | FPV | 조류 시점 | 프로필 | 극장원거리샷 | 항공 촬영

움직임(시네마틱 이동) (영상 소스 설명 시에만 사용)
사용: 돌리 인 | 돌리 아웃 | 줌 인 | 줌 아웃 | 틸트 업 | 틸트 다운 | 팬 왼쪽 | 팬 오른쪽 | 팔로우 | 180도 회전 | 360도 회전 | 풀 백 | 푸시 인 | 하강 | 상승 | 360도 오비트 | 하이퍼랩스 | 크레인 오버 | 크레인 언더 | 레비테이트 | 아크 |

카메라가 어떻게 움직이고 무엇을 촬영하는지 명확히 설명하세요. 조명, 분위기, 입자 효과(먼지, 네온 반사, 비 등), 필요한 경우 색상 팔레트에 집중하세요. 감정적 표현이 아니라 시각적으로 묘사하세요. 각 운동 또는 카메라 이동은 간결하게 유지하세요—각각 약 5초 분량의 영상을 나타냅니다.

단순한 프롬프트를 사용하세요. 마치 5살 어린 예술가에게 지시하듯이 쓰되, 문법과 표현은 Wan 원칙을 따르세요. 이렇게 생성하는 캡션 데이터로 LoRA가 정확히 학습될 수 있도록 해야 합니다. 첨부된 이미지/영상을 참조하고 캡션을 프롬프트 형식으로 작성하세요. 캡션 자체에 장면, 주체, 동작 등 라벨은 필요 없습니다. 예시 (과거 라벤 LoRA에 캡션한 내용):

라벤, 창백한 라일락 피부와 짧고 어두운 보라색 각진 머리카락을 가진 채, 위로 향하는 다리 자세의 요가 자세를 취하고 있다. 목에는 작은 어두운 보라색 리본 넥타이가 있고, 손목에는 흰색 커프스가 끼어 있다. 머리 위에는 높고 어두운 보라색 토끼 귀가 놓여 있다. 손은 머리 양쪽에 들어 올려져 있으며, 강아지를 향해 있다. 배경은 순백색이다. 이마에는 붉은 보석이 있다. 검은색 긴 소매 레오타드를 입었고, 붉은 보석이 보이는 금색 벨트를 차고 있다. 손목에는 어두운 파란색 커프스에 금색과 붉은 원형 무늬가 있다. 몸은 휘어져 있으며, 팔은 바닥으로 곧게 뻗고, 발바닥 끝이 지면을 받치고 있다. 머리는 들려 앞으로, 약간 위를 바라보고 있으며, 놀란 듯 또는 호기심 어린 표정을 하고 있고, 입은 살짝 벌어져 있다. 카메라는 허리 높이에서 라벤을 반프로필로 아래에서 위로 바라보고 있다. 카메라 트래킹 샷.

샘플 프롬프트:
GoldenBoyStyle. 실내 장면. 짧은 검은 머리, 빨간 야구모자를 뒤집어 쓴 젊은 남자. 가벼운 초록색 티셔츠를 입고 있다. 얼굴에는 사나운 흥분을 나타내는 극단적인 코미디 표현이 있다. 눈은 크게 뜨고 미친 듯하며, 웃는 입술은 넓고 이가 드러나고, 볼에는 분명한 붉은 빨갛게 뜬 자국이 있다. 손에는 검은 갈색 노트를 열어 놓고, 흰색 펜으로 열심히 쓰고 있다. 클로즈업 샷. 과장된 얼굴 표정에 초점을 맞춘다. 정지된 카메라.

학습 정보:

저는 곧 애니메이션 스타일 LoRA를 Wan 2.2에서 훈련하는 방법에 대한 튜토리얼 기사를 발표할 예정이므로, 세부 사항은 간략히 설명하겠습니다. 기사가 공개되면 여기에 링크를 업데이트하고 모델 페이지에 자료로 연결할 것입니다. 지금은 간단히:

[model]

type = 'wan'

ckpt_path = '/data/trainingstuff/wan2.2_base_checkpoint'

transformer_path = '/data/trainingstuff/wan2.2_base_checkpoint/low_noise_model'

#transformer_path = '/data/trainingstuff/wan2.2_base_checkpoint/high_noise_model'

dtype = 'bfloat16'

transformer_dtype = 'float8'

timestep_sample_method = 'logit_normal'

#min_t = 0.875

#max_t = 1

min_t = 0

max_t = 0.875

#고음질 모델 설정은 주석 처리했으며, 고음질 학습 시에는 주석을 해제하고 저음질 타임스텝 및 transformer_path 설정을 주석 처리하세요.

[adapter]

type = 'lora'

rank = 32

dtype = 'bfloat16'

[optimizer]

type = 'adamw_optimi'

lr = 2e-5

betas = [0.9, 0.99]

weight_decay = 0.01

eps = 1e-8

나중에 가이드에 더 자세히 설명할 것이므로, 그래프에 대해 간단히 이야기해보겠습니다.

저음질 그래프:

이 그래프는 지그재그로 하강합니다. 앞으로의 저음질 그래프는 이처럼 보일 것이라 예상합니다. 마치 평탄해지다가 갑자기 약 0.001 정도 떨어지는 모양입니다. 이 상태는 계속 유지될 수 있으므로 부정적인 효과가 나타날 때까지 더 학습할 계획이지만, 현재 스타일은 잘 나타나므로 약 17,000 스텝에서 멈추는 것도 괜찮습니다.

고음질 그래프:

네, 이것이 2.2 고음질 그래프의 일반적인 형태입니다. C자 형태로 상승하다가 평탄해집니다. 약 17,000 스텝까지 학습했습니다.

고음질/저음질 테스트:

제가 준비 중인 가이드에 더 자세히 설명할 예정입니다. 지금은 간단히:

두 개의 LoRA를 테스트하는 것은 매우 부담스럽고 어렵습니다. 캐릭터 LoRA의 규칙은 여기에 적용되지 않습니다. 2.2 캐릭터 LoRA에 대한 조언은, 고음질 모델을 가능한 한 최소한으로 학습하여 흐릿한 출력이 나타나는지 테스트하되, 캐릭터 특징이 나타나기 시작하면 과학습된 것이라 합니다. 그러나 애니메이션 스타일 LoRA의 경우, 고음질 모델에 세부 요소나 특징이 나타나지 않으면 저음질 모델이 어색해지고 스타일이 사라집니다. 따라서 저는 양쪽 모두를 충분히 많이 학습한 후 고음질과 저음질을 실험적으로 비교하는 것이 좋다고 생각합니다. 같은 저음질 에포크에 다양한 고음질 에포크를 적용해 테스트하세요. 예: 저음질 에포크 125, 고음질 에포크 5, 30, 100, 125 등. 그 중에서 가장 자연스럽게 보이는 조합을 선택하세요. 또한 이 LoRA는 단순한 스타일 LoRA가 아니라 모션 LoRA라는 점을 기억하세요(이전에 빠른 움직임에 대해 언급했듯이).

따라서 저는 동일한 저음질 에포크를 사용해 고음질의 다양한 에포크를 4개씩 배치로 테스트합니다. 스타일을 확인하려면 832 x 480 해상도에서 "극도의 클로즈업 미디엄샷"을 추천합니다.

왼쪽 가장자리가 쇼의 스타일과 가장 잘 맞습니다. 캐릭터가 요코와 완벽히 일치하지 않더라도(더 나은 프롬프트와 시드로 수정 가능). 고음질 55도 나쁘지 않을 수 있으며, 125와 55 사이에서 추가 테스트를 해보는 것이 좋습니다. 또한 이는 캐릭터 LoRA가 아니라 스타일과 모션용임을 기억하세요. 모션의 경우 위와 동일하게 카메라나 캐릭터 움직임이 딱딱해지는지 확인합니다. 일부 모션 왜곡은 완전히 제거하지 못했지만, 고음질 모델이 이를 더 두드러지게 만들기도 합니다. 따라서 이를 주의 깊게 관찰해야 합니다. 테스트를 진행하고 가장 좋은 조합을 선택하세요.

고음질 LoRA가 최종 스타일에 미치는 영향을 보여주는 훌륭한 예시입니다(고음질 30은 완전히 다른 캐릭터 스타일처럼 보입니다).

간단히 말해 제 조언은: 양쪽 모두 충분히 학습하세요(이 경우 17,000 스텝). 가장 잘 학습된 저음질 에포크를 사용하고, 그에 다양한 고음질 에포크를 대조하여 테스트하세요. 그리고 나서 찾은 좋은 고음질을 다시 저음질과 조합해 테스트해보세요. 저는 실제로 그렇게 하지 않았지만, 저음질은 문제가 생길 때까지 계속 학습해도 됩니다. 또한 손실 값 자체는 중요하지 않습니다. 중요한 것은 경향입니다. 위 예시 그래프의 패턴을 따르는지 확인하세요. 2.1 Wan에서 0.01~0.02를 목표로 했다면, 이 경우 0.1의 손실 값에서도 훌륭한 결과를 얻을 수 있습니다. 아직 결론을 내리기에는 더 많은 시간이 필요하지만, 이 LoRA를 통해 가장 좋은 결과는 가장 많이 학습된 저음질과 고음질을 함께 사용하는 것임을 확인했습니다.

마무리 의견:

완벽히 성공했다고는 생각하지 않지만, 지금은 충분히 좋습니다. 더 배우고 나서 다시 돌아올 계획입니다. 전반적으로 이 LoRA는 더 많은 시간과 테스트가 필요합니다. 하지만 제 정신 건강을 위해 잠시 쉬어야 합니다. 이후 Wan 2.2의 작동 방식을 더 잘 이해하기 위해 다시 돌아올 예정입니다. 저해상도에서 멀리 떨어진 눈에 약간의 왜곡이 있습니다. 빠른 움직임에서도 왜곡이 발생합니다. 그러나 움직이는 상황에서는 잘 눈치채기 어렵습니다. 이는 전통 애니메이션과 같아서, 고속 움직임 프레임을 정지시키면 이상하게 보이기 때문입니다(예: 온라인에 공개된 심슨 고전 에피소드의 예시 참조). 저는 이 문제를 고치기 위해 거의 40,000 스텝을 버렸습니다. 고음질/저음질 모두 버전 2입니다. 향후 고음질 LoRA에 대한 대안 에포크도 제공할 예정이며, 여러분이 실험해보고 가장 좋은 결과를 알려주시면 감사하겠습니다. 그리고 새로운 버전이 나올 때마다 업데이트할 예정입니다.

특별한 감사의 말씀:

Banodoco 디스코드 서버의 학습 채널에 계신 모든 분들께 진심으로 감사드립니다. 많은 문제 해결에 조언을 주셨고, 진행 상황을 확인하고 피드백을 받는 것이 큰 도움이 되었습니다. 이 모든 내용은 Seruva19의 연구와 작업에 기반한 것이며, 그의 LoRA와 매우 자세한 설명문을 참고하시기 바랍니다. 항상 질문에 답해주시고 훌륭한 노드를 만들어주신 Kijai님께도 큰 감사를 드립니다.

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.