ClothConsistency-Wan2.2-I2V-ConsistencyLoRA2

세부 정보

모델 설명

쇼케이스의 샘플은 고강도 및 저강도와 함께 라이트닝-로우 LoRA를 사용합니다.

이것은 LoRA입니다. 워크플로우가 아닙니다.

안녕하세요, 오랜만입니다. 최근 한 달 동안 Wan2.2-I2V 모델의 LoRA에 혁신적인 기능을 연구하기 위해 시간을 보냈기 때문에 더 많은 모델을 출시하지 못해 사과드립니다. 마침내 연구 성과를 얻었고, 제가 개인적으로 ConsistencyLoRA 시리즈라고 부르는 이 Wan2.2-I2V LoRA 시리즈를 소개하고자 합니다. 이 LoRA 시리즈의 기능은 입력 이미지를 사용하여 Wan2.2-I2V 모델을 통해 해당 이미지와 높은 일관성을 유지하는 영상을 직접 생성하는 것입니다.

大家好,好久不见.由于最近一个月都在研究Wan2.2-I2V模型Lora的创新功能,没有发更多的模型,抱歉.最近终于有了一些研究结果,向大家介绍这个系列的Wan2.2-I2V LoRA,我自己称为ConsistencyLoRA系列.这个系列的LoRA功能是通过输入图像,通过Wan2.2-I2V模型直接生成与输入图像高度一致性的视频.

"ClothConsistency"는 이 시리즈의 두 번째 모델입니다. 이 모델은 의상의 제품 사진(흰색 배경)과 텍스트 프롬프트를 직접 사용하여 특정 옷을 입은 인물의 영상을 생성하도록 설계되었습니다(참고용 예제가 몇 가지 제공됩니다).

개인적인 테스트 결과(강도: high 0.7, low 0.9, lightning low: 1.0), 철저하게 작성된 프롬프트와 lightning-low LoRA를 가속기로 사용할 때 ClothConsistency는 매우 우수한 성능을 발휘합니다. 예를 들어, 스케이트보딩 소년의 옷의 일관성, 한복의 무늬, 춤추는 소녀의 재킷에 나타나는 빛과 그림자, LV 재킷의 패턴 등을 정확히 재현합니다.

효과적인 프롬프트 작성 방법: 이 모델은 코트, 치마, 셔츠, 재킷, 드레스, 바지 등 옷의 종류로 학습되었습니다. 따라서 프롬프트에서 옷의 종류를 명시하면 더 나은 결과를 얻을 수 있습니다. 예를 들어, 재킷이라면 프롬프트는 "첫 번째 프레임의 재킷을 사용하여, 재킷을 입은 모델의 영상을 생성"과 같이 작성해야 합니다. 여러 벌의 옷을 입은 경우, 각 아이템의 종류를 별도로 명시하는 것이 좋습니다(예: "첫 번째 프레임의 스웨터와 바지를 사용하여, 스웨터와 바지를 입은 모델의 영상을 생성"). 이 방식이 더 안정적이고 신뢰할 수 있는 결과를 제공합니다. 단점: 일부 랜덤 시드는 과도한 앞 프레임을 생성할 수 있습니다. 해결법은 랜덤 시드나 프롬프트를 변경하는 것입니다.

ClothConsistency는 해당 시리즈의 두 번째 모델입니다. 이 모델은 의상의 흰색 배경 사진과 prompt(참고용 prompt가 몇 가지 제공됨)를 직접 입력하여, 인물이 해당 옷을 입은 영상을 생성하는 것을 목표로 합니다. 제 개인적인 테스트 결과(권장 강도: high 0.7, low 0.9, lightning low: 1.0), 잘 작성된 prompt와 lightning low LoRA를 사용하면 ClothConsistency는 매우 뛰어난 효과를 보입니다. 예: 슬라이드보딩 소년의 옷의 일관성, 한복의 무늬, 춤추는 소녀의 옷에 나타나는 빛과 그림자, LV 재킷의 무늬 등. 프롬프트 작성 방법에 대해 설명드리면, 학습 시 코트, 치마, 셔츠, 재킷, 드레스, 바지 등 옷의 종류가 포함되었기 때문에, 프롬프트에 옷의 종류를 명시하면 더 나은 결과를 얻을 수 있습니다. 예를 들어, 재킷이라면 "첫 번째 프레임의 재킷을 사용하여, 재킷을 입은 모델의 영상을 생성"과 같이 작성해야 합니다. 여러 벌의 옷을 입은 경우, 각 아이템의 종류를 별도로 명시하는 것이 좋습니다(예: "첫 번째 프레임의 스웨터와 바지를 사용하여, 스웨터와 바지를 입은 모델의 영상을 생성"). 이 방식이 더 안정적인 효과를 제공합니다. 단점: 일부 랜덤 시드는 앞 프레임이 너무 길어지는 문제가 발생할 수 있으며, 이 경우 랜덤 시드나 프롬프트를 변경해야 합니다.

ConsistencyLoRA 시리즈를 개발한 목표는 I2V(Image-to-Video) 모델의 상업적 적용 범위를 확장하는 것입니다. ConsistencyLoRA는 Wan Fun VACE 및 Wan Animate가 출시되기 이전에 학습되었습니다. 이 둘과 비교할 때, ConsistencyLoRA의 단점은 생성된 영상에 입력 이미지의 앞 프레임이 포함되어 있다는 점이며, 이는 프레임 자르기로 제거할 수 있습니다(이를 위한 CutFrame.ipynb 스크립트를 업로드했습니다). 또한 출력이 때때로 흐릿해질 수 있습니다. 그러나 ConsistencyLoRA에는 몇 가지 장점이 있습니다: 1. Wan I2V 워크플로우 기반: 간단하고 편리하며, VRAM 요구량이 낮고, 다양한 I2V 기반 LoRA와 호환됩니다. 2. 프롬프트 기반 생성, 영상 교체 불필요: 프롬프트만으로 직접 생성할 수 있는 능력은 핵심 장점입니다. 이는 소스 영상을 교체하지 않고도 T2V(Text-to-Video)를 통해 장면을 빠르게 생성할 수 있게 해줍니다. 예를 들어, ClothConsistency를 사용하면 동일한 옷을 입은 다양한 인종, 피부색, 체형의 모델을 프롬프트로 생성할 수 있습니다. 게다가 영상 교체가 없기 때문에 조명과 그림자가 더 자연스럽게 표현됩니다. 3. 학습 비용이 낮고 특정 작업에 안정성 높음: 학습 비용이 상대적으로 낮고, 특정 일관성 작업에 미세 조정이 가능합니다. 특정 목적에 맞게 학습되었기 때문에, Wan Animate나 VACE보다 해당 작업에서 더 높은 안정성을 보입니다. CarConsistency 시나리오에서 이를 입증할 수 있습니다.

따라서 LoRA 개념부터 데이터셋 처리, 학습 및 하이퍼파라미터 조정까지 전 과정을 제가 혼자 수행했습니다. 24GB Vram을 가진 4090 GPU의 한계로 인해 현재는 [360, 360] 잠재 공간에서만 학습할 수 있으며, 즉 여전히 프로토타입 단계입니다. 결과가 만족스럽지 않다면 이해와 피드백을 주시기 바랍니다. 최선을 다해 개선하겠습니다.ここまで読んでいただきありがとうございます. 이 모델의 상업적 사용은 라이선스가 필요합니다(학습 전력비만이라도 회수할 수 있으면 좋겠습니다, ㅋㅋ). 만약 더 큰 VRAM을 가진 컴퓨팅 파워로 제 실험을 지원해 주시거나(흐릿함 문제를 해결하기 위해 더 큰 잠재 공간을 시도하기 위해), 특정 제품을 위한 LoRA를 학습하는 상업적 협업에 관심이 있으시다면 Civitai에서 DM으로 연락 주세요. 정말 감사합니다. 기부: https://ko-fi.com/ghostshell

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.