ProductConsistency-Wan2.2-I2V-ConsistencyLoRA3
세부 정보
파일 다운로드
모델 설명
쇼케이스의 샘플은 고강도 및 저강도와 라이트닝-로우 LoRA를 모두 사용합니다.
이것은 LoRA이며, 워크플로우가 아닙니다.
안녕하세요, 오랜만입니다. 최근 한 달 동안 Wan2.2-I2V 모델의 LoRA에 혁신적인 기능을 연구하고 있었기 때문에 더 많은 모델을 공개하지 못해 죄송합니다. 마침내 일부 연구 성과를 달성했으며, 제가 개인적으로 ConsistencyLoRA 시리즈라고 부르는 이 Wan2.2-I2V LoRA 시리즈를 소개하고자 합니다. 이 LoRA 시리즈의 기능은 입력 이미지를 사용하여 Wan2.2-I2V 모델을 통해 해당 이미지와 높은 일관성을 유지하는 영상을 직접 생성하는 것입니다.
大家好,好久不见.由于最近一个月都在研究Wan2.2-I2V模型Lora的创新功能,没有发更多的模型,抱歉.最近终于有了一些研究结果,向大家介绍这个系列的Wan2.2-I2V LoRA,我自己称为ConsistencyLoRA系列.这个系列的LoRA功能是通过输入图像,通过Wan2.2-I2V模型直接生成与输入图像高度一致性的视频.
ProductConsistency는 이 시리즈의 세 번째 모델입니다. 이 모델은 흰색 배경의 제품 이미지를 입력으로 받아 텍스트 프롬프트를 사용하여 제품 영상을 직접 생성하도록 설계되었습니다. 개인적인 테스트 결과(권장 강도: high 0.9, low 0.9, lightning low: 1.0)에 따르면, 잘 작성된 프롬프트와 'lightning low' LoRA를 사용하여 가속할 경우 ProductConsistency의 성능은 매우 우수합니다. 그러나 이전에 공개한 CarConsistency 및 ClothConsistency와 비교할 때, 광고 시나리오에 대한 프롬프트를 따르는 능력은 평균 수준입니다. 이는 Wan2.2의 학습 데이터가 적기 때문일 수 있습니다. 더 나은 결과를 얻기 위해서는 일정 수준의 프롬프트 엔지니어링이 필요합니다. 또한 제품 주체에 대한 프롬프트를 작성하지 않는 것이 좋습니다(주체 일관성 문제를 일으키기 쉽습니다). 대신 예시에서는 제품의 카테고리를 명시하여 T5 모델이 제품의 실제 형태를 더 잘 이해하고 생생한 결과를 생성하도록 유도합니다. 예: "이 제품은 캔 음료/초콜릿 상자/향수 병입니다..." 또한, 학습 데이터에 인간이 포함되어 있지 않기 때문에 인간과 함께 제품 영상을 생성하는 것은 확실하지 않습니다. 예시 프롬프트는 다음과 같습니다. 자세한 내용은 영상 정보를 확인하세요: "Product Consistency. Used the product in the first frame, generate a commercial-quality video of the product. The product is a canned drink. The product is floating in the air in the dark with some neon green light shineing. Suddenly the product is grabed by a huge monster hand. The overall atmosphere is dark and cyberpunk."
ProductConsistency는 해당 시리즈의 세 번째 모델입니다. 이 모델은 제품의 흰색 배경 이미지를 입력으로 받아 프롬프트를 통해 제품 영상을 직접 생성하는 것을 목표로 합니다. 개인적인 테스트 결과(권장 강도: high 0.9, low 0.9, lightning low: 1.0)에 따르면, 잘 작성된 프롬프트와 lightning low LoRA를 사용하면 ProductConsistency의 효과는 매우 좋습니다. 그러나 이전에 발표한 CarConsistency와 ClothConsistency와 비교하면, Wan2.2의 학습 데이터가 적기 때문에 광고 시나리오에 대한 프롬프트 준수 능력은 평균 수준입니다. 더 나은 결과를 얻기 위해서는 일정 수준의 프롬프트 엔지니어링이 필요하며, 제품 주체에 대한 프롬프트를 작성하지 않는 것이 좋습니다(주체 일관성 문제가 발생하기 쉽습니다). 예시에서는 제품의 유형을 명시하여 T5 모델이 제품의 실제 형태를 더 잘 이해하고 생생한 결과를 생성하도록 합니다. 예: "이 제품은 캔 음료/초콜릿 상자/향수 병입니다..." 학습 데이터는 제품만 포함되어 있으므로 인물과 함께 제품 영상을 생성하는 것은 확실하지 않습니다. 예시 프롬프트는 다음과 같습니다. 자세한 내용은 영상 정보를 참조하세요: "Product Consistency. Used the product in the first frame, generate a commercial-quality video of the product. The product is a canned drink. The product is floating in the air in the dark with some neon green light shineing. Suddenly the product is grabed by a huge monster hand. The overall atmosphere is dark and cyberpunk."
ConsistencyLoRA 시리즈를 개발한 목표는 I2V(Image-to-Video) 모델의 상업적 적용 시나리오를 확장하는 것입니다. ConsistencyLoRA는 Wan Fun VACE와 Wan Animate가 발표되기 전에 학습되었습니다. 이들에 비해 ConsistencyLoRA의 단점은 생성된 영상에 입력 이미지의 사전 프레임이 포함된다는 점입니다. 이는 프레임 클리핑으로 제거할 수 있습니다(이를 위한 CutFrame.ipynb 스크립트를 업로드했습니다). 또한 출력이 때때로 흐릿할 수 있습니다. 그러나 ConsistencyLoRA에는 다음과 같은 장점이 있습니다: 1. Wan I2V 워크플로우 기반: 간단하고 편리하며, VRAM 요구량이 낮고, 다른 다양한 I2V 기반 LoRA와 호환됩니다. 2. 프롬프트 기반 생성, 영상 교체 불필요: 프롬프트를 통해 직접 생성할 수 있는 능력은 주요 장점입니다. 이는 소스 영상을 교체하지 않고도 T2V(Text-to-Video)를 사용하여 장면을 빠르게 생성할 수 있음을 의미합니다. 예를 들어, ClothConsistency를 사용하면 동일한 옷을 입은 다양한 인종, 피부색, 체형의 모델을 프롬프트로 생성할 수 있습니다. 또한 영상 교체가 없기 때문에 조명과 그림자가 더 자연스럽게 보입니다. 3. 학습 비용이 낮고 작업 특이적 안정성: 학습 비용이 상대적으로 낮으며, 특정 일관성 작업에 대한 미세 조정이 가능합니다. 특정 목적을 위해 학습되었기 때문에, CarConsistency 시나리오에서 볼 수 있듯이 Wan Animate 또는 VACE보다 해당 작업에서 더 높은 안정성을 가집니다.
做ConsistencyLoRA系列的LoRA是希望拓宽I2V模型商业应用的场景.ConsistencyLoRA的训练在Wan Fun VACE和Wan Animate发布之前,相比Wan Fun VACE和Wan Animate,ConsistencyLoRA的缺点在于视频有输入图像的前置帧,可以通过帧剪切去除(我上传了CutFrame.ipynb的脚本可以直接去除),然后生成有时候会有模糊情况.而ConsistencyLoRA优点在于:1.因为是基于Wan I2V工作流,所以简单方便,显存门槛低,各种基于I2V的lora也适用.2.通过Prompt生成,不需要替换视频.Prompt生成的优势在于,可以通过Prompt将画面快速通过T2V实现,不需要进行替换,比如ClothConsistency,通过Prompt可以生成不同族裔,不同肤色,不同身材的模特穿着对应的衣服.且因为不需要替换视频,所以光影会更自然.3.训练成本相对较低,可以对特定的一致性任务进行训练.因为是基于特定任务进行的训练,所以在特定任务上的稳定性也会比Wan Animate和VACE高,比如CarConsistency场景.
LoRA 개념부터 데이터셋 처리, 학습 및 하이퍼파라미터 조정까지 모든 과정을 제가 혼자 처리했습니다. 24GB VRAM을 가진 4090 GPU의 제약으로 현재 [360, 360] 잠재 공간만으로 학습할 수 있어 여전히 프로토타입 단계입니다. 결과가 만족스럽지 않다면 이해해 주시고 피드백을 주시기 바랍니다. 최선을 다해 개선하겠습니다.ここまで読んでいただきありがとうございます. 이 모델의 상업적 사용은 라이선스가 필요합니다(학습 전력비를라도 회수할 수 있기를 바랍니다, ㅋㅋ). 더 큰 VRAM을 가진 컴퓨팅 자원으로 제 실험을 지원해 주시거나(흐릿함 문제를 해결하기 위해 더 큰 잠재 공간을 시도할 수 있도록), 특정 제품에 대한 LoRA 학습에 대한 상업적 협업에 관심이 있으시다면 Civitai에서 DM 주세요. 정말 감사합니다. 기부: https://ko-fi.com/ghostshell
