CarConsistency-Wan2.2-I2V-ConsistencyLoRA1
세부 정보
파일 다운로드
이 버전에 대해
모델 설명
쇼케이스의 샘플은 고급 및 저급, 그리고 라이트닝-로우 LoRA를 모두 사용합니다.
안녕하세요, 오랜만입니다. 최근 한 달 동안 Wan2.2-I2V 모델의 LoRA에 혁신적인 기능을 연구하면서 모델을 출시하지 못해 죄송합니다. 마침내 연구 성과를 얻었고, 제가 개인적으로 'ConsistencyLoRA 시리즈'라고 부르는 이 시리즈의 Wan2.2-I2V LoRA를 소개하고자 합니다. 이 LoRA 시리즈의 기능은 입력 이미지를 사용하여 Wan2.2-I2V 모델을 통해 해당 이미지와 높은 일관성을 유지하는 영상을 직접 생성하는 것입니다.
大家好,好久不见.由于最近一个月都在研究Wan2.2-I2V模型Lora的创新功能,没有发更多的模型,抱歉.最近终于有了一些研究结果,向大家介绍这个系列的Wan2.2-I2V LoRA,我自己称为ConsistencyLoRA系列.这个系列的LoRA功能是通过输入图像,通过Wan2.2-I2V模型直接生成与输入图像高度一致性的视频.
CarConsistency는 이 시리즈의 첫 번째 모델입니다. 이 모델의 목표는 입력 이미지(선호하는 것은 흰색 배경)와 프롬프트(예: "the car is speeding on the moon/water/ice field, floating in the space...")를 사용하여 차량(입력 이미지가 F1 자동차라면 프롬프트를 'the car'에서 'the F1 car'로 변경)과 높은 일관성을 갖는 영상을 직접 생성하는 것입니다. 제가 개인적으로 테스트한 십여 장의 이미지에서 CarConsistency는 차량의 높은 일관성을 유지할 수 있으며, 페라리 SF25 레이싱 카의 광고, SU7 Ultra와 Fang Cheng Bao SUV의 번호판에 적힌 중국어 문자, 차량의 장식 패턴 등의 세부 사항을 보존합니다. 'lightning-low' 모델을 사용하여 생성하면 속도가 빠르고 품질이 더욱 일관됩니다.
CarConsistency는该系列的第一个模型.该模型希望通过直接输入车辆的图(最好是白底图),然后通过prompt(样例中是the car is speeding on the moon/water/ice field,floating in the space)直接生成对应车辆高度一致性的视频(如果是F1赛车,建议写成F1 car).从我个人测试的十多张图来看,CarConsistency可以维持车辆的高度一致性,比如:法拉利SF25赛车身上的广告,Su7 ultra和方程豹车牌上的中文和车辆上的花纹等.建议生成时加入lightning-low模型,速度更快,质量更稳定.
ConsistencyLoRA 시리즈를 개발한 목적은 I2V(Image-to-Video) 모델의 상용 응용 시나리오를 확장하기 위함입니다. ConsistencyLoRA는 Wan Fun VACE와 Wan Animate가 출시되기 전에 학습되었습니다. 이들에 비해 ConsistencyLoRA에는 몇 가지 단점이 있습니다. 첫째, 생성된 영상에 입력 이미지의 전방 프레임이 포함되어 있으며, 프레임 자르기를 통해 제거할 수 있습니다(이를 위해 CutFrame.ipynb 스크립트를 업로드했습니다). 둘째, 생성 결과가 때때로 흐릿해질 수 있습니다. 그러나 ConsistencyLoRA에는 다음과 같은 장점도 있습니다: 1. 사용의 간편성과 접근성: Wan I2V 워크플로우를 기반으로 하므로 간단하고 편리하며 VRAM 요구 사항이 낮고, 다양한 I2V 기반 LoRA와 호환됩니다. 또한 특정 작업에 대해 학습되었기 때문에 해당 응용 분야에서 높은 안정성을 제공합니다. 2. 프롬프트를 통한 빠른 생성: 프롬프트를 통해 빠르게 생성할 수 있습니다. 예를 들어 의상 일관성을 유지하려면, 프롬프트를 사용하여 다양한 인종, 피부색, 체형의 모델이 지정된 의상을 입은 영상을 생성할 수 있습니다.
做ConsistencyLoRA系列的LoRA是希望拓宽I2V模型商业应用的场景.ConsistencyLoRA的训练在Wan Fun VACE和Wan Animate发布之前,相比Wan Fun VACE和Wan Animate,ConsistencyLoRA的缺点在于视频有输入图像的前置帧,可以通过帧剪切去除(我上传了CutFrame.ipynb的脚本可以直接去除),然后生成有时候会有模糊情况.而ConsistencyLoRA优点在于:1.因为是基于Wan I2V工作流,所以简单方便,显存门槛低,各种基于I2V的lora也适用,且因为是基于特定任务进行的训练,所以在特定任务上的稳定性较强.2.可以快速通过Prompt生成,比如衣服一致性,通过Prompt可以生成不同族裔,不同肤色,不同身材的模特穿着对应的衣服.
LoRA 개념, 데이터셋 처리, 학습 및 하이퍼파라미터 튜닝까지 모든 과정을 제가 혼자 처리했습니다. 24GB VRAM을 가진 4090 GPU의 제약으로 인해 현재 \ [360, 360\] 잠재 공간만으로 학습할 수 있으며, 여전히 프로토타입 단계입니다. 결과가 만족스럽지 않다면 이해해 주시고 피드백을 주시기 바랍니다. 최선을 다해 개선하겠습니다.ここまで読んでいただきありがとうございます. 이 모델을 상업적으로 사용하려면 라이센스가 필요합니다(학습 전기요금이라도 회수할 수 있으면 좋겠습니다, 웃음). 더 큰 VRAM을 가진 컴퓨팅 자원을 제공하여 제 실험을 지원해 주시거나(더 큰 잠재 공간을 시도하여 흐릿함 문제를 해결하려고), 특정 제품을 위한 LoRA를 학습하는 상업적 협업에 관심이 있으시다면 Civitai에서 DM 주세요. 기부하고 싶으시면 https://ko-fi.com/ghostshell을 방문해 주세요. 감사합니다.
因为从LoRA概念,数据集处理,训练和超参调整,都由我一个独立完成.由于4090 24G的显存限制,现在还只能用[360,360]的latent进行训练,所以还是处于原型机阶段,如果效果不太理想,请多谅解和反馈,我争取改进.感谢您能看到这里,该模型商用需要授权(希望能把训练的电费平了,哭).如果您有更大显存的算力支持我做一些实验(更大的latent尝试去解决模糊问题),或者有商业合作去训练特定产品LoRA的意向,请联系我QQ:338728644,感谢感谢.
