Studio Ghibli 🎥 HunyuanVideo

详情

模型描述

免责声明

尽管基础的HunyuanVideo在无需LoRA的情况下已能较好地识别通用动漫风格,并对吉卜力工作室的艺术风格有一定认知,但后者并不稳定,高度依赖提示词,有时会退化为写实风格。此外,其光影、配色和线条表现也可能存在较大差异。因此,我制作此LoRA旨在强化HunyuanVideo对吉卜力艺术风格的表达能力。

这是该LoRA的第三个版本。前两个版本均未成功,我未对外发布。

更新于2025年8月1日 遗憾的是,我已无余暇继续维护旧模型,因此不再计划重新训练此版本。

更新于2025年3月14日 经过一周对Wan2.1-14B-T2V的测试,我必须承认它优于HunyuanVideo。因此,我将转向Wan模型的训练,不再发布任何新的HunyuanVideo模型。但我仍会尽力发布一个更新版的吉卜力LoRA(在我完成其他已规划的Flux/Wan模型后),因为我仍觉得有责任使用视频而非仅图像对其进行充分训练以完成它。

更新于2025年3月2日 我沉迷于Lumina-2与Wan-2.1,又重新转向Flux训练,因此v0.7将略有推迟。但我一定会发布它(可能连同另一个动漫LoRA一同发布)。

更新于2025年2月8日 v0.6 令我失望。我做出了若干冒险决策,却未带来相应回报,且不值得在RTX 3090上耗费84小时训练。敬请期待v0.7!🙂

更新于2025年1月5日 使用musubi-tuner完成**v0.4**的训练,但效果不如v0.3,因此我不打算发布它(v0.5将使用diffusion-pipe)。

更新于2025年1月21日 在训练**v0.5**时我犯了太多错误,因此决定放弃并使用升级后的数据集和训练参数从头开始(并再次尝试musubi-tuner)。虽然浪费了32小时,但值得 😊

使用方法

推理时我使用默认ComfyUI流程,仅额外添加一个LoRA加载节点。Kijai的封装器也应可用(至少一周前可用,之后我切换至原生工作流)。参数除以下外均为默认:

guidance: 7.0
steps: 30

这并不意味着它们是最优的,只是我主要用这些参数生成片段,或许其他组合效果更佳。

我当前使用的提示模板如下:

A scene from a Studio Ghibli animated film, featuring [CHARACTER DESCRIPTION], as they [ACTION] at [ENVIRONMENT], under [LIGHTING], with [ADDITIONAL SETTING DETAILS], while the camera [CAMERA WORK], emphasizing [MOOD AND AMBIANCE].

我通常向LLM输入一组标签,例如“金发女性、赤脚、海滨、晴朗天气等”,并要求其根据此模板输出连贯的自然语言提示。

训练说明

请注意,我的训练流程并非最优,我只是在测试与实验,因此效果可能并非源于方法优秀,而是尽管方法不佳仍偶然成功。

当前LoRA版本基于185个来自多部吉卜力电影的截图片段(512x512)进行训练。这些片段使用CogVLM2进行标注。标注提示如下:

请以吉卜力动画电影帧的视角,为该图像生成极为详细的描述。描述必须包含:1)描述场景主要内容,详述场景元素,尤其要包含与视觉内容整合的镜头过渡与摄像机运动,如摄像机跟随某主体;2)描述主体所处的环境;3)识别突出或强调特定视觉内容的镜头类型,如俯拍、特写、中景或远景;4)描述视频氛围,如温馨、紧张或神秘。不要使用编号列表或换行。重要:描述必须始终以“一个来自吉卜力动画电影的场景, featuring...”这一原句开头,随后插入你的详细描述。

训练使用了diffusion-pipe。其他可选工具包括finetrainers(目前训练HunyuanVideo至少需要>24GB显存)、musubi-tuner(我尚未用它获得良好结果,但并非软件问题)和OneTrainer(我尚未尝试)。

训练在Windows 11 Home(WSL2)环境下,单张RTX 3090显卡、64GB内存上完成。训练参数为默认值(maindataset),仅调整如下:

rank = 16
lr = 6e-5

我每轮保存一次模型,共训练20轮,每轮462步,总计9240步。在RTX 3090上的训练速度约为7秒/步(每轮训练耗时略少于1小时)。经过测试第13至20轮,我选择第19轮,因其表现最稳定,错误最少。

结果仍远非完美,但我希望未来能发布改进版本。下一版或将基于视频片段而非图像训练,但我需要时间准备数据集。

此外,未来可能出现的I2V模型可能使风格LoRA失去意义。

附言

我仍对能拥有如此出色的本地视频模型感到惊叹。我感觉,本地视频生成如今真正迎来了属于它的“Stable Diffusion时刻”。毫无疑问未来会有更强大的模型出现,但HunyuanVideo将永远是我心中独一无二的开创者 ❤️

此模型生成的图像

未找到图像。