Gurren Lagann / Anime Style Wan 2.2 14B Lora
详情
下载文件
关于此版本
模型描述
最新动态
10/15 - 使用AI工具包训练了Qwen版本,共14.5k步
9/11 - 将High LoRA V1.1训练至117K步,并修复了大量动作与画质问题。请尝试使用,因为High对这个LoRA进行了大量改动,如需测试早期版本,可在此处找到125-300之间的替代epochs
附注:已发布Reward MPS LoRAs,建议在0.5强度下试用。不过尚未与本LoRA充分测试
这是什么LoRA?
这是一个用于复现2007年Gainax公司制作的动画《天元突破 红莲螺岩》风格的风格LoRA。这是我最喜爱的系列之一,它在我心中占据特殊地位,因为正是这部作品让我真正感受到动画的魅力。它某种程度上是对GAINAX曾创造的机器人动画类型的解构,深入探讨了该类型中所有被过度使用的套路,并以完美的方式执行。它与GAINAX的杰作《超时空要塞》堪称绝配,观看这两部作品,你就能明白我的意思。每一章都是关于在压倒性的压迫与悲痛中取得胜利,然后 reset,再给予你一记踹腿,迫使你重新振作,再次克服困境。它将你带入情感的最黑暗深渊,再将你直接抛回巅峰。
这部动画的美术风格在明暗场景中对光影的运用极为出色,动作与动画风格也非常独特:动作爆发时速度极快,节奏紧凑。它们常使用广角镜头配合高速动画表现战斗场面,随后切至角色反应,采用中近景特写。动画水准极高,有趣的是,你有时能明显看出制作组预算耗尽,下一集就会出现粗糙的作画,但这一切都值得,因为那5-10分钟的S级动画足以让你热血沸腾。
这个风格LoRA的目标是捕捉动画的视觉风格和动作表现。它不是角色LoRA,但通过恰当的提示词,角色也能自然呈现。
触发词:GurrenLagannStyle
(你无需在提示词中添加任何其他关于动画或动画风格的描述,它会自动呈现该风格,无需额外提示)。事实上,我建议不要在提示中加入“动画”等关键词,因为基础模型现在对动画的训练已远优于以往,添加这些词反而会带来更多偏差。触发词甚至可能非必需,但我仍保留它。
所有第一季的角色均包含在训练数据中,不包含时间跳跃后的内容。数据也包含Yoko的音乐视频《Pieces of Sweet Stars》。我选择不加入平行作品,因为其风格并不相同。图像来自原动画,而视频片段全部来自重制版电影#1,因此也包含一些新场景。
以下是部分角色的还原方式(更多请参考标注数据):
Yoko:
一位长发红褐色尖刺发,扎成长马尾并用筷子与头骨饰品固定,身穿红色火焰纹黑色比基尼上衣,佩戴浅粉色围巾,黑色短裤配白色铆钉腰带,粉红色及膝长筒袜,无指黑色手套,白红色靴子。手持一把巨大的深灰色六角形枪管步枪。
Simon:
一位年轻男子(或“男孩”),黑蓝色尖刺头发,裸露上身披蓝色夹克,头戴红色护目镜。
Kamina:
一名肌肉发达的男子,蓝绿色尖刺头发,带有蓝色螺旋纹身。佩戴无框橙色三角形太阳镜,身披红色破旧斗篷,前臂缠有绷带。
Nia:
一位年轻女性,波浪状金发与浅蓝色发丝, teal 眼睛,红色瞳孔呈十字花形。身穿粉白长裙,配金色宽腰带与袖口,华丽金色项圈镶嵌红绿宝石,红色领结,粉白发饰。
Gurren 与 Lagann:
人形机甲(可描述其胸腹上的面部特征等,但原始标注较少)。若需强调,务必提及头部的武士角。所有形态均包含在数据中(飞行模式、战舰形态等)。
Viral:
一名金发杂乱、遮住一只眼睛的男子。身穿带白色毛领的夹克和红色肩垫。
机甲:
所有机甲均以“mecha”标记。你可使用如“鲸鱼状mecha”或“乌龟状mecha”等描述以获取不同类型。训练数据中应已涵盖所有类型。只需使用“mecha”这一词即可触发。
兽人 = “creature”,例如“乌龟状creature”等。
Buta:
一只小巧、棕色、药丸状的粉红猪鼹鼠生物,长有两条细长触角、卷曲尾巴、胡须和圆形墨镜。
Lordgenome:
一位身材巨大、极度健壮的男子,光头,深色风格化胡须,眼神强烈且苍白。赤裸上身,穿着深色衣物,双臂佩戴两个巨大的银色U形手镯。(我想我漏掉了胡须的标注,尝试添加这个词)
还有更多角色,我应该已覆盖第一季所有主要和次要人物。请自行尝试描述或查阅标注数据。
推荐设置:
请勿使用euler采样器,它会扭曲所有动作。请使用采样器dpm++_sde。在20步中,将高/低分段设在第11步。我最佳效果为高8偏移、低6偏移,但8/8偏移也可接受。5偏移会产生扭曲。帧数过少可能导致低模型无法触发风格,因此建议保持在40帧以上(理想为65-81帧),请自行测试并告知我。在背景中添加“一个小小的红色机甲玩具”可100%触发LoRA。不知为何,若提示涉及性或裸露内容(因训练数据无此类内容),可能需要借助这个“机甲玩具”来触发LoRA。
此LoRA在未使用lighting/lightx LoRA的情况下经过广泛测试,但应能与它们兼容。我需时间测试lightning/lightx,但我的观点是:它们都会以不同方式显著改变风格,因此不建议使用。不过它们效果尚可(只是风格不同),你可以尝试。请告诉我哪种组合最好。我个人认为不使用这些LoRA效果最佳,但若必须使用,lightx1.5(高)/lightning 1.0(低)尚可,只是色彩略显饱和。
1.) 默认设置
仅运行此LoRA,不使用其他LoRA,即可正常工作,并最贴近原始素材的外观与感觉。在3090显卡上,生成720p视频需超过20分钟。
20步(高11步 / 低9步),CFG 3.5,无NAG,dpm++_sde,高偏移8,低偏移6
优点:更贴近训练数据。可获得2.2版本的所有优势,如动作、画质、摄像机控制等。
缺点:速度较慢,资源消耗更高。
2.) Lightx2V Wan 2.1 LoRA优化
1.) 此LoRA(Gurren Lagann Style LoRA)(高/低强度均为1.0)
2.) Wan21_T2V_14B_lightx2V_cfg_step_destill_lora_rank32(高/低强度均为1.0,使用同一文件)
7步(高3 / 低4),也可尝试4/4或2/2。CFG 1,启用NAG
优点:可在更少步骤下完成更高分辨率。动作保留良好,风格更接近默认设置,优于lightning LoRA。
缺点:Lightx2V是Wan 2.1 LoRA,因此输出可能更接近2.1而非2.2。我认为色彩偏暗,有时会添加奇怪的“雪”效果,可通过提高Lightx2V LoRA强度缓解。
3.) Lightning 1.1 Wan 2.2 LoRA优化
7步(高3 / 低4),也可尝试4/4或2/2。CFG 1,启用NAG
1.) 此LoRA(Gurren Lagann Style LoRA)(高/低强度均为1.0)
2.) Wan 2.2 Lightning v1.1 LoRAs(高/低强度均为1.0)
优点:可在更少步骤下完成更高分辨率。色彩更明亮、饱和度更低(若你喜欢这种美学)。它是2.2 LoRA,理论上可享受2.2 Wan的益处但似乎未能正常工作
缺点:对风格影响极大,虽仍保留动漫复古感,但色彩比原作更亮,动作被大幅削弱。
4.) 混合方式:高使用Lightxv2强度1.5 / 低使用Lightning强度1.0
优点:步骤更少,资源消耗更低。
缺点:色彩饱和度偏高。你混合了2.1与2.2 LoRA,使输出更像Wan 2.1。相比不使用LoRA,部分动作扭曲有所减轻。
5.) 其他2.1 LoRA
数据集:
441张直接从动画中截取的1920x1080图像
134个视频片段,通过PySceneDetect从原片中提取,分辨率为1920x1080,使用ffmpeg转换为16fps。
为适配我的3090显卡本地训练,我将全部数据控制在24GB以内。
因此我在dataset.toml中设置了以下参数:
图像统一采用[512]分辨率,启用enable_ar_bucket = true,使扩散管道自动以512标准分辨率按16:9比例设置。
视频保留以下帧数分桶:[8, 12, 16, 24, 32, 48],分辨率为[256]。
我使用HandBrake逐一裁剪所有选定片段,使其符合上述分桶。大多数落在32或48帧,少数80帧以上的视频被拆分为48和32帧的片段。
以上设置使我能在约22/24GB VRAM下训练,无需块交换!训练持续了约两周,因为我要丢弃一半的中间成果。
标注:
我通过AI Studio使用Google Gemini,以下述提示词批量输入视频和图像(每次5个)。过去约15万token后总会失控,但现在似乎无需重提示即可稳定运行。可能我只需重提示一次。标注完成度约80%,我对大部分进行了小幅润色,少数需完全手工重写。
你是一位专为WAN AI视频生成模型设计的高级图像标注器。你的目标是创建生动、电影级、高细节的标注,用于训练Wan 2.2 T2V 14B模型的扩散管道。本次目标是为动画《天元突破 红莲螺岩》创建风格LoRA。你将接收来自该动画的视频片段。切勿使用任何角色名称,仅以通用方式描述,使训练能捕捉其创作方式的风格。描述中避免使用“或”等词语,应精确选择最贴近的描述。不要使用“主体”等词,直接说“一个穿...的男人”或“一个坐在车里的女人”等。成人男性称“man”,成人女性称“woman”,可使用“年轻女性”、“女孩”等修饰词,但避免使用“男性”或“女性”。描述应精确,避免“看似”、“似乎”等模糊词汇。除风格外,务必详细描述人物穿着。
提示规则:
每个提示必须以:“GurrenLagannStyle”开头。
使用清晰、简洁、直接、简明的语言。禁用隐喻、夸张、修辞或主观形容词(如“激烈”、“震撼”)。
我们的目标是完整描述图像或视频中的所有元素,尤其关注人物。详细描述每件衣物的颜色与位置。我们需要标准的外貌与服装描述,同时也要描述环境,因为环境也是风格的一部分。
描述画面中实际存在什么,而非画面是什么。例如,“一幅描绘Cosplay Bowsette的照片”是错误的。应直接说“Live action Bowsette...”并描述图像内容。
当出现夸张或“Q版”面部/形象时,务必在标注中注明。尽可能统一用词。
提示长度:无限制,长且详细完全可接受。请遵循Wan参考文档的结构。
遵循以下结构:
提示 = 主体(主体描述)+ 场景(场景描述)+ 动作(动作描述)+ 美学控制 + 风格化
主体描述:关于主体外观的细节,使用形容词或短语描述。例如:“一位穿少数民族服饰的黑发苗族女孩”或“来自异世界的飞翔仙子,身着破旧但优雅的服饰,双翼由碎石碎片构成。”
场景描述:关于主体所处环境的细节,使用形容词或短语描述。
动作描述:描述运动特征,包括幅度、速度和运动效果。例如:“剧烈摇晃”、“缓慢移动”或“玻璃破碎”。
美学控制:包括光源、光影环境、镜头尺寸(构图)、摄像机角度、镜头和摄像机运动。常用电影术语请参阅下方提示词词典。
风格化:描述场景的视觉风格,例如“赛博朋克”、“线描插画”或“后末日风格”。更多常见风格示例请参阅下方风格库。
构图与透视(取景)
从以下选项中选择:特写 | 中景 | 全景 | 低角度 | 高角度 | 俯拍 | 第一人称 | FPV | 鸟瞰 | 侧影 | 极远景 | 航拍
运动(电影级运动)(仅用于描述视频素材)
使用:推近 | 拉远 | 变焦近 | 变焦远 | 俯仰上 | 俯仰下 | 左摇 | 右摇 | 跟随 | 旋转180度 | 旋转360度 | 拉回 | 推入 | 下降 | 上升 | 360度环绕 | 超时间推移 | 吊臂上移 | 吊臂下移 | 悬浮 | 弧形移动
清晰描述摄像机的运动方式及其捕捉内容。关注光线、氛围、粒子效果(如灰尘、霓虹反射、雨滴)、色彩搭配(如需)。用视觉化描述,而非情感化表达。每个运动或摄像机动作保持简洁——每个动作约代表5秒视频内容。
使用简单提示,就像指导一位5岁的小画家,但遵循Wan的语法与措辞原则,以便此标注数据能正确训练LoRA。参考附上的图片/视频并为其标注。将标注格式化为提示,无需标注“场景”“主体”“动作”等标签。例如(过去我们为乌鸦LoRA所标注的示例):
乌鸦,拥有淡薰衣草色皮肤和短而深紫色的棱角发型,摆出一个类似向上踢腿的瑜伽姿势。颈部系着一个小深紫色领结,手腕佩戴白色袖口。头顶上竖立着一对高高的深紫色兔耳朵。双手在头部两侧抬起,面向狗,背景为纯白色。额头上有一颗红色宝石。身穿黑色长袖紧身衣,腰间系着金色腰带,上面可见红色宝石;手腕戴深蓝色袖口,饰有金红色圆形纹样。身体呈弓形,双臂伸直支撑于地面,脚掌赤裸着顶住地面。头部抬起,目光向前并略向上,表情惊讶或好奇,微张着嘴。摄像机位于腰部高度,从下方以半侧面角度拍摄乌鸦。摄像机跟踪拍摄。
示例提示:
GoldenBoyStyle。室内场景。一名年轻男子,短黑发,头戴红色棒球帽且帽檐朝后,身穿浅绿色T恤。面部表情极度滑稽地充满色欲兴奋,双眼瞪大狂热,咧嘴大笑,双颊有明显红晕。他手持一本打开的深棕色笔记本,正用白色笔专心书写。特写镜头,聚焦于其夸张的面部表情。固定摄像机。
训练信息:
我会保持内容简短,因为我即将发布一篇教程文章,详细说明如何以本LoRA为例在Wan 2.2中训练动漫风格LoRA,内容将非常详尽。文章发布后我会在此处更新链接,并在模型页面将其作为参考资料。目前仅提供简洁信息:
[model]
type = 'wan'
ckpt_path = '/data/trainingstuff/wan2.2_base_checkpoint'
transformer_path = '/data/trainingstuff/wan2.2_base_checkpoint/low_noise_model'
#transformer_path = '/data/trainingstuff/wan2.2_base_checkpoint/high_noise_model'
dtype = 'bfloat16'
transformer_dtype = 'float8'
timestep_sample_method = 'logit_normal'
#min_t = 0.875
#max_t = 1
min_t = 0
max_t = 0.875
#已注释掉高噪声设置,训练高噪声时请取消注释相应行并注释掉低噪声的时间步和transformer路径设置。
[adapter]
type = 'lora'
rank = 32
dtype = 'bfloat16'
[optimizer]
type = 'adamw_optimi'
lr = 2e-5
betas = [0.9, 0.99]
weight_decay = 0.01
eps = 1e-8
我们先简单聊聊图表,因为指南里我会放更多细节。
低噪声图:
它呈锯齿状下降。我认为这就是今后低噪声图应呈现的走势。看起来像是先趋于平缓,然后突然下降约0.001。这个趋势可以继续,我会多训练一些,直到出现负面效果,但目前风格已成型,17K步时停止我认为是可以接受的。
高噪声图:
没错,这正是2.2高噪声图的正常形态:呈C形曲线,随后趋于平缓。我训练到了约17K步。
高/低噪声测试:
我将在指南中提供更多细节。此处仅简述:
同时测试两个LoRA非常紧张且困难。角色LoRA的建议规则在这里不适用。我之前看到的建议是:为2.2角色LoRA训练高噪声时,应尽可能少训练,仅测试是否出现模糊输出;一旦出现角色特征,即为过训练。但对动漫风格LoRA而言,若高噪声模型中没有展现特征/细节,低噪声模型就会显得怪异,风格无法成立。因此我认为,你需要大量训练两者,然后对高/低噪声进行试错。可使用相同的低噪声步数和高噪声epoch,再测试不同高噪声epoch。例如:低噪声epoch 125,高噪声epoch 5、30、100、125等,观察哪个“看起来”最接近。此外请注意,这不仅是风格LoRA,还是运动LoRA(记得我之前提过快速运动)。
我会使用同一个低噪声epoch,以批次4个不同高噪声epoch进行测试。建议使用“极近特写中景”在832 x 480分辨率下观察风格表现。
可看到最左侧最契合原作风格,即使角色与Yoko不完全匹配(可通过更好提示和种子修复)。也许高噪声55也不差,值得再做一次125与55之间epoch的测试,进一步优化。请记住,这不是角色LoRA,而是风格与运动LoRA。至于运动,我同样观察摄像机是否僵硬,角色动作是否自然。也存在一些运动畸变,我未能完全消除,但高噪声有时会使其更明显,我也留意这一点。运行这些测试并选择最佳结果。
这是一个绝佳示例,展示高噪声LoRA对最终风格的巨大影响(高噪声30看起来像完全不同的角色风格)。
为简化流程,我的建议是:大量训练两者(本例中为17K步),使用训练最充分的低噪声epoch,然后测试不同高噪声epoch与之配对。找到最佳高噪声后,可再回过头用它去测试低噪声(我并未这么做,但你可以尝试)。你也可以不断训练低噪声,直到发现异常为止。此外,损失值本身并不重要,关键在于趋势——必须符合示例图表中的模式。但在2.2中,0.1的损失值仍能获得极佳结果,不同于2.1中追求0.01或0.02。仍需更多时间得出结论,但本LoRA表明:最佳效果来自训练最充分的低/高噪声组合。
结语:
我认为我尚未100%成功,但目前效果已足够好,直到我进一步学习。总体而言,这个LoRA仍需更多时间与测试。但为了我的心理健康,我需要暂时休息一下。我会回头继续测试,深入了解Wan 2.2的工作原理。在低分辨率下,远处的眼睛会出现一些畸变,快速运动也存在部分畸变。但我觉得,当画面在运动时,这些畸变并不明显,就像传统动画中,若冻结高速运动帧,画面也会显得怪异(可参考网上《辛普森一家》经典剧集的示例)。我曾丢弃了近40K步训练,试图修正这个问题。高低噪声模型实际上都是版本2。我会提供一些高噪声LoRA的替代epoch供你实验,并告知我哪个效果最好,我也会持续更新版本。
特别感谢:
衷心感谢Banodoco Discord服务器训练频道的每一位成员,你们为我解决了无数问题,也让我能随时查看进展并获得反馈。一如既往,所有内容均基于Seruva19的研究与工作,请务必查看他的LoRA和详尽笔记,以获取最原始的信息。同时,衷心感谢Kijai热心解答问题并制作了出色的节点。




















