Yoko Kuno 🎨 Flux.1-D

详情

模型描述

概述

久保阳子(关于她访谈)是日本动画界冉冉升起的新星。她于1990年出生于茨城县筑波市,拥有导演、动画师、漫画家和插画师的多重背景。她毕业于多摩美术大学,主修平面设计,2013年毕业。她的毕业作品《Airy Me》以融合表现主义与前卫元素的独特艺术风格著称。

2015年,她被选为岩井俊二执导的《花与爱丽丝:杀人事件》的描线动画导演,这一机会进一步推动了她在业界的发展。此后,她参与了多个项目,包括担任《宝石之国》的导演与关键帧动画、《企鹅公路》的概念设计,以及电影《蜡笔小新:神秘的忍者之谜》的角色设计、分镜、导演与关键帧动画。

2024年,她以《化猫安子》(英文名:Ghost Cat Anzu)正式 debut 主流长篇动画导演身份。该片最初以实拍形式拍摄,随后在久保阳子的指导下,通过描线动画技术处理实拍素材完成制作。实拍镜头由联合导演山下信博执导。《化猫安子》获得广泛好评,并被选为2025年奥斯卡最佳动画长片的候选作品。

久保阳子的风格显然不仅限于本LoRA所展现的这一种,她是一位更具多样性的艺术家与动画师。请观看她的《Airy Me》,尽管这部作品令我感到相当不安,却同样具有迷人的魅力。她也是一位漫画家,可参见获奖作品《天城由香里的角与爱》(链接),荣获第21届日本媒体艺术祭漫画部门新人奖。我希望最终能买到这本书,一并学习她的漫画风格。

但我最初是通过麦当劳日本与《魔女宅急便》合作广告了解到她的作品。我非常喜欢其风格,并希望用Flux LoRA重现它。不久后,我得知她即将推出一部完整的动画电影——《化猫安子》(IMDb链接),其风格与该广告完全一致。因此,虽然仅凭这两部作品难以全面定义她的风格,但我个人非常钟爱她在主流动画项目中的视觉风格,因此在本LoRA的初始版本中,我仅使用了这两部作品的镜头(更多细节请参见下方“训练”部分)。

此外,她在描线动画中所体现的某些特质,是静态图像无法捕捉的。我强烈推荐观看《化猫安子》,这是一部温暖而有趣的影片。虽然在叙事魔力上未必能达到吉卜力的水平,但久保阳子的叙事艺术风格潜力巨大。

使用方法

此处发布的所有图像均包含ComfyUI元数据,并使用以下设置生成:

模型:flux1-dev (fp8e4m3fn)
文本编码器:t5pxxl_fp16
采样器:euler
调度器:24步(标准)
Flux引导强度:4
LoRA强度:1

似乎无需触发词即可生效,但为保险起见,我通常在所有提示前加上“在久保阳子风格下”。

训练

本LoRA所用素材来自《魔女宅急便》麦当劳广告片段及《化猫安子》的预告片(目前尚无法获取完整影片以截取实际画面)。我使用ffmpeg提取所有帧并筛选出最佳画面,然后进行裁剪、去水印等处理,最终获得205张高质量图像,并使用CogVLM2-Chat-19B进行标注。标注提示语为:

“请描述这张图像,但不要描述其风格细节。描述以‘在久保阳子风格下的图像,描绘了...’开头,然后进行描述。”

我审阅了所有标注内容(尽管CogVLM2在描述复杂场景时精准度极高),并明确标注了“琪琪”、“吉吉”、“卡琳”和“安子”的名字。不过,我并未期望这些标签能有效帮助在最终LoRA中准确唤出这些角色,添加它们更多是出于完整性考虑。事实上,正如预期,琪琪与卡琳、吉吉与安子的概念容易相互混淆(安子的特征更具主导性)。更糟糕的是,模型有时难以准确描绘吉吉——而吉吉的形象恰恰是评估图像生成模型质量的关键指标之一。

我计划在获取《化猫安子》完整影片后,使用更多高质量截图重新训练此模型。 这也是当前版本尚未标记为“v1”的原因。我亦考虑纳入她的其他作品数据,如《花与爱丽丝:杀人事件》,以及其他风格不冲突的项目。此外,我对背景的渲染效果也不甚满意——它们常退化为写实风格,而我未能成功还原其“水彩”质感。

尽管如此,我认为这是迄今为止我制作的最出色的LoRA。其提示遵循度和人体结构合理性都非常优秀(尽管我可能有偏见)。在所有我发布的图像中,极少经过刻意挑选;我几乎总能一次生成符合结构且完整呈现提示细节的图像。

本LoRA使用RTX 3090和AI Toolkit进行微调,主要训练超参数如下:

秩(Rank):8
Alpha:16
优化器:prodigy
步数:10000
批次大小:1
学习率:1
学习率调度器:恒定
解耦:true
使用偏差校正:false
Betas:(0.9, 0.99)
权重衰减:0.05
噪声偏移:0.1

本LoRA并非基于常规的FLUX.1-dev训练,而是基于Flux-Dev2Pro(链接)。虽然我尚无实证数据证明其提升了模型质量,但个人观察表明,它增强了人体结构准确性和提示遵循度。事实上,在为期两天的测试中,我同时测试了八个LoRA,使用相同种子和提示评估生成图像,发现未使用LoRA的原始模型生成图像在提示遵循和结构准确性方面均逊于使用了本LoRA的图像。

附注

我还上传了数据集,以供有需要者使用。

此模型生成的图像

未找到图像。