Studio Ghibli 🎨 Flux.1-D
详情
下载文件
模型描述
概述
无需介绍吉卜力工作室及其举世闻名的艺术风格,已经有一些优秀的 Flux 模型能够再现这种风格(我特别喜欢并推荐 这个)。这是我尝试创建一个吉卜力风格的 LoRA。虽然我没有如最初计划那样成功做出有史以来最好的吉卜力 LoRA 🙂,但结果仍然不算太差(有时)。不过,显然还有很大的改进空间。我对当前模型的解剖错误率并不满意,正在开发下一个版本,虽然无法提供确切的时间表,但 它一定会更新和改进。
使用方法
触发词是 “In style of Studio Ghibli”,但即使不使用任何触发词,模型也能工作,尽管我未对此情况进行广泛测试。使用 “anime” 或 “Miyazaki” 也会触发风格变化。
推荐的推理设置如下:
Model: flux1-dev (fp8e4m3fn)
Text Encoder: t5pxxl_fp16
Sampler: euler
Scheduler: 24 steps (normal)
Flux Guidance: 4
LoRA Strength: 1
我发布在画廊中的所有图像均使用简单的文生图(无需图像修复、ControlNet、超分辨率等)生成,目的是展示模型的原始能力(以及其局限性和薄弱环节)。
训练
该 LoRA 使用单张 RTX 3090 显卡,基于 954 张高质量图像(1080p 分辨率)进行微调,这些图像来源于 吉卜力官网。图像的标注使用了 Joy Caption Pre Alpha(当时尚未有更新版本),并在本地运行。使用的 Joy Caption 提示为:“A descriptive caption for this image:\n”。所有标注均以短语 “In style of Studio Ghibli.” 开头,随后人工审核:我修正了大量错误,补充了一些遗漏的细节等。未对角色或地点进行标签标记。
来自特定影片的图像额外添加了标注:“Scene from '...' film”(详情见下文)。954 张图像中包含:
50 张来自《风之谷》——额外前缀为 "Scene from 'Nausicaa' film."
50 张来自《天空之城》——额外前缀为 "Scene from 'Laputa' film."
50 张来自《龙猫》——额外前缀为 "Scene from 'Totoro' film."
50 张来自《千与千寻》——额外前缀为 "Scene from 'Kiki's Delivery Service' film."
50 张来自《岁月的童话》——额外前缀为 "Scene from 'Only Yesterday' film."
50 张来自《红猪》——额外前缀为 "Scene from 'Porco Rosso' film."
50 张来自《海潮之声》——额外前缀为 "Scene from 'Ocean Waves' film."
50 张来自《平成狸合战》——额外前缀为 "Scene from 'Pom Poko' film."
28 张来自《On Your Mark》——额外前缀为 "Scene from 'On Your Mark' film."
50 张来自《心之谷》——额外前缀为 "Scene from 'Whisper Of The Heart' film."
50 张来自《幽灵公主》——额外前缀为 "Scene from 'Mononoke' film."
50 张来自《千与千寻》——额外前缀为 "Scene from 'Spirited Away' film."
50 张来自《哈尔的移动城堡》——额外前缀为 "Scene from 'Howl's Moving Castle' film."
50 张来自《大地的传说》——额外前缀为 "Scene from 'Earthsea' film."
50 张来自《悬崖上的金鱼姬》——额外前缀为 "Scene from 'Ponyo' film."
50 张来自《借东西的小人阿莉埃蒂》——额外前缀为 "Scene from 'Arrietty' film."
50 张来自《起风了》——额外前缀为 "Scene from 'Poppy Hill' film."
50 张来自《风起了》——额外前缀为 "Scene from 'Wind Rises' film."
50 张来自《海兽之子》——额外前缀为 "Scene from 'Marnie' film."
26 张来自《苍鹭与少年》——额外前缀为 "Scene from 'The Boy And The Heron' film."
我计划重新审视数据集结构,并在 0.2 版本中从头开始重新采集。
LoRA 训练共运行了 26000 步(每 250 步保存一次权重)。此时模型已停止改善,解剖错误(如幻肢)开始显现。随后我花了数天时间筛选最佳 LoRA 版本。我的目标是在风格、多样性与最小化错误之间找到完美平衡。我主要使用包含多个角色和复杂互动的长而复杂的提示进行测试——这些提示最容易失败——观察哪个 LoRA 出错最少 🤔。
我故意(且错误地 😅)没有自动化测试过程,而是依赖“点击-等待-懊恼”的流程。
最终,我选择了 16250 步时的模型。6000 步和 9000 步的 LoRA 也不算差,但 16250 步的版本感觉更“成熟”、“复古”且“多样”(我不希望得到一个“太温馨”的吉卜力 LoRA)。
作为参考,以下是不同训练步数 LoRA 在相同种子下的表现对比(https://ibb.co/TKkgx2D),提示为:
"In style of Studio Ghibli. Scene from 'Totoro' film. This image is a digitally created scene from a Japanese animated film. The scene features three characters: two young girls and an elderly woman, sitting on a woven mat under a large tree with dense foliage. The background is lush with greenery, including tall trees and vibrant flowers, creating a serene, natural setting. One girl, who appears to be about four years old, wears a yellow dress with white accents and has pigtails tied with red ribbons. She holding a corn cob and smiling happily. Another girl, slightly older, in a white shirt and blue shorts, sits beside her to the left. She has dark hair and a calm expression. The elderly woman, seated to the right, wears a traditional Japanese kimono with a lavender pattern. She has white hair and a gentle smile, holding a bunch of leafy greens. In front of them, on the woven mat, are various vegetables like carrots, tomatoes, and cucumbers, arranged in a basket. The scene exudes a sense of peaceful coexistence with nature, emphasizing simplicity and harmony."
经过测试,我意识到自己犯了很多错误 😶,包括:
- 我在 Joy Caption 生成的标注中保留了太多不必要的冗余内容(如 “This image is a digitally created scene...”、“The scene exudes a sense of peaceful...” 等)。我认为 CogVLM2 或 Qwen2 可能更适合为风格 LoRA 标注图像,但仍需更多测试。(不过,我仍相信使用复杂自然语言提示进行标注对风格 LoRA 更有利。)
- 我希望 LoRA 稍微有些不可预测性和多样性,甚至带点“怪异”,以生成高艺术多样性的图像。我某种程度上做到了,但感觉这种“怪异”有时会负面影响连贯性和解剖结构(如扭曲的手部等)。我原以为这是过拟合所致,但即使较低步数的 LoRA(6000–9000 步)也存在这些错误。或许我不该将《平成狸合战》的截图纳入数据集(尽管我已仔细检查标注,避免人类与超自然生物特征混杂)。
- 我应该、并且会探索 AI-Toolkit 之外的其他训练工具。尽管它“开箱即用”且能生成优秀模型,但仅依赖它可能是源于现状偏见。
- 甚至即便如此,坚持默认设置可能也并非最佳选择。
该 LoRA 在 Windows 11 上使用 AI-Toolkit 训练,超参数如下(实际除分辨率外均为默认值):
Rank: 32
Alpha: 32
Batch Size: 1
Steps: 16250
Learning Rate: 1e-4
Save every: 250
Resolution: 1024, 768
Optimizer: adamw8bit
感谢您使用此 LoRA 或耐心阅读完本文!正如开头所述,随着我积累更多微调 Flux 的经验,我希望进一步改进这个模型。




















