Studio Ghibli 🎨 Flux.1-D

詳細

ファイルをダウンロード

モデル説明

概要

スタジオジブリとその世界で有名な芸術スタイルを紹介する必要はありません。すでにこのスタイルを再現する優れたFluxモデルがいくつか存在します(特に私はこちらを大好きで推奨します)。ここでは、ジブリ風LoRAを作成しようとした私の試みをご紹介します。当初計画していた「史上最も優れたジブリLoRA」を作ることはできませんでしたが(🙂)、結果はそれなりに悪くありません(たまに)。しかし、改善の余地は十分にあります。現在の解剖学的エラー率には満足しておらず、次のバージョンの開発を進めています。正確なタイムラインは提供できませんが、必ず更新・改善されるでしょう

使用方法

トリガー文は「In style of Studio Ghibli」ですが、トリガー語なしでも動作します(ただし、このケースでの効果は十分にテストしていません)。「anime」や「Miyazaki」と入力することでもスタイル変化がトリガーされます。

推論時の推奨設定は以下の通りです:

Model: flux1-dev (fp8e4m3fn)
Text Encoder: t5pxxl_fp16
Sampler: euler
Scheduler: 24 steps (normal)
Flux Guidance: 4
LoRA Strength: 1

ギャラリーに掲載しているすべての画像は、シンプルなテキストから画像への生成(インペインティング、ControlNet、アップスケーリングなどは使用せず)で作成しており、モデルの純粋な能力(および限界・弱点)を示すことを目的としています。

学習

このLoRAは、RTX 3090を1台使用し、公式ジブリサイトから収集した954枚の高品質画像(1080p解像度)で微調整しました。画像のキャプションは、ローカルでホストされたJoy Caption Pre Alpha(当時は後続のバージョンは存在しなかった)を用いて生成しました。使用したJoy Captionのプロンプトは:「A descriptive caption for this image:\n」です。すべてのキャプションには「In style of Studio Ghibli.」というフレーズを前置し、その後、手動でレビューしてエラーを修正(かなり多くありました…)、欠落していた詳細を追加しました。キャラクターや場所についてはタグ付けしていません。

特定の映画からの画像には、追加のキャプション「Scene from '...' film」を付与しました(詳細は下記参照)。954枚の画像は以下の通りです:

『風の谷のナウシカ』から50枚 — 追加で「Scene from 'Nausicaa' film.」を前置
『天空の城ラピュタ』から50枚 — 追加で「Scene from 'Laputa' film.」を前置
『となりのトトロ』から50枚 — 追加で「Scene from 'Totoro' film.」を前置
『魔女の宅急便』から50枚 — 追加で「Scene from 'Kiki's Delivery Service' film.」を前置
『おもひでぽろぽろ』から50枚 — 追加で「Scene from 'Only Yesterday' film.」を前置
『紅の豚』から50枚 — 追加で「Scene from 'Porco Rosso' film.」を前置
『海がきこえる』から50枚 — 追加で「Scene from 'Ocean Waves' film.」を前置
『平成狸合戦ぽんぽこ』から50枚 — 追加で「Scene from 'Pom Poko' film.」を前置
『おんゆうマーク』から28枚 — 追加で「Scene from 'On Your Mark' film.」を前置
『心の声』から50枚 — 追加で「Scene from 'Whisper Of The Heart' film.」を前置
『もののけ姫』から50枚 — 追加で「Scene from 'Mononoke' film.」を前置
『千と千尋の神隠し』から50枚 — 追加で「Scene from 'Spirited Away' film.」を前置
『ハウルの動く城』から50枚 — 追加で「Scene from 'Howl's Moving Castle' film.」を前置
『ゲド戦記』から50枚 — 追加で「Scene from 'Earthsea' film.」を前置
『崖の上のポニョ』から50枚 — 追加で「Scene from 'Ponyo' film.」を前置
『アーヤと魔女』から50枚 — 追加で「Scene from 'Arrietty' film.」を前置
『コクリコ坂から』から50枚 — 追加で「Scene from 'Poppy Hill' film.」を前置
『風立ちぬ』から50枚 — 追加で「Scene from 'Wind Rises' film.」を前置
『思い出のマーニー』から50枚 — 追加で「Scene from 'Marnie' film.」を前置
『君たちはどう生きるか』から26枚 — 追加で「Scene from 'The Boy And The Heron' film.」を前置

バージョン0.2では、データセットの構造を見直し、一から再収集する予定です。

LoRAの学習は26,000ステップ実行しました(250ステップごとに重みを保存)。ここでモデルの改善が止まり、幻肢などの解剖学的エラーが顕著になりました。その後、数日間をかけて最良のLoRAバージョンを選定しました。目標は、スタイル、多様性、エラーの最小化のバランスを求めることでした。主に、複数のキャラクターと複雑な相互作用を含む長く細かいプロンプト(失敗しやすいもの)でテストし、どのLoRAがより少ないエラーで動作するかを観察しました🤔。

テストを意図的に(そして間違って 😅)自動化せず、「クリックして待って嫌気が差す」という手動パイプラインを採用しました。

最終的に、16,250ステップのモデルを選択しました。6,000ステップや9,000ステップのLoRAも悪くなかったのですが、16,250ステップのものがより「成熟した」「ヴィンテージな」「多様な」雰囲気を感じました(「あまりに居心地の良い」ジブリLoRAにはしたくありませんでした)。

参考までに、異なるステップで学習されたLoRAの比較画像(同じシードを使用)をご覧ください:https://ibb.co/TKkgx2D。使用したプロンプトは以下の通りです:

"In style of Studio Ghibli. Scene from 'Totoro' film. This image is a digitally created scene from a Japanese animated film. The scene features three characters: two young girls and an elderly woman, sitting on a woven mat under a large tree with dense foliage. The background is lush with greenery, including tall trees and vibrant flowers, creating a serene, natural setting. One girl, who appears to be about four years old, wears a yellow dress with white accents and has pigtails tied with red ribbons. She holding a corn cob and smiling happily. Another girl, slightly older, in a white shirt and blue shorts, sits beside her to the left. She has dark hair and a calm expression. The elderly woman, seated to the right, wears a traditional Japanese kimono with a lavender pattern. She has white hair and a gentle smile, holding a bunch of leafy greens. In front of them, on the woven mat, are various vegetables like carrots, tomatoes, and cucumbers, arranged in a basket. The scene exudes a sense of peaceful coexistence with nature, emphasizing simplicity and harmony."

テスト後、以下の多くのミスに気づきました😶:

- Joy Captionが生成したキャプションに余分な情報が多すぎました(「This image is a digitally created scene...」「The scene exudes a sense of peaceful...」など)。スタイルLoRAのキャプションにはCogVLM2やQwen2の方が適している可能性がありますが、さらなるテストが必要です。(しかし、複雑な自然言語プロンプトによるキャプション生成がスタイルLoRAにはより効果的だと考えています。)

- LoRAを少し予測不能で多様、あるいは「珍妙」にしたいと考え、高い芸術的多様性を実現しようとしました。ある程度成功しましたが、この「珍妙さ」が整合性や解剖学的構造(手の変形など)に悪影響を及ぼすことがありました。これは過剰適合によるものと感じましたが、低ステップのLoRA(6,000〜9,000ステップ)でも同様のエラーが見られました。おそらく「平成狸合戦ぽんぽこ」のスクリーンキャプチャをデータセットに含めるべきではなかったかもしれません(人間と超自然的生物の特徴が混同されないよう、キャプションは慎重に確認しました)。

- AI-Toolkit以外のトレーナーも探すべきでした。AI-Toolkitは「動く」し優れたモデルを生成しますが、これに頼り続けるのは単なる現状維持バイアスかもしれません。

- たとえそうではなかったとしても、デフォルト設定に固執することが最良の選択ではなかったかもしれません。

このLoRAは、Windows 11上でAi-Toolkitを使用し、以下のハイパーパラメータ(実際には解像度以外はすべてデフォルト)で学習しました:

Rank: 32
Alpha: 32
Batch Size: 1
Steps: 16250
Learning Rate: 1e-4
Save every: 250
Resolution: 1024, 768
Optimizer: adamw8bit

このLoRAをご利用いただいたり、この文章を最後まで読んでくださったり、ありがとうございました!冒頭でお伝えした通り、フラックスの微調整にさらに経験を積む中で、このモデルを改善していきたいと考えています。

このモデルで生成された画像

画像が見つかりません。