LEOSAM's FilmGirl Ultra 胶片风

詳細

ファイルをダウンロード

モデル説明

🌍QQグループ「ウサギネコ・AIGCドリームスタジオ北工場」にご参加ください。グループ番号:780132897。「ウサギネコ・AIGCドリームスタジオ南工場」グループ番号:835297318(参加回答:ウサギネコ)。Telegramグループ「ウサギネコのSDXLブロードウェイ」リンク:https://t.me/+KkflmfLTAdwzMzI1

🚨FilmGirl Ultraの推奨パラメータ:

Clip skip:1

CFG scale:9

画像出力解像度(直接出力):約50万ピクセル(640×768)

2024.2.29「FilmGirl Ultra」発表。SD1.5のAI顔からサヨナラを。

昨年2月24日、私は最初のバージョンのFilmGirl LoRAを完成させました。このLoRAは、私が初めて高いダウンロード数を記録したモデルであり、AIへの夢の始まりでもあります。SDXLの発表以降、私はHelloWorldとAIArtのXLモデルの改善に多大な努力を注いできました。また、FilmGirlシリーズは8ヶ月ぶりのアップデートとなりました。

実際、FilmGirl、それ以降のPolaroid LoRA、またはHelloworld XLに関しても、私はずっと極限の写実性を追求してきました。1年が経過し、その記念としてSD1.5の写実性を新たな高みへと引き上げるモデルをリリースすることに決めました。LoRAモデルだけではこの使命を果たせないため、新しいFilmGirl UltraはSD1.5ベースモデルです

SD1.5の写実的モデルにおける同質化やAI顔の問題を完全に払拭するため、FilmGirl Ultraはbasilmixやchilloutmix、その子孫との訓練基盤を選ばず、UCLAから公開された最新のSPIN-Diffusionを選択しましたSPIN-Diffusionは、pickapic_v2データセットの勝者画像を用いた自己対戦微調整によるSD1.5ベースモデルであり、SD1.5オリジナルベースモデルやSD1.5 DPOベースモデルを上回る性能を持ち、プロンプトの整合性性能はChilloutmixなど高度に微調整・統合されたベースモデルよりもはるかに優れています。

FilmGirl UltraのトレーニングデータセットはHelloWorld XLから採用されています。実際、HelloWorld XLの最初のバージョンも、最後のFilmGirl LoRAバージョンのデータセットを使用していました。この1年間、私はこのデータセットを細かく蓄積・選別してきました。今や約1万枚に達しています。FilmGirl Ultraのトレーニングには、GPT4Vによる自然言語のキャプション、GPT4Vによるタグ形式のキャプション、Blip+Clipのキャプションといった複数のラベリング方法が用いられました。一般的に使われるプロンプト「1girl」、「best quality」、「masterpiece」との互換性を確保するため、これらの言葉も一部の画像に適切に追加されています(ただし、「little girl/child girl」でしっかり少女の効果を引き出せるようにしています)。複数のラベルセットを使用したのは、希望する効果をなるべく高い確率で引き起こすためです。FilmGirlの伝統に則り、フィルム風のスタイルに特別な注意を払い、プロンプト「film grain analog photography」でこのスタイルをトリガーできます

このモデルは合計7段階のトレーニングを経て、各段階で異なるバッチサイズ、最適化手法、学習率、トレーニングデータ割合を使用し、現在の効果を達成しました。SPIN-Diffusionを微調整したい方は、総トレーニングステップ数が5万ステップを超えることを推奨します。実際、私はバッチサイズ40~64で約10万ステップトレーニングを行いました。

FilmGirl Ultraの写実性は私の予想を上回り、今やSDXLの画像品質に近づいています。下図は、現在最もダウンロード数が多いCivitaiモデルであるRealistic Vision v6、および長期にわたり最も写実的なSD1.5ベースモデルと評価されているepiCPhotoGasmとの比較です。この2つの優れたベースモデルおよびその開発者に敬意を表します。

クローズアップカップルポートレート、アフリカ系の若い女性と男性、明るい肌、カメラを注視、ファッションフォト、シンプルな背景
ネガティブプロンプト: watermark, anime, cartoon, open mouth

クローズアップカップルポートレート、アフリカ系の少女と少年、明るい肌、カメラを注視、ファッションフォト、シンプルな背景
ネガティブプロンプト: watermark, anime, cartoon, open mouth

GPT4VによるキャプションおよびSPIN-Diffusionベースモデルの恩恵により、モデルのプロンプト整合性は非常に優れています。以下は、異なるコンセプトに対するxyプロットテストの結果です。

人種テスト

体型テスト

肌色テスト

年齢テスト

動物テスト

しかし、FilmGirl Ultraがすべての観点で優れているわけではありません。これは新しい起点からのスタートであり、過去1年間でコミュニティが継続的に最適化・整備してきた1.5ベースモデルの伝統からは離れました。広範なテスト・比較を通じて、このベースモデルはコミュニティの成熟したリアリスティックモデルに比べて、肢体の誤差率が高いことが判明しました。また、トレーニングデータセットに二次元コンテンツが不足しているため、プロンプトにACGN関連タグが含まれている場合、出力が適切でないことがあります。こうした点を避けるために、「digital art」「anime」「cartoon」などの言葉は使用を控えることを推奨します。これらがFilmGirl Ultraの現在の主な課題です。

FilmGirl Ultraは、私のAI旅路初年の年間レビューであり、応援してくださったAI愛好家たちへの贈り物です。オープンソースコミュニティは、私に多くの友人、思い出、喜び、そして知識をもたらしてくれました。私も、その恩返しとして多少の貢献をしたいと考えています。ぜひ皆さんがFilmGirl Ultraをベースにモデルのトレーニングやマージを行ってください。このモデルが自分のモデルの改善に役立ったと感じたら、モデルの説明文にその旨記載してください。FilmGirl UltraとSPIN-Diffusionが、より広く知られ、使われるよう願っています。

FilmGirl Ultraは今後も継続的にアップデートされます。皆さま、どうぞ快適にお使いください!

AIとともにさらに進歩し、来年同じ場所で再びお会いできるよう願っています!

昨年の2月24日、私は最初のFilmGirl LoRAを完成させました。このLoRAは、私の初めての高ダウンロード数モデルであり、AIへの夢の始まりでもあります。SDXL登場後、私はHelloWorldおよびAIArtのXLモデル改善に大きな努力を注いできました。FilmGirlシリーズも8ヶ月ぶりの更新となります。

実際、FilmGirlやその後のPolaroid LoRA、Helloworld XLに関わらず、私は常に極限の写実性を追求してきました。1年が経過し、記念としてSD1.5の写実性を新たな高みへと引き上げるモデルをリリースすることにしました。LoRAモデルではこの使命を果たせないため、新しいFilmGirl UltraはSD1.5ベースモデルです

SD1.5の写実モデルにおける同質化やAI顔の問題を完全に解消するために、FilmGirl Ultraはbasilmixやchilloutmix、それらの派生モデルではなく、UCLAからリリースされた最新のSPIN-Diffusionをトレーニングのベースモデルとして選択しました。SPIN-Diffusionは、pickapic_v2データセットの勝者画像を用いた自己対戦微調整(Self-Play Fine-Tune)によって構築されたSD1.5ベースモデルであり、SD1.5のオリジナルベースモデルやSD1.5 DPOベースモデルを上回る性能を持ち、Chilloutmixなどで多層的微調整・統合されたモデルよりも飛躍的にプロンプト整合性が優れています。

FilmGirl UltraのトレーニングデータセットはHelloWorld XLから採用されています。実際、HelloWorld XLの初版も、FilmGirl LoRAの最終版データセットを使用しており、1年間にわたりこれらのデータセットを精査・積み上げてきました。現在のトレーニングデータセットは約1万枚に達しています。FilmGirl Ultraのトレーニングには、GPT4Vによる自然言語キャプション、GPT4Vによるタグ風キャプション、Blip+Clipを用いたキャプションなど、複数のラベリング手法が採用されました。また、「1girl」「best quality」「masterpiece」など一般的に頻出するキーワードとの互換性確保のため、これらの語句を一部の画像に適切に追加しています(ただし、「child girl」「girl」などと組み合わせれば、少女効果を正確にトリガー可能)。複数のラベルセットを使用したのは、必要な効果を高確率で発現させるためです。FilmGirlの伝統を守るために、フィルム風スタイルに特別な注意を払い、「film grain analog photography」というプロンプトでこのスタイルをトリガーできます

本モデルは全部で7段階のトレーニングを実施。各段階でバッチサイズ、最適化手法、学習率、トレーニングデータ集の比率を変更することで、現在の画像品質を達成しました。SPIN-Diffusionの微調整を検討する方には、全トレーニングステップを5万ステップ以上にすることを推奨します。実際、私はバッチサイズ40~64で約10万ステップトレーニングを行いました。

FilmGirl Ultraの写実性は私の期待を遥かに超え、現時点ではSDXLの画像品質に近づきました。以下は、Realistic Vision v6(Civitaiで最もダウンロード数が多い1.5ベースモデル)およびepiCPhotoGasm(長年にわたり最も写実的なSD1.5ベースモデルと評価される)との比較です。2つの優れたベースモデルおよびその開発者に敬意を表します。

また、GPT4VによるキャプションおよびSPIN-Diffusionベースモデルの恩恵により、モデルのプロンプト整合性は非常に優れています

しかしFilmGirl Ultraがすべての分野で優れているわけではありません。これは新しい出発点からのモデルであり、過去1年の間、コミュニティが1.5ベースモデルを継続的に最適化してきた流れから離れています。多大なテスト・比較の結果、このベースモデルはコミュニティの成熟したリアリスティックモデルに比べ、肢体の誤差率が高いことがわかりました。また、トレーニングデータに二次元系コンテンツが含まれないため、プロンプトにACGN関連タグを含んだ場合、出力品質が良好ではありません。したがって、「digital art」「anime」「cartoon」などの語の使用は避けた方がよいです。これらがFilmGirl Ultraの現在の主な課題です。

FilmGirl Ultraは、私によるAI旅路の初年度の総括であり、支援を寄せてくれたAI愛好家への贈り物です。オープンソースコミュニティは、私に多くの友人、記憶、喜び、そして知識をもたらしてくれました。私もコミュニティに少しでも貢献したいと考えています。モデルの開発にあたっての参考になれば幸いです。ぜひFilmGirl Ultraをベースにしてご自身のモデルのトレーニングや統合にご活用ください。本モデルおよびそのトレーニングベースモデルSPIN-Diffusionは、Apache-2.0ライセンスに基づき、使用・改変が許可されています。商用利用やモデルカスタマイズの希望がある場合は、Civitaiの開発者ページより連絡ください。もし本モデルがご自身のモデル改善に役立ちましたら、モデル説明文にその旨を記載していただけますと幸いです。FilmGirl UltraおよびSPIN-Diffusionが、より多くの人々に知られ、使われるよう願っています。

FilmGirl Ultraは今後も継続的に更新されます。皆さま、どうぞ有意義にお使いください!

AIと共に進歩を続け、来年この場所で再会できることを心より願っています!

著作権表示

FilmGirl Ultraシリーズモデル(以下「本モデル」)は、私が(以下「所有者」)SPIN-Diffusionを基に開発したSD1.5ベースモデルです。

所有者により、個人または企業は、非商業目的(教育・情報共有など)での、本モデルによって生成された画像の使用を無料で許可されています。ただし、以下の条件を遵守してください:

- 関係法規を遵守し、本モデルまたは第三者の正当な権利を侵害しないこと。

- 画像を使用する際には、「LEOSAM's FilmGirl Ultraモデルにより生成」と明記すること。

商業目的での使用は、所有者と商用利用契約を締結した上で行う必要があります。商業利用・モデルカスタマイズに関するお問い合わせは、所有者がCivitaiに掲載しているプロフィール情報より連絡ください。

所有者は、個人ユーザーに対して、FilmGirl Ultraモデルの継続的な更新を無料で提供し、オープンソースコミュニティへの貢献への感謝を示します。商業利用者からの有償連携は、本モデルの開発と継続的な改善を後押しする重要な要素です。すべてのユーザーの理解と支援に感謝しています。

ご承知ください。無断での使用は関連法規に違反する可能性があり、法的責任を負うことがあります。本声明の最終解釈権は所有者にあり、関係法規に基づいて運用されます。

このモデルで生成された画像

画像が見つかりません。