Vodka by FollowFox.AI
詳細
ファイルをダウンロード
このバージョンについて
モデル説明
V3がリリースされました!
いつものように、すべての詳細、使用したデータ、パラメータ、コードスニペットについては、Substackにてご確認ください。https://followfoxai.substack.com/p/impact-of-tags-on-sd-general-model
以下のアップ upcoming ロードマップをご覧ください - これからたくさんの興味深い進展が予定されています!
V3について
※注:これはご自身のLORA開発のベースとして非常に適している可能性があります。モデルは非常に中立的で、あらゆるスタイルのプロンプトに適応でき、複数の画像タイプに対応可能です。
今回、画像にBooruタグのサブセットを追加したため、タグに対応できるようになりました!
ぜひ試してみてほしいタグ:
Solo– 画像に1つのキャラクターを配置するもので、非常に安定して動作しますlooking at viewer– 男性より女性に強く偏るが、キャラクターを中央に配置し、カメラを見つめるように生成するのに非常に効果的ですoutdoors– 定期的に屋外環境を生成する、またはキャラクターを屋外に配置する際に非常に効果的ですblurry– 空の生成では常にぼやけた画像が得られます。逆にネガティブプロンプトとして使用すると、一定の改善が見られますBlurry background– MidJourneyのボケ(ボケ味)スタイルを模倣するのに非常に効果的です。以下がポジティブプロンプトとして用いた一例ですJewelry– 飾り物や装飾品を生成する、または生成に組み込むことができますindoors–outdoorsプロンプトと同様の効果を発揮します
画像生成の推奨事項
このモデルは非常に多様性があり、あらゆるスタイルでプロンプトを入力できます。MidJourneyスタイルのプロンプト、もしくはCivitaiやLexicaから得られるあらゆるスタイルのプロンプトも、多くの場合、興味深い結果を生み出します。
さらに、上記で述べたタグを使った実験も可能です。
最後に、クラップアップ(拡大)手法をできるだけ採用することを強くお勧めします。以下は私たちのお気に入りの2つの方法です:
Hires. Fix
Hires. Fixを有効化し、ノイズ除去強度を0.3〜0.5に設定。アップスケールを1.5〜2倍に。Latent(nearest exact)または4x-Ultrasharpアップスケーラーを使用。その他パラメータは実験的に柔軟に調整可能です。
ControlNet + Ultimate SD Upscale
以前の投稿で紹介したControlNetタイルアップスケール方法を参考にしてください。(リンク)
今後のロードマップ
Vodkaシリーズ:
Vodka V3(完了) – キャプションにタグを追加し、その効果を検証
Vodka V4(進行中) – UNETとText Encoderの学習パラメータを分離し、「焼け」現象(frying issue)を解消
Vodka V5(データ準備段階) – 改良された新しいデータセットとこれまでのすべての学びを活かした学習
Vodka V6(未定) – 全データにAI生成キャプションを再付与し、AI生成キャプションとオリジナルプロンプトの効果差を検証
Vodka V7+(現時点ではアイデアの保管庫) – データセットのセグメンテーションとパラメータ調整、VAEのファインチューニング、モデルの弱点を補うための特定データの追加など、多くのアイデアを一時的に保管
Cocktailシリーズ:
これらのモデルは、Vodka(または将来のベースモデル)を元にしたミックスモデルです。
Bloody Mary V1(完了・未リリース) – 最初のミックスはVodka V2をベースとしています。リリースをお見逃しなく:Vodka V2は、適切な努力をすることで高品質な画像を生成するモデルから、ほとんどの生成が非常に高品質なモデルへ進化しました。非常に柔軟で興味深いモデルです。
Bloody Mary V2+(計画中) – まだ具体的な内容はありませんが、V1からの教訓・Vodkaベースモデルの改善点を踏まえたアイデアをもとに計画中です。
その他のカクテル(未定) – 他のカクテルの作成計画・アイデアはあるものの、現時点では外での共有に値するものはありません。
LORAs、Textual Inversions、その他の拡張機能:
VodkaシリーズおよびCocktailシリーズの能力を強化するための拡張リリースに関するいくつかの探索を開始しました。今後の展開に注目してください。
なお、これらの探求について、成功したかどうか関係なく、すべての内容を共有する予定です。一部は失敗する可能性もありますが、何よりもプロセスから学びを引き出すことが重要です。
ユーザー体験全般とソリューション:
これは今後のリリースの一部をほんのわずかに示すものです。これまでの経験とビジョンを、完全なリリース製品に翻訳していきます。今後さらに多くのおもしろプロジェクトについてお知らせしていく予定です!
古いバージョンおよびVodkaの歴史
概要
要約:私たちは、FollowFox.AIがリリースする Vodka_V2 をご紹介します。これは、アップデートされたデータセット(Midjourney V5.1から)でファインチューニングされた汎用モデルです。本書では、どのようにして到達したかをすべて公開します。モデルに期待できること:
より客観的に優れたデータセットを採用。サイズは2.5倍に拡大し、クリーニングも徹底。
V1とほぼ同等の品質だが、わずかに向上。飛躍的な進化とは言えないが、一歩前進。
現状では、ある程度の努力をすれば、注目すべき画像を生成できる。
依然として、MidjourneyやトップクラスのSDモデルのような、効率的かつ一貫して高品質な出力を得るには至っていません。
モデルのトレーニングプロセスの詳細は、followfox.ai(投稿リンク)およびファインチューニングガイドにてご確認ください。このコミュニティのオープンソース精神に賛同し、同じ手順を再現し、正確な到達経路を確認してもらい、プロトコルの各側面についてフィードバックや提案をいただけることを期待しています。
Vodka V2に効果的なパラメータとワークフロー
もっと検証すべき点は多いですが、いくつかの観察結果を共有します:
V1と比較して、CFG値の範囲を広く試すことができます。3〜7.5の範囲で良い出力が得られる場合があります。
Booruタグ単体のプロンプトは、データセットがタグ付けされていないため効果が劣ります。
人間の文章のような記述に、形容詞と「魔法の言葉」を加えると非常に効果的です。
ほぼすべてのサンプラーで興味深い結果が生成されます。
SDアップスケールワークフロー(以下に概説)+タイル制御用ControlNetにより、このモデルの画像品質が向上
EasyNegative TI(リンク)を推奨。ネガティブプロンプトに「blurry」を含めるとさらに効果的です。
Automatic1111で試すべきアップスケールワークフロー
最初にtxt2imgタブで気に入った画像を生成(各プロンプトに対して、複数のサンプラーとCFG値のグリッドを生成することを推奨)、それをimg2imgに送信します。
元の生成と同じプロンプトとサンプラーを使用
ステップ数を高めに設定。今回はほとんどの画像で150を使用
幅と高さを元の2倍に設定。512x512なら1024x1024
ノイズ除去強度は低めに設定。0.2〜0.25を使用
CFG値については、(元の値 - 0.5)の式を適用。元の画像が7.0で生成された場合、6.5に設定
ControlNet設定:有効化。プリプロセッサには「tile_resample」、モデルには「control_v11f1e_sd15_tile」を使用。また、「ControlNetがより重要」というオプションに切り替えも可。他の設定は変更不要。
「Ultimate SD upscale」エクステンションがインストール済みであることを確認。スクリプトドロップダウンから選択し、4x-UltraSharpアップスケーラーを選択。タイル幅と高さを640x640に設定。
生成を実行。しばらく待つと、十分な品質の出力が得られます。さらに高精細にするため、このプロセスを繰り返すことも可能。
結論と次のステップ
モデル開発の方向性は正しいと考えており、今後も新しいバージョンを継続的にリリースしていきます。もちろん、そのすべてのプロセスをドキュメント化し、公開していきます。
V3リリースに関して、一部の生成でぼやけや細部不足が生じる原因について、すでに仮説を検証済み。今後、この問題に取り組んでいきます。




















