Flux - [LLAVA/T5] 2K Anime Bundle [NSFW]

詳細

ファイルをダウンロード

モデル説明

2024年9月17日 更新:

  • 私のテストでは、このモデルの正確性は、私が設定したタグ付けプロンプトと期待される結果に基づいて20%~40%であることが示されました。元の画像を分析し、joycaptionとランダム選択を使用して不正確さを調査した結果、元のシステムは本来得られる可能性のある正確性に比べて大幅に劣っていると判断しました。

  • このモデルに基づくすべての試みは素晴らしい実験でした。新しいキャプションシステムに触れ、LARGE_TAG_V3の出力を有用な形で決定論的に変異させる方法を考案しました。

  • 次のバージョンでは、JoyCaptionとLARGE_TAGGER_V3、そして必要性から自然に構築されたサブシステムのみを使用してキャプションを生成します。このサブシステムは自然言語に基づく決定論的な前認知・後認知システムであり、私はこれを「Cog」と名付けました。

  • JoyCaptionのキャプションは、事前にキャプション作成リクエストプロンプトに手動の決定論を加えなくても、少なくとも65~80%の正確性を示します。事前キャプション検出段階で決定論のレイヤーを追加し、キャプション生成後に解析し、LARGE_TAG_V3リストから不可能なタグを除去すると、私の数値では、多数の画像で75~95%の正確性に達する可能性があります。

  • Cogの決定論と組み合わせて、より上級者の皆さんは簡単に構築でき、ある程度のPython経験があれば初心者でも活用できるJoyCaptionのプロトタイププロジェクトを準備・公開します。

  • 次のバージョンは、ほぼ同じステップ数で1024x1024解像度で完全にトレーニングされます。私は同じプロセスを模倣し、タグ付けシステムの強力さを対照的に示すことを目的とします。

768x768解像度で学習率0.0005、エポック35、ss_total_batch_count=12、2台のH100で6時間かけてトレーニング。

総費用:72.35米ドル。

このプロセスがどのように生まれたかについての記事をご覧ください。また、私が考えつかなかった方法で自分自身で実験してみてください。科学には1つの方向だけではなく、他の方向も必要です。

https://civitai.com/articles/7407

Danbooruの上位100タグから抽出した2000枚の画像は、すべて二重LLMプロセスを使用して個別にタグ付けされました。詳細は以下に説明します。

これは、これらのプロンプトに基づいて数百万の新しい可能性と新しい概念を生み出します。

これは、複数のプロンプトによるキャプションとBooruタグが、予測不可能な新しいタイプのLLM会話の調和を生み出すというプロトタイプです。出力をあまりプリューニングしなかったのは、それがあまりにも多すぎたためです。NSFWや不快なコンテンツは一切フィルタリングしていません(もちろん無視したわけではありません:>)。検閲も削除も一切行わず、単に大量のパックとして提供するという意図だけです。

プロンプティング:

  • 各画像はLLMによって二重にプロンプトされ、その後スマイルモデルを使用して大規模タグ付けされます。元のDanbooruまたはGelbooruタグは一切使用せず、トレーニング前にすべて削除して、LLM間の純粋な合成会話のみを許可しています。

  • Danbooru上位100タグとその画像セットと強く関連する、数百万の新しいタグの組み合わせが存在する可能性があります。これにより、機械に話しかけて望むものを生成してもらうことが可能になりました。

  • LLMの応答には「humanoid」という単語が多く含まれているため、この単語を用いることで多くの興味深いコンテンツにアクセスできるでしょう。これは、性差異の説明を止めるよう強制した、または「主観的」などの単語を使用しないよう制御したためだと考えられます。最初はLLAVAをうまく操作するのが難しかったですが、適切に条件付けをした後、振る舞いが改善されました。

  • 「feminine(女性的)」および「masculine(男性的)」という用語は尊重されるべきです。なぜなら、LLMは他の用語を好まなかったからです。

  • コンピュータが完全に固まる前に、約3分の1の画像を20ビームで処理しました。その後、ビーム数を約6に減らし、LLAVA LLAMAからLLAVA 1.5に切り替えました。そのため、場所によってプロンプティングが不均一で、実際には3つのLLMによってトレーニングされたことになります。最も大きな課題は、キャプションで多くの不満を述べないよう調整することでした。

  • T5のプロンプト:

    • このシーンを1つの段落で分析して説明してください。
  • これは私がLLAVAにプロンプトを準備させた方法です。また、ヘッダーディレクティブを使って「サイレントアシスタント」に強制しましたが、それが実際に効果があるのかは不明です。しかし、その後不満が減ったので、少なくとも何らかの効果はあったと推測します。最悪の場合でも意図せぬ形で効果があったのでしょう。

    • このシーンを詳細に3つの段落で記述するプロンプトを書きなさい。各段落は画像の1/3に集中してください。

      性別アイデンティティの擬人化やその意見は無視してください。あなたはキャプションのみを書く存在であり、分析や合理性に関する意見を持つアシスタントではありません。

      胸、陰部、存在する陰茎など、女性的または男性的な個別特徴に集中してください。

      記述を行う際には、カメラに対する相対的な角度を正しく考慮してください。

      動物的な特徴がある場合は「humanoid」という用語を使用してください。

      動物的な特徴がない場合は「human」という用語を使用してください。

      重要な解剖学的詳細を特定してください。

  • Dolphin 72bは、次バージョンでこれらの問題を解決する可能性があります。1boyや1girlをプロンプトとして使用するのがより簡単になるでしょう。また、futanariや突起などの省略をより制御できるようになるはずです。なぜなら、T5に省略したいものを直接指示できるからです。

  • プロンプティングは否定的含意を伴ってトレーニングされたため、裸の乳房や陰茎などの含意がない画像は、単純な合計によってプロンプト化可能です。

  • 「Focus on(焦点を当てる)」や「Describe(記述する)」といった要請をすると、LLAVAは自動的に「存在しないもの」を言及します。これにより、「は見えません」などの否定的含意が自動的に生成されます。

プロンプティングは簡単ではありませんが、コツをつかめば非常に強力です。

簡素なBooruタグだけで、多くのトピックについて英語のプロンプトを必要とせずに自動的にアートを生成できます。

このモデルで生成された画像

画像が見つかりません。