深部から眠る巨人が目を覚ます…

皆様、ようこそ。これは私とhttps://civitai.com/user/speach1sdef178との共同プロジェクトです。私はTruBassモデルシリーズを開発しており、彼女はProject 0モデルシリーズを開発しています。

個々のモデルの開発が進むにつれて、私たちは定期的に結果を共有し、互いに自分のマージを制作する機会を交代で持ちました。

類似した目標に向かって、異なる視点から取り組む中で、私たちのモデルは次第に似通いながらも独自の特性を獲得していきました。

これまでのすべての訓練は、24GBのVRAMで実行可能なパラメータを使用して行われました。その多くは、Tensor Artのオンライン訓練を利用してオンラインで学習されました。Tensor Artはユーザーが独自のカスタムモデルを学習できるようにします。Tensor Artで学習されなかった部分は、AI Toolkitをローカルで使用して学習しました。

さらに、最近まで、私たちの作業の大部分は、LORAの訓練と、それらを正の重みと負の重みで使用して、モデルを意図した方向に導く影響力のある変化を実現することに集中していました。

一般に、私たちはいくつかの分野で成功を収めましたが、現在利用可能なFluxモデルが著しく不足しているいくつかの重要な領域も特定しました。正直、私たちは両者とも、モデルの一般的な機能を損なわず、全体的なプロンプトの遵守を低下させることなく、ビジョンを実装する方法に苦労してきました。

これはFLUX DEVモデルであるため、これを使用・カスタマイズするためのモデルライセンス契約の一部として、行ったすべての変更を明示する必要があります。

この場合、以下のように要約できます：

私たちは、mile high styler用の独自のキャプションスタイルで、約1000のスタイルをモデルに訓練しました。
その後、1000以上のスタイルをテストし、どのスタイルが不足しているかを特定しました。
モデル自身の出力を用いて、特定のスタイルにおける最悪のミスを個別に反映する合成データセットを作成しました。
これらの悪いデータセットを用いて、一つずつ個別の「悪い」LORAを訓練しました。
次に、その個別のスタイルのための現実的なデータの小さなデータセットを収集・選別し、それを使って「良い」LORAを訓練しました。
「悪い」LORAは負の重みで使用し、不要な要素を除去します。一方、「良い」LORAは、モデルが失った重みの一部を回復させると同時に、意図したスタイルの出力へとより正確に形状を調整するために使用されます。
正の重みと負の重みを持つLORAの組み合わせをモデルにマージし、チェックポイントとして保存しました。
このプロセスを1日に複数回、約3か月間繰り返しました。定期的に私たちの成果を統合し、たまにShuttleDiffusion、Crystal Clear Super、Jibmix、ArtsyDreamなどのコミュニティモデルを追加の文脈として取り込みました。
コミュニティモデルと統合する際には、既存の進捗が統合中に消去されないように、負の重みのLORAを再適用する必要がありました。
一部のケースでは、正の重みのLORAも再適用する必要がありました。

このモデルの目的は、FLUX DEVモデルの代替品として、非常に改良されたモデルを作成し、ほとんどのケースで追加のLORAが不要になるようにすることです。私たちは、モデルに有名人を含むキャラクターを追加したいと思っていましたが、単純なモデルマージLORAトレーナーとして、根本的にそのレベルを超えていると感じています。

全体としては単純なプロセスでしたが、この取り組みは極めて困難でした。その困難の多くは、研究要素と、同じパラメータで異なるデータセットに一貫してモデルを訓練するシステムの開発に起因しています。モデルアーキテクチャが修正不可能であるか、完全に再構築する必要があるため、いくつかの妥協を余儀なくされました。

最新バージョンのモデルは、Tensor Artでオンラインで試すことができます。開発とテストを進めながら、私はそれらをCivitaiで公開してダウンロード可能にします。

https://tensor.art/models/816904519431515667

これは、Tensorでの訓練コストがCivitaiよりもはるかに低いからです。Civitaiでは、モデルリリースに数日から1か月以上かけて十分な注目を集め、その上で後続モデルの訓練を行う必要がありますが、Tensorの価格体系により、たとえ成功しなくても毎日新しいLORAを訓練することが可能になります。また、このプラットフォームで成功すればするほど、追加の費用をかけずに毎日より多くのLORAを訓練できます。

そのため、すべてのユーザーが無料でのアクセスの恩恵を受けられるように、テストリリースはTensorでのみオンラインで公開し、継続的な訓練プロセスを資金面で支えます。

私たちは光を求めて、ますます深い深淵へと落ちていく。

協力的なガイドライン：統一されたモデルフレームワークの構築

AIモデル共同プロジェクトへようこそ！このガイドは、プロンプトの遵守を最優先にモデルの洗練とマージを行うための手引きです。芸術的メディアのモードとファッションのスタイルに焦点を当て、正負のLORAを活用することで、正確で適応性があり革新的なモデルを作成します。共に協力し、AIモデルの可能性を再定義しましょう。

1. 協力に参加する

私たちはAIモデルの改善と拡張に焦点を当てた協力コミュニティです。以下でお気軽におつなぎください：

Discordサーバー：AI Revolution Discord
進捗を共有し、フィードバックを得て、リアルタイムで協力できます。コミュニティはOlivio Sarikasが管理しており、他のトレーナー、マージャー、開発者、AI愛好家で構成されています。
Tensor Art：モデルを検索しオンラインでテスト
最新バージョンのモデルをテストし、フィードバックを提供して、継続的な訓練を支援してください。

2. 基盤

このプロジェクトはプロンプトの遵守を最優先し、プロンプトに記述された内容を正確に生成できるようにすることを目標としています。私たちのすべてのステップはこの基盤の上に構築されています。

主な要素：

モード：芸術的メディアを表します（例：油絵モード、ピクセルアートモード）。
スタイル：ファッションのために使用します（例：サイバーパンクファッション、バロックファッション）。
正負のLORA：良い点を強調し、悪い点を抑制することで出力を微調整するツールです。

3. プロンプト構造

プロンプトテンプレート

モード、芸術的属性、時代、ファッションスタイル、被写体数、独自の識別子、レーティング、詳細なシーン/アクションの記述、¬ 追加の詳細、フィルター。

例

油絵モード

油絵モード、豊かな質感、繊細な筆致、1600年代の時代、バロックファッション、単体、複雑な構図、レーティングSFW、豪華な部屋で金細工の樫の杖を手にした貴族、¬ 壮麗な窓から差し込む光、ソフトな光フィルター。

ピクセルアートモード

ピクセルアートモード、8ビットグラフィックス、明るい色調、1980年代の時代、カジュアルファッション、2人、レトロなビデオゲーム風、レーティングSFW、光るキノコを越えて走る2人のキャラクター、¬ 明るいスプライトアニメーション、ピクセルグローフィルター。

4. ワークフロー

ステップ1：データセットの構築

モードデータセット：
- 各モードにつき、10～30枚の高品質画像を収集します。
- 例：油絵モードでは、厚いインパスト質感、滑らかなトーンのブレンド、表現豊かな構図を含みます。
スタイルデータセット：
- 特定のファッション（例：バロックファッション、サイバーパンクファッション）を反映する画像を集めます。
詳細なプロンプト：
- 5枚の優れた画像を選出し、それらについて詳細なプロンプトを記述します。これらは訓練プロセスの基盤となります。

ステップ2：正負のLORAの訓練

正のLORA

目的：望ましい特性を強化し、プロンプトの遵守を向上させます。
訓練方法：モードまたはスタイルを代表する選別されたデータセットを使用します。
重み付け：推論時には**+0.4**まで使用します。この範囲を超えると出力が誇張される可能性があるため避けてください。

負のLORA

目的：アーティファクトや誤った表現を抑制します。
訓練方法：
1. 問題のあるプロンプトで出力を生成します。
2. 期待に応えられなかった画像を集めて「悪いデータセット」を作成します。
3. これらの問題を特定するLORAを訓練します。
重み付け：不要な要素を除去するには**-0.3**まで使用します。過剰な補正を避けるためです。

ステップ3：正負のLORAを統合

バランスが重要です。両方のLORAを組み合わせて微調整された結果を得ます：

油絵モード、繊細な筆致、鮮やかな色調、1600年代、バロックファッション、単体、厚いインパスト油絵、レーティングSFW、豪華な研究室で金の杖を手にした貴族、¬ 紋章の質感に反射する光、ソフトなグローフィルター。
-0.3:(負の油絵) +0.4:(正の油絵)

ステップ4：テストと洗練

プロンプトの遵守：
- モードとスタイルの範囲でモデルがプロンプトにどれだけ忠実に応えるかを確認します。
重みの調整：
- テスト結果に基づいてLORAの重みを微調整します。
反復：
- データセットとプロンプトを洗練し、欠落を埋めます。

5. モデルのマージ

Google Drive LORAフォルダを活用して、独自のモデルマージを作成してください。

プロセス

LORAを段階的にマージし、各段階で結果をテストします。
マージ中にも正負の重みを適用し、バランスを保ちます。

6. 負のLORA訓練ワークフロー

ステップ1：「悪いデータセット」の構築

問題のあるタグ/プロンプトで出力を生成します。
アーティファクト、歪み、不適切な表現を示す画像を集めます。

ステップ2：LORAの訓練

このデータセットを用いて、不要な特徴を抑制するLORAを訓練します。

ステップ3：推論時の適用

推論時には、訓練済みLORAに**-0.3**までの負の重みを適用します。

7. ツールとプラットフォーム

Discordサーバー：AI Revolution Discord
- 進捗を共有し、コミュニティと協力してリアルタイムのフィードバックを得られます。
Tensor Art：
- モデルをテストし、プラットフォームへの関与を通じてLORA訓練を資金支援します。
- Tensor Artを探索。

8. キーポイント

重みが重要：正のLORA重みは**+0.1～+0.4の範囲内に、負の重みは-0.1～-0.3**の範囲内にとどめてください。
段階的に進める：一度にあまりにも多くの変更を加えないでください。慎重に反復して進捗を維持します。
協力する：結果を共有し、コミュニティから学びましょう。フィードバックは非常に貴重です。

9. 今後の目標

モードを完璧に：
- 各モードが一貫して正確に動作するようにします。
プロンプトの遵守を強化：
- エッジケースや詳細なプロンプトに基づいて出力を検証・改善します。
二次的な洗練：
- 遵守が完璧になったら、肌の質感、解剖学的正確性、照明に焦点を当てます。

これらのツールとガイドラインがあれば、創造的な実行に優れた正確で柔軟なモデルを構築するためのすべてが揃っています。共に、素晴らしいものを築きましょう！ 🚀

モデルタイプ	チェックポイント
ベースモデル	Flux.1 D
公開日	1/21/2025

TruBass

詳細

ファイルをダウンロード

このバージョンについて

モデル説明