Pony V7 base

詳細

ファイルをダウンロード

モデル説明

Pony V7は、AuraFlowアーキテクチャに基づく多目的なキャラクター生成モデルです。このモデルは幅広いスタイルや種族タイプ(人型、アニマル、フェラルなど)をサポートし、自然言語プロンプトを通じてキャラクターの相互作用を処理します。

Fictional

まず、Fictionalをご紹介します。Fictionalは、テキスト、画像、音声、(まもなく)動画を通じてAIキャラクターを生き生きとさせるマルチモーダルプラットフォームです。PonyV7、V6、Chroma、Seedream 4などの高度なモデルを駆動して、自分自身の人生を生き、物語を共有するキャラクターを発見・作成・インタラクションできます。

Fictionalは、V7のようなモデルの開発を可能にする基盤でもあります。マルチモーダルAIキャラクターの未来に興奮している方は、iOSまたはAndroidでFictionalをダウンロードし、私たちの未来を形作るお手伝いをしてください!

iOS: https://apps.apple.com/us/app/fictional/id6739802573
Android: https://play.google.com/store/apps/details?id=ai.fictional.app

お問い合わせ

FictionalおよびPonyモデルに関するご質問は、Discordサーバーへご参加ください。

重要なモデル情報

長らくお待たせしました。V6のリリース以降、画像生成モデルの状況は劇的に変化しました。V7のリリースに時間がかかった理由および今後のモデルリリースについて詳しくは、こちらの記事をご覧ください。

モデルプロンプト

このモデルは多様なスタイルと美観をサポートしますが、推奨されるデフォルトのプロンプトテンプレートは以下の通りです:

特殊タグ、画像の事実的説明、画像のスタイル的説明、追加コンテンツタグ

特殊タグ

score_X、style_cluster_x、source_X - 注意:V7のプロンプト処理は不安定な場合があります。詳細は記事をご覧ください。V7.1でこの問題を改善中です。

画像の事実的説明

スタイル的指標を含まず、画像に描かれている内容を説明します。以下の2点をお勧めします:

  • 詳細に入る前に、画像に何を描きたいかを1文で簡潔に述べてください。

  • キャラクターを指す際は、次のパターンを使用してください:

<種族> <性別> <名前> from <出典>

例:「Anthro bunny female Lola Bunny from Space Jam」

このモデルは、有名なキャラクターやマイナーなシリーズを多数認識できます。

画像のスタイル的説明

画像の媒体、ショットタイプ、照明などに関する情報。(詳細はcaptioning Colabで後日公開予定)

タグ

V7は自然言語プロンプトとタグの両方を組み合わせて学習されており、両方を理解できます。そのため、通常の言語で目的の結果を説明するだけでほとんどの場合うまく機能します。ただし、主なプロンプトの後にタグを追加することで、特定の要素を強調できます。

Captioning Colab

V7プロンプトの理解を深めるため、V7のキャプション生成に使用されたすべてのモデルを含むCaptioning Colabをリリースします。

(次週公開予定)

サポートされる推論設定

V7は768pxから1536pxの解像度をサポートします。推論時には、より高い解像度を推奨し、少なくとも30ステップを実行してください。

V6との比較での主な強化点

  • プロンプト理解が大幅に向上。特に空間情報や複数キャラクターの扱いが優れています。

  • 背景のサポートが大幅に強化。背景の生成とキャラクターとの組み合わせが優れています。

  • リアリズムの表現がデフォルトで大幅に向上。

  • 非常に暗い画像と非常に明るい画像を生成可能。

  • 解像度が最大1536x1536ピクセルまで対応。

  • キャラクター認識能力の拡張(V6で認識されていた一部キャラクターは認識率が低下する場合がありますが、全体として知識量は大幅に拡大)。

特別な感謝

  • 必要な学習リソースの調達を支援してくれたIceman

  • Simo Ryu およびFAL.aiチームへ、AuraFlowの開発と感情的支援を提供してくださりありがとうございます

  • Runpod へ、キャプション生成の計算リソースを提供してくださりありがとうございます

  • Piclumen へ、パートナーとして協力してくださりありがとうございます

  • GGUFサポートの支援をしてくれたCity96

  • AuraFlow統合作業を支援してくれたdiffusersチームへ

  • プロジェクトのコストを支援してくれたPSAI Server サブスクライバー

  • コミュニティを慎重に管理してくれたPSAI Server モデレーター

  • 名前を公にしなかった多くの支援者へ。皆さんの助けがV7の完成に不可欠でした。

技術的詳細

このモデルは、3000万枚以上の画像から選別された約1000万枚の美的にランク付けされた画像で学習されています。アニメ/漫画/ファーリー/ポニーのデータセット間で約1:1の比率、安全/問題あり/露骨の評価間でも約1:1の比率を保っています。すべての画像には高品質な詳細なキャプションとタグが付与されています。

すべての画像はキャプションとタグの両方を用いて学習に使用され、アーティスト名は削除され、オプトイン/オプトアウトプログラムに基づいてソースデータをフィルタリングしました。不適切な露骨なコンテンツはすべて除去されています。

制限事項

  • このモデルはテキスト生成をサポートしておらず、ベースのAuraFlowと比較してテキスト生成能力が低下しています。

  • 特殊タグ(品質タグを含む)の性能はV6と比べて大幅に低下しており、score_9が必ずしもより良い結果をもたらすとは限りません。この問題を改善するためV7.1を開発中です。

  • 小さな詳細、特に顔はアートスタイルによって著しく劣化することがあります。これは古いVAEと不十分な学習が原因であり、V7.1で改善を目指しています。

LoRA学習

LoRA学習には、このガイドに従って、SimpleTunerの使用を推奨します。

diffusers対応、Comfyワークフロー、学習ガイドについては、今しばらくお待ちください。

ダウンロード

Diffusers

Safetensor

GGUF

Comfyワークフロー:未定

カスタマーアプリケーションAPI

当社は、独占パートナーであるFAL.aiを通じて商用APIを提供しています。

ライセンス

このモデルはPony Licenseの下でライセンスされています。

簡単に言うと、このモデルとその出力は商業利用が可能です。ただし、推論サービスまたはアプリケーションを提供する場合、年間収益が100万ドルを超える企業である場合、またはプロフェッショナルな動画制作で使用する場合は除きます。ただし、第一方商用APIを使用する場合は、これらの制限は適用されません。

このモデルを商業的に使用したい場合は、[email protected]までお問い合わせください。

商業的推論の明示的な許可は、CivitAiおよびHugging Faceに付与されています。

このモデルで生成された画像

画像が見つかりません。