Yiffydream image captioner

詳細

ファイルをダウンロード

モデル説明

これは、furry画像(NSFWを含む)向けにmoondreamを基にした極めて実験的な画像キャプション生成モデルです。人間や類似の対象も扱えます。注意:これはテキストから画像を生成するモデルではなく、既存の画像を入力としてその説明文を生成します。また、信頼性が低く、実際には存在しないNSFWの詳細を勝手に生成する傾向があります。さらに、アップグレードまたは古いバージョンを使用する場合は、下記の警告も必ずお読みください

リリース当時、furryコンテンツ向けに公開されているキャプション生成モデルは存在しなかったため、この状態でリリースしました。ただし、生成されたキャプションの大幅な微調整や手動編集が必要になる可能性が高いです。その後、JoyCaptionのベータ版がリリースされ、用途によってはより良い結果を提供する可能性があります。しかし、私は改良が見つかるたびに、このモデルの新しいリリースを不定期で継続しています。新しいリリースは全体的に改善されているものの、一部のケースでは性能が低下する傾向があることに注意してください。

このモデルを使用するには、moondreamをインストールし、このモデルをそのディレクトリに展開する必要があります。(非常に特定のPytorchおよびtransformersのバージョンをインストールするため、最新版と互換性がない可能性があるため、この作業の前にvenvまたはconda環境を設定することをお勧めします):

git clone https://github.com/vikhyat/moondream
cd moondream
git checkout 281074b9e488d142fba86760c7b606a1866acf3f
pip install -r requirements.txt
unzip yiffydreamImage_20250511.zip

これで、含まれるバッチキャプションスクリプトを画像ディレクトリに指向させることで、既にキャプションファイルがない画像に対して.captionsファイルを生成できます:

python3 batchcaption.py myimagedirectory/

重要な警告:20240826より前のキャプションスクリプトには、プロンプトを完全に無視して使用しないという馬鹿げたバグがあります。(_prompt__with_tagsの定義の最後にreturn promptが欠けていたのです。あっ!)このバグは、単に一括でキャプションを生成するだけの単純な用途(私のテストもすべてこの方法で行いました)では大きな影響がなく、そのため長く見逃していました。ただし、古いスクリプトは新しいリリースと互換性がない可能性があるため、一般的には修正済みバージョンを使用することをお勧めします。申し訳ありません。

20241231リリースでは、実験的に--usetagsオプションを有効にして、人間が作成したタグをキャプション生成のガイドとして利用できます。各画像に対応する.tagsファイルを探します。このファイルにはカンマ区切りのタグが含まれている必要があります(例:123.jpgには1girl, bikini, blonde hairなどと記述された123.tagsファイルが必要です)。タグが不足している画像については、通常通りキャプションを生成します。この機能を使用する場合は、必ず最新版のbatchcaption.pyを使用してください

生成されたキャプションの品質は大きく異なり、複数のキャラクター間の相互作用については特に不十分です。より便利な場合は、--outfile引数を使用してJSONLファイルに出力することもできます。また、簡単な微調整スクリプトも同梱しています。

このモデルで生成された画像

画像が見つかりません。