danbooru拡張タグアノテーション！

事情は以下の通りです。ほとんどのアニメテーマのStable Diffusionモデルは、danbooruタグをプロンプトとして訓練されています。danbooruタグは、キャラクターのヘアスタイルから靴のデザインまでを網羅する非常に大規模なタグ集合です。しかし、このタグ集合はバランスがよくありません。特に背景に関するタグはごく一部しか含まれていません。たとえば、white hair、black hair、blonde hairなどのさまざまな髪の色のタグは存在しますが、テーブルについてはtableというタグしかなく、white tableのような詳細なタグは存在しません。そのため、danbooruタグで訓練されたモデルは背景を描くのが苦手です。

では、MLLMにこれらのデータに対してより豊かな背景アイテムタグを付与してもらえば、この問題は解決できるのでしょうか？

試してみましょう！