American Dollar Bills

詳細

ファイルをダウンロード

モデル説明

アメリカの紙幣は、Flux用に私がトレーニングした最初のLoRAです。このプロジェクトの目的は、1ドル、2ドル、5ドル、10ドル、20ドル、50ドル、100ドルの主要な紙幣の表と裏に基づいて、現実的なアメリカ紙幣の画像を生成することでした。これは良いアイデアから始まりましたが、不完全な結果で終わりました。しかし、学びへの情熱とモデル作成スキルの向上への意欲により、当初の経験不足にもかかわらず、今後どうすれば……を達成できるかを理解することができました。

データセットの作成

画像の検索と選択

私は、1ドルから100ドルまでの主要な紙幣(表と裏)の画像をオンラインで検索し、合計150枚の画像を収集しました。その中にはUHD解像度の画像も含まれており、多様なデザインとコンテキストを確保しました。

リサイズ

Birmeウェブサイトを使用して、すべての画像を一括で1024×1024の正方形形式に変換・リサイズ・トリミングしました。

紙幣の研究

私はアメリカ人ではなく、米国を訪れたこともないため、各紙幣の表と裏に見られる詳細に焦点を当て、米国紙幣のデザインについて(深くはなかったですが)研究しました。

キャプションの作成

私はKohyaでBLIP2を使用して、データセット内の各画像に対して自動的にキャプションを生成しました。その後、Google翻訳を用いてすべてのキャプションを手動で検証し、精度を確認しました。最後に、ChatGPTの支援を受けて、キャプションをより正確で多様化させました(例:「a one-dollar banknote」、「a 1-dollar banknote」など)。

Civitaiでのトレーニング

私は、Flux Gymよりもシンプルで効率的だったため、トレーニングにCivitaiプラットフォームを使用することに決めました。

しかし、トレーニングを完了し、生成された最初の画像でLoRAをテストしたところ、データセットに顕著な不均衡があることに気づきました:

  • ほとんどの画像が100ドル紙幣でした。
  • 10ドル紙幣などの他の額面は完全に欠落していました。

この不均衡は生成結果にも明確に現れました:LoRAは、汎用的なプロンプトを使用しても100ドル紙幣を生成しやすい傾向があります。

データセットの分析とスクリプトの作成

データセットのバランスの誤りを理解するために、簡単なPythonスクリプトを作成してキャプションを分析しました。このツールは、yes_word.txtファイルを使用して関連キーワード(「dollar」、「banknote」、または1、5、10、20などの額面)を検索します。同時に、no_word.txtファイルを使用して、接続詞や前置詞などの不要な単語を無視します。

このスクリプトは以下のレポートを生成します:

  • 最も頻繁に出現する10語
  • 最も頻繁に使用される10の数字
  • yes_word.txtファイルで見つかったすべてのキーワードを、頻度とアルファベット順に並べた完全なリスト

これにより、データセットが不均衡であることが確認できました。具体的には、100ドル紙幣の画像が過剰で、10ドル紙幣などの一部の額面が欠落している状態でした。

パフォーマンスと観察

私のテストでは、このLoRAをシンプルなポジティブプロンプトと共に使用した場合、同様の生成結果と比較して明らかに改善が見られました。例えば:

  • テクスチャーとして適用すると、オブジェクトに均一に覆い、より洗練され、信頼性のある_PATTERN_を生成します。特定の特徴(素材の種類やテクスチャーなど)を指定することで、オブジェクトの構造に完璧に溶け込み、テクスチャーが素材自体の一部のように見えます。
  • キャラクターに使用すると、より詳細で現実的な服を生成します。
  • 全体的に、このLoRAは現実的な文脈での画像品質を向上させ、より洗練され、視覚的に魅力的な最終結果を生み出します。

最終的な考察

アメリカの紙幣は、LoRAの作成とトレーニングプロセスについて多くのことを教えてくれた実験です。その制限や明らかなバランスの誤りにもかかわらず、今後のモデル改善において重要な一歩を示しています。

主な利点:

  • テクスチャーやキャラクターの服において、現実的な文脈で非常に信頼性が高く、詳細な結果を生成します。
  • オブジェクトや人物に適用可能です。
  • サイズはわずか18.3MBです。

このLoRAで期待できること:

  • 現実的なアメリカ紙幣の画像を生成することを目的としています。特に、データセットの不均衡のため100ドル紙幣に注力しています。
  • 最適な結果を得るには、ComfyUIで1〜2のウェイトを使用してください。
  • 紙幣に関する良いプロンプト(巻かれた状態、束ねられた状態、山積みなど)でさらにテストを行い、その可能性を探ってください。

改善点:

  • 今後のバージョンでは、トレーニング前にデータセットをバランスよく整備し、すべての紙幣額面を均等に含める必要があります。
  • より経験豊富なユーザーからのフィードバックを取り入れて、トレーニングと分析プロセスを改善する必要があります。
  • トレーニング開始前にデータセットを分析するためのより良いツールを開発することが不可欠です。

あなたがアメリカ紙幣の詳細な画像を生成したり、現実的なテクスチャーをプロジェクトに取り入れたいと思ったことがあるなら、ぜひアメリカの紙幣をお試しください!あなたのフィードバックは、今後の改善に非常に重要です。

このモデルで生成された画像

画像が見つかりません。