UnCanny (Photorealism Chroma)
詳細
ファイルをダウンロード
モデル説明
アップデート V1.2: より良い背景、少ないノイズ/アーティファクト、より自然で素早いポーズ、優れた風景など。ベース(bf16)とfp8の両方をアップロードしました(右側のファイルがv1.2 fp8 ----->)。注意: 一部のユーザーがv1.2に問題を報告しています。個人的には、私はより良い結果を得ているため、現時点ではこのバージョンを残していますが、さらにテストやトレーニングが必要なようです。
Chroma は、写真のような結果を生み出すことができる優れた多目的モデルですが、丁寧なプロンプトが必要です。このファインチューニングは、Chromaの広範な概念理解を維持しながら、リアリスティック/写真スタイルの信頼性を向上させることを目的としています。フラッシュバージョンには、rank-128のLoRA(こちら)が組み込まれています。v1.2 GGUFがHuggingFaceに登場。
(v1.2)プロンプティング: Chromaのプロンプトはうまく機能します。自然な文で見たいものを説明すると効果的です。v1.2では、写真用語がスタイルに強く影響します。たとえば:素人撮影、スタジオ撮影、プロフェッショナル、ドキュメンタリー/シネマティック/風景/野生動物写真など。技術用語(レンズ、シャッタースピードなど)は結果を強化しますが、必須ではありません。トレーニングで使用されたキャプションスタイルの例画像は以下です(amateur-guitar、night-sky、close-up face、tiger)。CFGを1に設定すると、ネガティブプロンプトは機能しません。CFGが1より大きい場合、ネガティブプロンプトは機能し、非常に重要(良い場合も悪い場合も)になります。
v1.2では、人間のようなキャラクターを生成する際にやや厳しくなる可能性があります。プロンプトの調整が必要になるかもしれません。今後のバージョンでは改善のアイデアがありますが、テストとファインチューニングは時間がかかるため、しばらくかかるでしょう。
例設定(必ずしも最適とは限らず、v1.2のためのさらなるテストが必要です):
ワークフロー: ComfyUIのChromaテンプレートワークフロー
ステップ(ベース): ~30–35(他の設定、CFG、サンプラーなどに依存)
ステップ(フラッシュLoRA): rank-128では15ステップがうまく機能します。フラッシュLoRAのランクに依存
CFG(ベース): ~3.5(他の設定、ステップ、サンプラーなどに依存)
CFG(フラッシュLoRA): rank-128では1がうまく機能します。フラッシュLoRAのランクに依存
サンプラー:
res_2mとdpmpp_sdeがうまく機能スケジューラ:
bong_tangentが好みです |betaも良好
設定に関する注意: 1つの設定(サンプラー、CFG、ステップ)を変更すると、他の設定も調整しないと良い結果を得られない可能性があります。CFGは処理速度に影響します。
サポート:
お金が余っている?さらにトレーニングを支援したい?
https://ko-fi.com/dawncreates
トレーニング詳細
このモデルはローカルで、Chroma-HDをベースにトレーニングしました。各エポックでは、3〜5種類の異なる解像度の画像を含みましたが、エポックごとに使用されたデータセットのサブセットは限定的でした。追加の解像度を除き、24GB Chromaファインチューニング用のOneTrainerのデフォルト設定を使用しました。データセットはほぼすべてSFWの人物と風景画像で構成されているため、Chroma-HDの元の概念的理解を維持するため、複数のレイヤーをさまざまな比率でマージしました。すべての要素、構図、被写体、概念はChroma自体から来ており、私のモデルはそれをリアリズムに導くだけです。正直、このバージョンは、Chromaがどれほど優れているかを示すショーケースであり、独自の優れたファインチューニングというよりは、Chromaのファインチューニングにどれほどの可能性があるかを示すものだと考えています。ぜひChromaのファインチューニングに取り組んでください!非常に大きな可能性があります!
今後もファインチューニングと実験を継続する予定です。
すべての画像はJoyCaptionでキャプション付けされました:https://github.com/fpgaminer/joycaption
モデルはOneTrainerでトレーニングされました:https://github.com/Nerogar/OneTrainer
v1.2トレーニングの変更点: コアデータセットからノイズやボケの多い画像を減らしました。画像を以下のJoyCaptionプロンプトで再キャプション付けしました:
「この写真について、長く、非常に詳細な説明を書きなさい。必ず写真の種類(例:「プロフェッショナルなアナログ風景写真」、「素人のストリートフォト」、「プロフェッショナルな日常の写真」、「ドキュメンタリー風写真」、「素人の風景写真」、「プロフェッショナルな風景写真」など)から始めてください。必ずこの写真が素人の撮影か、スタジオ撮影か、ポーズされたものかを明記してください。続いて、主な被写体と媒体を説明します。写真の残りの部分を説明する際は、色、形状、質感、空間的関係などの具体的な詳細に焦点を当ててください。要素どうしがどのように相互作用しているかを示してください。人の年齢、体格、特徴を明確に記述してください。被写界深度を指定し、背景が焦点に合っているかぼやけているかを述べてください。照明の情報を含めてください。カメラのアングルを明記してください。写真である限り、使用されたカメラの可能性、および絞り、シャッタースピード、ISOなどの詳細を必ず含めてください。この画像が極近接、近接、中近接、中距離、カウボーイショット、中広角、広角、極広角のいずれであるかを明示的に指定してください。視点の高さ(目線レベル、低角度、虫の目、鳥の目、ドローン、屋上など)を明確に記述してください。存在しないもの、解像度、観察できない詳細については決して言及しないでください。文の構造を多様化し、簡潔に、『この画像は…』のような言い回しから始めないでください。丁寧な婉曲表現は使用せず、率直でカジュアルな表現を用いてください。」




















