Chroma - Cinematic Atmosphere
詳細
ファイルをダウンロード
このバージョンについて
モデル説明
V2.0
約100枚以上の画像を追加し、さまざまなテーマ、照明、構図、視点でバランスを取るように試みました。よりシネマティックな仕上がりを目指したため、映画のようなアスペクト比(依存します)でより良い画像を生成します。
また、結果に大きな影響を与える要因として、改良されたT5エンコーダーを使用しています。他の「制限が少なく、ほとんど効果がない」と主張される訓練済みテキストエンコーダーとは異なり、このエンコーダーは同じシードと設定でも画像をかなり大きく変化させます。これは一長一短で、通常のT5と比較して生成中にあまり問題(ロードバム)を起こさない傾向があります。ポジティブ・ネガティブプロンプトに非常に忠実に従うため、柔軟性は高まりますが、奇妙なアーチファクトを引き起こさないようにより丁寧なプロンプト記述が求められます。同じ結果が得られない可能性があるため、念のためお伝えします。
もう一つ、私の理解では、他の人のLoRAにも共通する点ですが、特定のテーマ、アートスタイル、クラストークンなどを含むデータセットで訓練されていない場合、プロンプトにLoRAを活性化させる単語を少なくとも1つ含まないと、LoRAは結果に影響を与えません。私のほとんどのLoRAにはクラストークンが含まれていないため、プロンプトに「cinematic」や「movie still」などの語をどこかに含めるか、プロンプト自体が映画的な雰囲気を帯びるように工夫する必要があります。SDXLのようなモデルは、テキストエンコーダーが画像と共に訓練されることが多いため、このような点にはそれほど敏感ではありませんが、FluxベースのモデルやUNetのみを訓練する場合、トークンは非常に表面的なレベルで埋め込まれます。
まだいくつか修正・追加すべき点があります。
一部の訓練画像はプロフェッショナル写真LoRAのものでしたが、それらを分離したかったため、現状ではまだ完全には分離できていません。CFGやステップ数の調整にあまりにも多くの手間がかかりました。この状態でリリースするつもりはなかったのですが、今後の拡張のための基盤として活用できると考えました。不足している点を確認するために、時々使用してみようと思います(かなり多くの改善点があります)。
プロンプトや設定によっては、解像度が低くぼやけた画像を生成しやすい傾向があります。
画像の90%は映画のスチルではなく、私が「シネマティックな感覚」を持つと感じた写真(視点や構図など)です。これには、私の判断で該当するいくつかのイラストや絵画も含まれています。

















