The Wire: Baltimore Photography
詳細
ファイルをダウンロード
モデル説明
V1.1では、データセットのタグ付けが完全に最適化され、シーズン1からシーズン5までの区別が明確にされています。
1.0のタグはあまりにも広範で、1.1ではシーズン1からシーズン5のタグを全面的に最適化しました。
このLoRAモデルは、HBOの古典的なシリーズ『The Wire』の独自のビジュアルスタイルを再現することを目的としています。ドキュメンタリーのような撮影技法、低飽和度のカラーパレット、そして特徴的なボルチモアの街並みを学習します。モデルは、象徴的な赤煉瓦のローハウス、劣化した裏路地、そして荒々しい都会の雰囲気に満ちた街角のシーンを成功裏に捉えています。
このLoRAモデルは、HBOの古典的なシリーズ『The Wire』の独自のビジュアルスタイルを再現することを目的としています。ドキュメンタリー風の撮影技法、低飽和度のカラーパレット、特徴的な街並みの構図、そして光と影の雰囲気を学習しています。モデルは、ボルチモアの象徴的な赤煉瓦のローハウス、崩れかけた路地、そして街角の雰囲気を盛り込んだシーンを成功裏に捉えています。
提供されたプレビューアイメージは、類似の結果を得るための良い参考となる特定のプロンプトを使用して作成されました。(訓練データ内のtxtファイルも参照できます)
プロンプトについては、プレビュー画像または訓練データ内のtxtファイルを参照してください。
このLoRAモデルの訓練における課題
データセットの選定:ボルチモアの物語はその人々と切り離せませんが、私は『The Wire』の独特な物語的雰囲気を捉えるために、主要な登場人物を意図的に避けました。したがって、人物が写っている画像はほとんどが背景の群衆であり、個人と都市の建築物との相互作用に焦点を当て、番組の特徴的な映像スタイルを模倣しています。
訓練解像度:私は、スタイルは一貫しているが主題が異なる140枚の画像を収束させるのに当初苦労しました。最初の1024解像度での試みでは、基本的な建築スタイルしか学習できませんでした。GitHubで検索したところ、同様の事例(Flux Lora training seems not to converge with big dataset(140 images))を見つけました。他のユーザーは、1024解像度で良好な収束を得るのに4x4x3500ステップを要していました。そのため、私は512解像度で訓練し、約10,000ステップをかけて望ましい結果を得ました。
このLoRAモデルの訓練における課題:
データセットの選定では、主要な登場人物を避けましたが、この都市の物語には人々が不可欠です。したがって、人物を含む画像はほとんどが背景の群衆であり、人々とこの古い都市の建築物との相互作用を通じて、『The Wire』特有の映像的物語スタイルを効果的に模倣しています。
訓練全体で、140枚の主題が異なる画像の収束に苦労しました。最初に1024解像度で訓練しましたが、基本的な建築スタイルしか学習できませんでした。GitHubを調査したところ、同様の事例(Flux Lora training seems not to converge with big dataset(140 images))があり、別のユーザーは1024解像度で良好な収束を得るために4x4x3500ステップを要していました。最終的に、私は512解像度で訓練し、約10,000ステップをかけて目的の結果を得ました。



















