Freedive girls, underwater style

詳細

ファイルをダウンロード

モデル説明

2025年8月更新:

FLUX版と同じデータセットに85本の動画を加えてWan2.1 LoRAをアップロードしました。
4枚のGPUで4日間のトレーニングを実施し、それなりのコストがかかりましたが、結果は良好です。

サンプル生成に使用したプロンプトをご覧になると、どのような用語を活用できるかご理解いただけるでしょう。

2025年3月更新:

FLUX版を作成しましたが、結果が不安定なので使用はおすすめしません。
もちろん、誰でも試して最適な設定を見つけることは可能です。
1000枚の画像データセットはCivitAIが提供する10,000ステップの上限までトレーニングしましたが、これは十分ではないと考えています。今後、個別のコンセプト(例:ヒレ、ウェイトベルトなど)をそれぞれトレーニングしてマージするか、他のサービスを利用して最低50,000ステップまでトレーニングする方法を見つける必要があります。

v02更新: データセットを1000枚の画像に増やしました。作業中です。

約450枚の女性フリーダイバーの画像を用いてトレーニングしましたが、これまで試したすべてのチェックポイントは、多様で良好な水中画像の生成に苦戦していました。このLoRAはその問題を大幅に改善します。

使用上の注意点:

最も重要なのは、LoRAを「underwater」というタグでトリガーすることです。

いくつかのトリガー語があります。たとえば、「dive mask coco」「dive mask cressif1」「dive mask oval mask」と入力すると、それぞれ3種類の特定のダイビングマスクを生成できます。これらはSDXL(および私が試したすべてのディフュージョンモデル)で通常うまくいかないダイビングマスクを、かなり正確に描画します。「dive mask reflection」を追加すると、マスクのガラス面に日光や周囲の環境が反射されます。

「floating hair」と「flowing hair」は髪の表現に影響します。「floating hair」は静止姿勢に、さらに「flowing hair」は泳いでいる姿勢に適しています。

このLoRAは少し試行錯誤を重ねることで、比較的正確なダイビングフィンを生成できます。「diving fins」または「freedive fins」と入力してください。「weight belt」を追加するとウェイトベルトが表示されますが、十分なトレーニングデータがなく、高品質な描画は難しいです。フィンを表示したくない場合は「barefoot」と入力してください。ダイビングフィンはスタイル・形状が多様であるため、トレーニングが困難です。一貫した結果を得たい場合は、特定のモデル向けに作成したLoRAをご利用ください:/model/765372/diving-fins-white-and-pink-finsovwp1

水の透明度を制御するタグも追加しました。「excellent water visibility」「good water visibility」「regular water visibility」「poor water visibility」はそれぞれ効果があります。「murky water」「dark water」も強い影響を及ぼします。「water surface」は水の表面下の視覚を描写し、「surface reflections」は被写体を水面に近づけ、その上に反射を生み出します。「caustics」「light rays」「sunlight」は光の効果を追加します。

海底の設定には「sandy bottom」「coral rubble」「coral reef」「rocks」「cave」などがあり、「shipwreck」を入力すると船舶の残骸が追加されます。

「ocean」と「swimming pool」の切り替えが可能です。「split shot」(水中と水上を分割した構図)を試すと、思わぬ効果が得られるかもしれません。

ポージングについては、「facing up/down/away/towards viewer」で体の向きを、「looking towards viewer/up/down/aside」で頭の向きを制御できます。「swimming up/down/towards viewer/away」や「selfie」も効果があります。「from above/side/below/behind」はカメラアングルに適しています。

水着については、「bikini」「one-piece swimsuit」のほか、「wetsuit」「french cut wetsuit」(足が露出したウェットスーツ)も利用可能です。色や「long/short sleeves」「barelegs」などを組み合わせて調整できます。

このLoRAの主要な目的の一つは、私が「スノーケリングセルフィー症候群」と呼ぶ現象を抑制することです。つまり、ディフュージョンモデルがスノーケリング時のセルフィー写真にしかトレーニングされておらず、「1girl underwater」と入力すると、ほぼ必ず水面に浮かぶ女性のアップショットしか生成されないという問題です。私はこの傾向をあまりにも強く修正してしまったため、このLoRAは全身・広角の画像を生成しやすくなります。アップショットが欲しい場合は、明確に強調する必要があります。

最後に、このLoRAのトレーニングには数週間の作業と相当額のBuzzを要しました。もしよろしければ、チップ機能をご利用いただくか、生成した画像を直接モデルに投稿していただけると大変助かります。このLoRA用にPONY版を作成しましたが、うまくいかず、その失敗で約4000 Buzzを費やしました。それ以来、再挑戦していません。

このモデルで生成された画像

画像が見つかりません。