Sex Motion Helper (prototype)

詳細

ファイルをダウンロード

モデル説明

このLoRAは、Hyvidのヘテロセクシャルシーンにより多くの動きと詳細をもたらすことを目的としています。他のモーションLoRAと共に、自然言語のシンプルなプロンプトを使用して実行してください。このLoRAと組み合わせる他のLoRAのプロンプティング方法を参考にしてください。

このLoRAは、他のセックスLoRAを以下のように改善します:

- キャラクターLoRAと組み合わせた際の動きがより豊かになります。
- より広範な動きと顔の表情を実現
- より優れた照明と背景環境
- 体と解剖学的詳細の精度向上
- 高解像度でよりシャープな出力を実現—ぼやけが発生した場合は、他のLoRAの強度を下げてください。

ヒント

  • ジッターや急激な動きが発生した場合は、フローシフトを上げてみてください。標準の9から17に上げると、特にキャラクターLoRAと組み合わせた際に滑らかさが向上します。

  • Boreal LoRAを0.2~0.3の強度で追加すると、手、足、その他の微細なエッジが改善されます。

  • このLoRAの最も簡単な使用方法は、既存の生成結果に動きや詳細を追加したい場合、同じシードでこのLoRAを0.2、0.3などの強度で追加し、最適な値を見つけることです。必要な強度は、他のLoRAに依存するため、多少の試行錯誤が必要です。

  • 単体で使用する場合、ワイドスクリーンと縦向きのアスペクト比では非常に異なる結果になります。トレーニングデータはすべてワイドスクリーンで、カメラのパンやズーム、多様な角度が含まれています。ワイドスクリーンの方がより良い結果を得られますが、プロンプトを正しく設定するにはより多くの工夫が必要です。

トレーニングノート

v0.1とv0.2は、多様な短いPiVクリップを用いてトレーニングされましたが、元の解像度が低かったため、多くのアーティファクトが発生していました。

v0.3では、5本の4K解像度、各約30分の動画を用いて一から再トレーニングしました。diffusion-pipeを使用して、121フレーム×244pxと33フレーム×512pxのフレームバケットを作成し、overlapping_middle手法を用いて、モデルが動画全体を2回見られるようにしましたが、異なるサンプルを提供しました。目的は、高解像度で短期的な動きを学習させ、244pxサンプルで長期的な動きを理解させることでした。1本の動画で女優の顔が他よりも多く登場しており、その顔にやや過学習しています。学習率は5e-5で、約7,000ステップかかりました。

v0.4はv0.3の上に、8本の新規動画(各約1時間、4Kソース)を用いてトレーニングされ、今回は1人称視点(POV)に焦点を当てました。他のセックスLoRAのほとんどが1人称視点であるため、それらとの組み合わせで改善することを目的としています。ソースはすべて16:9アスペクト比であり、ワイドスクリーンでより良い結果を出します。過学習を防ぐため、学習率を1e-5に下げ、合計ステップ数は約12,000でした。つまり、これまで13本の動画から約19,000個の個別サンプルを学習しています。

重要な点として、どの動画にもキャプションは一切使用しておらず、新たなテキストバイアスは含まれていません。このLoRAの目的は、Hunyuanの事前学習に欠けていた動画ポルノのギャップを埋めることです(そのため、静止画は生成可能ですが、動きは生成できませんでした)。

このLoRAをベースに、1回のファインチューニング(肛門版)を実施し、新しい概念をどれだけ迅速に習得できるかを確認しました。このバージョンもキャプションなしで1本の動画を用いてトレーニングされ、動画のサンプルだけで概念を非常にうまく習得しました。私の推測では、ソースの多様性とキャプションを加えることで、ファインチューニングの性能はさらに向上すると考えています。

バージョンノート

V0.4

このバージョンは、男性視点のセックスシーンに焦点を当ててトレーニングされ、1人称視点における動きと性行為の理解を向上させることが目的です。3人称視点の理解も若干ありますが、現在はまだ未発達です。このバージョンは、Missionary、Cowgirl、Reverse Cowgirlなどの1人称視点LoRAと組み合わせたときに最も効果的です。

ワイドスクリーンアスペクト比では、より滑らかで興味深い結果が得られます。トレーニングデータはすべて16:9の4K動画であり、このアスペクト比を使用することで、元のソースに近づきます。縦向きアスペクト比を使用すると、スタック内の他のLoRA(縦向きアスペクト比を多く使用しているもの)に影響を受けやすくなります。

このバージョンは、過去の長時間の動画と高すぎる学習率によって顔が過度に偏っている問題を一部軽減しましたが、完全に解消するにはさらにトレーニングが必要です。次のバージョンでは、顔の詳細、表情、多様性に焦点を当てます。

ギャラリー投稿には複数のワークフロー例があります。主な戦略は、既存のセックスLoRAを通常の強度の半分程度に下げ、このLoRAを0.5~1.5の強度で組み合わせることです。特に画像のみでトレーニングされたキャラクターLoRAを組み合わせる場合は、多少の試行錯誤が必要です。

V0.3

このバージョンは、以前のバージョンとは異なり、高解像度サンプルとより多様なシーンを用いてトレーニングされています。現在はスリムな金髪女性にバイアスがかかっていますが、プロンプトでその傾向を回避できます。

単体でも非常に効果的に動作します。ポーズを正しく得るには説明的なプロンプトを使用し、LoRAの強度とガイドレベルを調整してください。画像のみでトレーニングされたキャラクターLoRAを最大1.3の強度まで使用しても、動きの損失はほとんどありませんでした。

vid2vidとの組み合わせで非常に優れた結果が得られます。より興味深いポーズを探している方には、この組み合わせがおすすめです。

V0.3 - 肛門版

これは1本の肛門動画を用いてトレーニングされたさらに実験的なバージョンです。これはベースモデルが特定のトレーニングによって導かれる可能性があることを実証するためのものであり、より具体的なバリエーションの作成への道を開きます。Comfyで再現するためのワークフローはギャラリー動画に含まれています。プロンプトガイドが不足している点をお詫びします。過去のワークフローを再利用する際に、メタデータ保存を有効にするのを忘れていました。

このモデルで生成された画像

画像が見つかりません。