Amorous Lesbian Kisses
詳細
ファイルをダウンロード
このバージョンについて
モデル説明
恋愛的なレズビアンのキス
更新:皆さん、Wan版は非常に素晴らしいです。とても満足しています。今度はHunyuan用に同じ結果を再現しようと思います!
Wan向けのキス:長く待たせましたが、ついにこのモデルのWan版を成功させました!T2VとI2Vの両方で十分な性能を発揮しています。大きな鍵となったのは、Wanのネイティブな16fpsを使用したことです。Wanをトレーニングする場合、ぜひこれを推奨します!ちなみに、私の例の動画はhttps://github.com/GSeanCDAT/GIMM-VFIを使って32fpsに補間されています。これは非常に優れています。さて、私はMusubi Tunerを使用して、480x272の解像度で、16fpsで69フレーム、30本の動画を2400ステップ、学習率2e-5、LoRAPlus値4でトレーニングしました。「amorous kissing」の先頭部分を削除しましたが、その他のプロンプト形式はそのままです:
「2人の若い女性が舌を絡ませてキスしているクローズアップ。左の女性は赤毛で、黒いレースのチョーカーを着けている。右の女性はインド系で、美しい明るい肌と長い真っ直ぐな黒髪をしている。」
「舌キス」「密着キス」「キス」「ワイドショット」「ミディアムショット」「クローズアップ」はすべてヒットワードです!Wanは特に「密着キス」というキーワードを非常にうまく捉え、これを含めると多くのなでつけや触れる動作が生成されます。また、舌の動きの表現もHunyuanよりも優れています。私の例はMusubi Tunerでそれぞれ約20分で作成しました!私はMusubiにスケジュールされたCFGを使用しており、最初の10ステップと最後の3ステップのみを実行し、それ以外はスキップしています。これにより、品質をほとんど損なわず、高速化が実現できます!また、スキップ層ガイドを使用して品質が大幅に向上することを発見しました。さらに、fp8スケーリングも使用しており、これは大きな利点です。Musubiの実装はオンラインで、フルモデル(事前スケーリング済みではない)から開始します。一部の小さなが非常に重要なパラメータをフル精度で維持しつつ、重み自体はfp8に量子化し、量子化誤差はわずか2.5%(単純なe4m3fnへのキャストでは12.5%)に抑えています。同じシードで複数回比較しましたが、数値だけでなく、私が試したどの手法よりも、フル非量子化モデルに最も近い結果を一貫して得ています。Comfyにもfp8スケーリングがありますが、実装方法は異なります(重みはスケーリング済みで保存され、それを読み込むだけ)。しかし、これも非常に優れていると聞いています。アクセスの民主化、素晴らしいです!
オリジナル/Hunyuan:
これは難しかったです。おそらく手や舌の複雑な動きが関係しているのでしょう。ベースのHunyuanは単純な友情的なキスはできますが、それ以上は難しいです。このLoRAは、女性同士の恋愛的・性的なキスや密着キスを生成することに焦点を当てています。RTX 4070 Ti SUPER 16GBでMusubi Tunerを使用して12時間でトレーニングしました。これは最初のバージョンで、完璧ではありませんが、十分に良い結果を出せます!今後も更新予定です。キャプション/プロンプト形式:
「恋愛的なキス、リビングルームで裸の2人の若い女性が舌を絡ませて密着キスしているミディアムショット。左の女性はブラウンヘアでポニーテール、腕にタトゥーがある。右の女性はブラウンヘアでポニーテール。後方にはクッションと植物のあるソファが見える。」
「恋愛的なキス、灰色のソファに横たわる2人の女性が抱き合って熱心に舌を絡ませてキスしているワイドショット。両方ともブラウンヘアで、一人はカラフルなハルタートップとショーツ、もう一人は白いドレスを着ている。」
「恋愛的なキス、明るい窓の前で2人の女性が感覚的にキスしているクローズアップ。左の女性は赤毛で黒いジャケットを着ており、右の女性はニットキャップと厚い黒縁メガネをかけている。両方ともマスカラを塗っている。」
補足:「密着キス」はキスに伴う多くのなでつけや時折の性的な接触を意味しますが、今回の最初のバージョンでは十分に効果が得られませんでした。「舌キス」は口の外で舌が明らかに動いている場合に使用し、「キス」はそれほど多くない、または口の中に限定される場合に使用しました。「ワイドショット」は全身が見える場合、「ミディアムショット」は腰上、「クローズアップ」は顔や上半身の近接撮影に使用しました。また、「熱心に」は、データセット全体よりもキスがより情熱的であることを示す修飾語として使用しました。
推奨設定:
重み:0.8–1.0
フロー変換:~9.0 @ 544p
ガイドance:<= 7.0(高すぎると手に問題が生じます)
ステップ数:50
フレーム数:61–129(より長いフレームはトレーニングされていないため、動作するかは不明)
※TeacacheはこのLoRAに問題を引き起こす可能性があるとの報告と私の実験結果があります。可能な限りTeacacheなしで試してください。
データセットは、年齢や人種の異なる女性たちが、さまざまな裸の状態で、さまざまな距離から、さまざまなタイプの恋愛的キスや密着キスを共有する26本の高品質動画で構成されています。ソースデータはffmpegで前処理され、各トレーニングクリップは24fpsで144フレーム、関心のある動作のみを含み、シーンカットや劇的なカメラ移動はありませんでした。さらに、女性のみを強調するためにクロップし、アスペクト比のバリエーションを追加しました(前処理前の95%が16:9でした)。
トレーニング設定:
ネットワーク次元:36
ネットワークアルファ:1
学習率:2.4e-4
最適化手法:came_pytorch.CAME
最適化引数:weight_decay=0.01, eps=(1e-30,1e-16), betas=(0.9,0.999,0.9999)
ステップ数:2400
ウォームアップステップ:100
スケジューラ:ウォームアップ付きConstant
discrete_flow_shift:7.0
timestep_sampling:shift
VRAM節約:--blocks_to_swap 31, --split_attn, --flash_attn
データセットは、異なるフレームバケット長を異なる解像度で処理できるように、TOMLファイルに4回記述されています:
[general]
caption_extension = ".txt"
enable_bucket = true
bucket_no_upscale = false
[[datasets]]
video_directory = "/home/blyss/projects/art/extra/dataset/AmorousLesbianKisses"
cache_directory = "/home/blyss/projects/art/extra/dataset/AmorousLesbianKisses/cache0"
resolution = [480, 272]
target_frames = [129]
frame_extraction = "head"
batch_size = 1
[[datasets]]
video_directory = "/home/blyss/projects/art/extra/dataset/AmorousLesbianKisses"
cache_directory = "/home/blyss/projects/art/extra/dataset/AmorousLesbianKisses/cache1"
resolution = [640, 360]
target_frames = [69]
frame_extraction = "uniform"
frame_sample = 2
batch_size = 1
[[datasets]]
video_directory = "/home/blyss/projects/art/extra/dataset/AmorousLesbianKisses"
cache_directory = "/home/blyss/projects/art/extra/dataset/AmorousLesbianKisses/cache2"
resolution = [848, 480]
target_frames = [41]
frame_extraction = "uniform"
frame_sample = 2
batch_size = 1
[[datasets]]
video_directory = "/home/blyss/projects/art/extra/dataset/AmorousLesbianKisses"
cache_directory = "/home/blyss/projects/art/extra/dataset/AmorousLesbianKisses/cache3"
resolution = [1280, 720]
target_frames = [1]
frame_extraction = "uniform"
frame_sample = 2
batch_size = 2
