Amorous Lesbian Kisses

详情

模型描述

热情的女同接吻
更新:各位,Wan版本真的非常棒,我很满意!现在我要尝试为Hunyuan复现这些效果!

Wan版本的接吻效果:虽然等待已久,但我终于成功创建了这个模型的Wan版本!它在文本到视频(T2V)和图像到视频(I2V)任务中表现都很出色。一个关键点是使用了Wan原生的16fps帧率,因此如果你训练Wan,我强烈推荐使用这个帧率!顺便说一句,我的示例视频是使用 https://github.com/GSeanCDAT/GIMM-VFI 插值到32fps的,效果非常出色。总之,我使用Musubi Tuner以480x272分辨率、每段视频69帧(16fps)、共30个视频、2400步、学习率2e-5、LoRA Plus倍数为4进行训练。我移除了开头的“amorous kissing”,但其他提示格式保持不变:

“两位年轻女性舌吻的特写。左侧女性红发,佩戴黑色蕾丝项圈;右侧女性是印度裔,皮肤白皙,长发直黑。”

“舌吻”、“深吻”、“接吻”、“全景”、“中景”、“特写”都应作为关键词!Wan尤其能很好地识别“making out”这个关键词,加入它后,你会获得大量亲昵的抚摸和触碰。它在舌部互动的表现上也优于Hunyuan。我的示例视频均使用Musubi Tuner在约20分钟内生成!我使用Musubi配合计划CFG:前10步和最后3步正常运行,其余步骤跳过。这样显著提升了速度,同时几乎不牺牲质量!我也在尝试跳层引导(skip layer guidance),效果奇特且明显提升了质量。另外,我使用了fp8 scaled,这带来巨大优势。Musubi的实现是在线的,意味着你需要从完整模型开始(而非预缩放版本)。它保留了部分较小但极为重要的参数为全精度,仅将权重量化为fp8,量化误差仅为2.5%(而朴素地转换到e4m3fn则为12.5%)。我进行了多次相同种子的对比实验,结果不仅在数值上优秀,而且始终是最接近未量化完整模型的方案。Comfy也有fp8 scaled,但实现方式不同(权重保存时已缩放,直接加载),但我听说效果也很棒。为普及访问权限欢呼!

原始版/Hunyuan:

这一直是个难题,可能因为涉及复杂的手部与舌部动作。基础版Hunyuan仅能生成简单的友情式亲吻,难以更进一步。这个LoRA专注于创造女性之间充满情欲的接吻与深吻。我在RTX 4070 Ti SUPER 16GB上使用Musubi Tuner训练了12小时。这是首个值得分享的版本,虽不完美,但确实能生成相当不错的效果!敬请期待后续更新。提示格式如下:

“热情的接吻,中景:两位裸体年轻女性在客厅中舌吻、深吻。左侧女性为深棕色头发,绑着两条马尾辫,手臂有纹身;右侧女性深棕发,扎着马尾。”

“热情的接吻,全景:两名女性躺在灰色沙发上,彼此相拥,激情舌吻。两人均为深棕发,一人穿着彩色露肩上衣和短裤,另一人穿着白色连衣裙。”

“热情的接吻,特写:两名女性在明亮窗前性感接吻。左侧女性红发,身穿黑色夹克;右侧女性戴毛线帽和厚黑框眼镜,两人均涂了睫毛膏。”

小提示:“making out”用于表示接吻时伴随大量抚摸和偶尔的性触碰,但这一术语在第一版中似乎效果不佳!“tongue kissing”用于描述明显可见、超出口腔的舌头动作;“kissing”用于舌部动作较少或仅在口腔内进行的情况。“wide shot”用于展现全身,“medium shot”用于腰部以上,“close up”用于面部特写。“passionately”作为修饰词,用于表示比数据集中平均更热烈的吻。

推荐设置:
权重:0.8–1.0
Flow shift:~9.0 @ 544p
引导强度:≤7.0(过高会导致手部问题)
步数:50
帧数:61–129(更长帧数可能有效,但未经过训练)
*据报告与我的实验,Teacache可能会干扰LoRA效果,建议尽可能关闭它。

数据集包含26个高质量视频,记录了不同年龄、种族的女性从不同距离、不同程度裸露状态下进行各种类型热情接吻与深吻的场景。原始数据通过ffmpeg预处理为训练片段,每段长144帧、24fps,仅保留感兴趣动作,无场景切换或剧烈运镜。此外,所有片段均裁剪至仅显示女性,以引入一定的宽高比变化——原始素材中95%为16:9。

训练配置:

网络维度:36
网络Alpha:1
学习率:2.4e-4
优化器:came_pytorch.CAME
优化器参数:weight_decay=0.01, eps=(1e-30,1e-16), betas=(0.9,0.999,0.9999)
步数:2400
预热步数:100
调度器:带预热的Constant
discrete_flow_shift:7.0
timestep_sampling:shift
显存优化:--blocks_to_swap 31, --split_attn, --flash_attn

为了支持不同帧长度和分辨率,数据集在toml中被列出了四次:

[general]
caption_extension = ".txt"
enable_bucket = true
bucket_no_upscale = false

[[datasets]]
video_directory = "/home/blyss/projects/art/extra/dataset/AmorousLesbianKisses"
cache_directory = "/home/blyss/projects/art/extra/dataset/AmorousLesbianKisses/cache0"
resolution = [480, 272]
target_frames = [129]
frame_extraction = "head"
batch_size = 1

[[datasets]]
video_directory = "/home/blyss/projects/art/extra/dataset/AmorousLesbianKisses"
cache_directory = "/home/blyss/projects/art/extra/dataset/AmorousLesbianKisses/cache1"
resolution = [640, 360]
target_frames = [69]
frame_extraction = "uniform"
frame_sample = 2
batch_size = 1

[[datasets]]
video_directory = "/home/blyss/projects/art/extra/dataset/AmorousLesbianKisses"
cache_directory = "/home/blyss/projects/art/extra/dataset/AmorousLesbianKisses/cache2"
resolution = [848, 480]
target_frames = [41]
frame_extraction = "uniform"
frame_sample = 2
batch_size = 1

[[datasets]]
video_directory = "/home/blyss/projects/art/extra/dataset/AmorousLesbianKisses"
cache_directory = "/home/blyss/projects/art/extra/dataset/AmorousLesbianKisses/cache3"
resolution = [1280, 720]
target_frames = [1]
frame_extraction = "uniform"
frame_sample = 2
batch_size = 2

此模型生成的图像

未找到图像。