Side Doggy

详情

下载文件

模型描述

我不是那种喜欢站队的人,但侧面视角,哇哦!我很自豪向你们呈现……

侧位狗姿

这个概念带来了独特的挑战,因为我最初贪多嚼不烂。最终我训练了一个包含6个镜头的集合,并额外添加了6个特写。我的最初尝试是将这个集合一分为二,一些画面展示左侧,另一些展示右侧。结果自然出现了身体恐怖、变异、连体阴茎、糟糕的口交等现象……

我无法获得一致的渲染效果,但失败往往以一种有趣的方式带来成长。经过两周的失败,我终于灵光一现,具体细节如下,但先看!

版本

版本一

这可能是唯一一个……6e-5,256x256(粗略像素平均)持续60帧。姿势非常一致,全部来自同一侧。这是我迄今为止最出色的LORA之一,我甚至不需要精挑细选来展示!(!!)在宽屏比例下表现优异,在竖屏比例下也出人意料地稳定。

通配符提示模板:

一位美丽的{苗条|丰满}的{俄罗斯|法国|瑞典|瑞士|拉丁裔|奥地利|德国|荷兰|英国|爱尔兰|葡萄牙}女性呈四足跪姿,从侧面视角呈现,一名{健壮|肥胖|瘦弱|肌肉发达}的{非洲|德国|美国|拉丁|亚洲}男性跪在右侧,面朝左侧,从后方将他的{巨大|中等大小|粗壮|小巧}阴茎插入她的阴道。他的骨盆始终与她弯曲的臀部和髋部保持水平对齐。
她的{金发|棕色|脏金色|浅金色} {造型|直发|卷发|扎起|马尾}头发垂落在画面左侧。

他正用双手{抓住|紧握|按住}她的臀部。她的{{红色|黑色|白色|粉色|多色} {胸罩|吊带背心|衬衫}遮盖胸部|{大|中等|小}乳房随着每一次挺动而晃动}。

场景发生在一间光线充足的现代{卧室|地下室|客厅|公园|工作室|阁楼|医生办公室|隔间}。

训练笔记

在经历大量纠结之后,我终于有了重大发现!

HunyuanVideo:

  • 无需使用触发词。它们实际上只是噪音,毫无作用,甚至可能损害学习过程。最差情况下,它们完全无用。为什么?

  • HunyuanVideo 的文本编码器并不会直接接受字面提示,而是根据语义对提示进行翻译,并构建自己的内部表达。非英语词汇不具备语义意义,因此不会带来任何价值。我们可以停止添加这类词。如果你尚未信服,不妨试一试这个LORA——即使没有任何触发词,效果依然惊人。

  • 无论LORA多优秀,一个设计糟糕的提示词永远不会表现良好。相反,一个弱的LORA,若配合恰当的提示词,也可能表现出色。

在寻找最佳关键词时,我们确实需要一个触发短语,但必须找到能最贴近你所训练LORA姿态、概念或细节的提示词。

如果你希望侧位狗姿效果良好,你必须提炼出最简洁的短语,使基础模型能准确呈现整体构图。结果可能缺少动作或精确度,但如果你训练的是一个两人场景的LORA,而没有LORA时HunyuanVideo只能渲染出一个人、三个人,或出现恐怖变异、完全错误的姿势,那这个提示词根本无法有效训练,也难以生成理想结果。

经过反复试验,我终于找到一组能精准触发基础模型的多段提示词,最终提炼出如下核心语句:

**
一位女性呈四足跪姿,从侧面视角呈现,一名男性跪在右侧,面朝左侧,从后方将他的阴茎插入她的阴道。他的骨盆始终与她弯曲的臀部和髋部保持水平对齐。她的头发垂落在画面左侧。**

这段关键语句让我成功呈现了两个人物、他们的位置关系,甚至有时能生成阴茎。那一刻,我如释重负,充满胜利感。当我用这段语句(配合环境提示如地点)进行提示时,我曾经极不稳定的LORA也开始稳定输出高质量效果,非常出色。但我没有止步于此,我重新标注了整个数据集,用这些语句进行夜间训练。现在我正在渲染展示视频,简直难以置信——几乎每个种子都能精准命中,这太疯狂了。我8/8都没有出现变异、多余人物、倒置头部等问题……(看我是不是说漏嘴了……哈哈)


我们不仅获得了一个如魔法般有效的侧位狗姿LORA,还得到了一个至关重要的训练技巧:首先找到能让基础模型模拟出你LORA核心概念的关键词语,然后围绕这些稳定短语构建你的标注,添加必要的形容词,但必须严格遵循模板,就像你的生命或LORA的成败取决于它一样。

如果概念复杂,你需要多段提示才能让基础模型理解,那就必须进一步精简。我建议超过40词就算太长了。提示词越长,触发概念的效率越低;提示词越短,越容易在较长、更详细的提示中保留正确的语义。

举个例子,如果你的标注长达300词,而输入提示少于300词,可能根本无法生成对应概念——因此,标注长度与LORA的性能表现高度相关。

更多训练笔记请参见我的训练指南


免责声明

请负责任地使用。

此模型生成的图像

未找到图像。