Head POV - Point of view from the back of the head - Camera over the shoulders - Animal Perspective
详情
下载文件
关于此版本
模型描述
一个简单的概念,我用SDXL无法正确实现。
推荐权重为0.85 / 有效范围从0.6到1.3
它对人类甚至物体都有很好的泛化能力。试试看吧。
触发关键词:
a photo shot in the point of view from the back of a SUBJECT's head
辅助提示:
on the lower side, cropped, looking at___, ears, bokeh, dof, blur
负面辅助提示:
mouth, nose, eyes, facing the camera, bokeh, dof, blur
数据集并不大,仅包含动物和一两辆自行车。因此,某些动物如蛇、鸵鸟、猪、乌龟等很难被正确转换。
我选择了第18个epoch,但对某些主体而言,训练更多的epoch效果更好,能更准确地转换它们,但也会引入更多错误。因此,我认为第18个epoch是最佳选择。如果有人需要,我可能会上传训练更多的epoch。
举个例子,使用这个epoch时,皮卡丘的红脸颊总是看起来不对。而第24和第40个epoch则能完美呈现它。鼠标耳朵在第18个epoch中看起来方向错误,但在第40个epoch中则正确。
这是一个“第一人称视角”、“过肩拍摄”,但我训练时并未使用这些确切词语,而是用了“point of view”。因此我不确定这些词是否有效。
它们可能会占据整个画面,如果你只想让它们出现在画面下方,建议使用Regional Prompter,效果非常好。另外,如果你想与其他角色LoRA配合使用,也必须使用Regional Prompter,否则会出现形态扭曲。
我希望未来能扩大数据集并标注位置(右侧、左侧、下方、上方)。但目前没有,因此无法实现。
其他参数与设置:
基础检查点为“sdXL_v10VAEFix”,6.7GB,因此它应能与任何检查点灵活配合。
目前,我推荐使用juggernautXL_v8Rundiffusion 和 juggerxlInpaint_juggerInpaintV8 进行修复。
灯光模型效果极佳!我推荐Dreamshaper SDXL
我偏好使用6步DPM++ 2S a Karras,CFG 2.2,高分辨率5步,去噪0.45,放大1.5倍。但默认设置为DPM++ SDE Karras,CFG 2,4步。
新的Juggernaut灯光模型可能也非常出色。
标准生成参数:
CFG:5.5
DPM++ 3M Exponential(50步或以上)
DPM++ 2M Karras(25步或以上)
DPM++ SDE Karras
DPM++ 2S a Karras
Loractl 非常适合需要更复杂提示、主体或其他LoRA的场景,建议从高值开始,再逐步降低,例如:
<LoraName:[email protected],[email protected]>
想玩点有趣的?安装通配符动态提示扩展 https://github.com/adieyal/sd-dynamic-prompts,并将我的 common_animals.txt 文件放入 \extensions\sd-dynamic-prompts\wildcards 文件夹。以下是我为测试制作的一个提示,粘贴到提示框中:
a photo shot in the point of view from the back of a __common_animals__'s head close-up, on __YetAnotherWildcardCollection-main/Background/Environment__<lora:HeadPOV_from_behind_vk1-000018:0.85>
当前LoRA存在的问题:
- 可能无法正确转换大量动物,需要更多数据
- 有时会出现双角、奇怪的耳朵和眼睛,耳朵朝向相机
更多设置信息:训练分辨率为1024,使用CogVL和taggui-v1.15.0-windows为61张图像标注。共44个epoch,当前使用第18个epoch,采用prodigy 1.0优化器,将“Pose”作为概念,分两步训练。固定BATCH为2,rank为16/1,Scale weight norms为1,snr gamma为5,Noise offset为0.0357,无正则化图像。
希望你能分享一些结果和评论,任何建议都十分宝贵。谢谢!




















