Head POV - Point of view from the back of the head - Camera over the shoulders - Animal Perspective

详情

模型描述

一个简单的概念,我用SDXL无法正确实现。

推荐权重为0.85 / 有效范围从0.6到1.3

它对人类甚至物体都有很好的泛化能力。试试看吧。

触发关键词:

a photo shot in the point of view from the back of a SUBJECT's head

辅助提示:

on the lower side, cropped, looking at___, ears, bokeh, dof, blur

负面辅助提示:

mouth, nose, eyes, facing the camera, bokeh, dof, blur

数据集并不大,仅包含动物和一两辆自行车。因此,某些动物如蛇、鸵鸟、猪、乌龟等很难被正确转换。

我选择了第18个epoch,但对某些主体而言,训练更多的epoch效果更好,能更准确地转换它们,但也会引入更多错误。因此,我认为第18个epoch是最佳选择。如果有人需要,我可能会上传训练更多的epoch。

举个例子,使用这个epoch时,皮卡丘的红脸颊总是看起来不对。而第24和第40个epoch则能完美呈现它。鼠标耳朵在第18个epoch中看起来方向错误,但在第40个epoch中则正确。

这是一个“第一人称视角”、“过肩拍摄”,但我训练时并未使用这些确切词语,而是用了“point of view”。因此我不确定这些词是否有效。

它们可能会占据整个画面,如果你只想让它们出现在画面下方,建议使用Regional Prompter,效果非常好。另外,如果你想与其他角色LoRA配合使用,也必须使用Regional Prompter,否则会出现形态扭曲。

我希望未来能扩大数据集并标注位置(右侧、左侧、下方、上方)。但目前没有,因此无法实现。

其他参数与设置:

基础检查点为“sdXL_v10VAEFix”,6.7GB,因此它应能与任何检查点灵活配合。

目前,我推荐使用juggernautXL_v8RundiffusionjuggerxlInpaint_juggerInpaintV8 进行修复。

灯光模型效果极佳!我推荐Dreamshaper SDXL

我偏好使用6步DPM++ 2S a Karras,CFG 2.2,高分辨率5步,去噪0.45,放大1.5倍。但默认设置为DPM++ SDE Karras,CFG 2,4步。

新的Juggernaut灯光模型可能也非常出色。

标准生成参数:

CFG:5.5

DPM++ 3M Exponential(50步或以上)

DPM++ 2M Karras(25步或以上)

DPM++ SDE Karras

DPM++ 2S a Karras

Loractl 非常适合需要更复杂提示、主体或其他LoRA的场景,建议从高值开始,再逐步降低,例如:

<LoraName:[email protected],[email protected]>

想玩点有趣的?安装通配符动态提示扩展 https://github.com/adieyal/sd-dynamic-prompts,并将我的 common_animals.txt 文件放入 \extensions\sd-dynamic-prompts\wildcards 文件夹。以下是我为测试制作的一个提示,粘贴到提示框中:

a photo shot in the point of view from the back of a __common_animals__'s head close-up, on __YetAnotherWildcardCollection-main/Background/Environment__<lora:HeadPOV_from_behind_vk1-000018:0.85>

当前LoRA存在的问题:

  • 可能无法正确转换大量动物,需要更多数据
  • 有时会出现双角、奇怪的耳朵和眼睛,耳朵朝向相机

更多设置信息:训练分辨率为1024,使用CogVL和taggui-v1.15.0-windows为61张图像标注。共44个epoch,当前使用第18个epoch,采用prodigy 1.0优化器,将“Pose”作为概念,分两步训练。固定BATCH为2,rank为16/1,Scale weight norms为1,snr gamma为5,Noise offset为0.0357,无正则化图像。

希望你能分享一些结果和评论,任何建议都十分宝贵。谢谢!

此模型生成的图像

未找到图像。