FKEY 画风模仿 STYLE DREAMBOOTH

详情

模型描述

【本模型训练过程未征得素材来源作者授权,如不恰当将立即下架。】

【请勿将本模型及生成的图片用于任何商业用途!】

【请勿利用本模型生成及传播不恰当的图片!!】

训练方法:

  • 该Dreambooth采用了github上的kohya训练包。

  • 训练设备为RTX A6000。

  • 训练素材为70张FKEY老师的作品。并将其中脸部和上半身较为清晰的图片进行了二次裁剪,构成了总共134张图片的训练集。

  • 图片全部裁剪为10241024。其中,全身和半身图为裁剪成7681024或1024*768后,添加黑色背景填补剩余空缺部分。

  • 脸部图片(44张)repeat次数为25;上半身图片(56张)repeat次数为10;全身图片(34张)repeat次数为6。

  • 打标采用了Danbroou(0.7)+swinv2_tagger_v3(0.35)。自动打标后仅删去了与boy相关标签,其他标签未进行进一步处理。

  • 随后添加了触发词 fkey70。似乎是SDXL版本DB训练如果没有触发词,训练结果难以收敛。

  • 开启了shuffle caption。但将fkey70固定。

  • 全局学习率设置为1e-6。采用了constant的学习率调整策略。AdamW8bit优化器。

  • 没有开启噪声偏移。关闭了enable bucket选项。

  • REG图片为从相关网站获取。共使用320张,略大于素材集的2倍数量。

  • 保存方法为按照step保存。每隔2500步保存一次。

  • 计划最大步数为150000步。50000-100000步时画风还原程度较高且繁华性较好。100000-120000步左右过拟合对画面产生影响。120000-150000步区间内出的图已经完全无法使用了。

  • 经过测试后,发布时所采用的70000步和75000步为原有特征表现和泛化性表现较为均衡的版本。

  • clip skip在训练时为1。但跑图时采用了2。

  • 采用了混合精度训练。

跑图:

  • 非常建议采用Adetailer。

  • 原始图片采用Euler A,step 28左右。当step过高,容易导致肢体错乱。CFG 5-7之间。

  • 而Adetailer时,部分参数与原始图片不同。

  • DPM++ 3M SDE Karras,step 40左右。

  • 脸部高清化需要较高的迭代次数。CFG也需要开到8左右。

  • 因为原始素材中猫耳元素较多。如果生成的角色不用猫耳时,最好在负面提示词中添加animal ears和cat ears

发布的两个版本间仅有细微的特征表现差别。请根据自己的偏好进行下载。

此模型生成的图像

未找到图像。