BohoTI

详情

下载文件

模型描述

这是一个实验,旨在尝试制作一个 TI 嵌入模型,以捕捉 konyconi 的 BohoAI LORA 的风格。

/model/51966/bohoai

感谢 @konyconi 分享其数据集,才有了出色的 BohoAI LORA。

/model/52697/tutorial-konyconi-style-lora

展示所使用的两个模型:

revAnimated_v122.safetensors [4199bcdd14],clip skip = 2

avalonTruvision_v2.safetensors [a4df55d292],clip skip = 1

这个 TI 可以生成一些还不错的波西米亚风格图像,但有时会混淆……例如要求画一艘宇宙飞船,却生成了一辆卡车。也许对于这类 TI,需要在训练数据集中使用更多图片,并包含更多的主题变化?

---------------------------

更新 2023 年 5 月 9 日

继续训练至第 4000 步,然后是 5000 步。

kcboho07-4000 生成的波西米亚风格更强。

kcboho07-5000 更强,但出现了重复/重复现象,例如手指、手更多,天空中漂浮着重复的城市。

尝试了 6000 步,结果更差——过度训练。

我已上传 4000 步版本,可能是本次实验的最佳结果。

也上传了 5000 步版本,因为用小心引导对象提示词仍能产生不错效果。

---------------------------

我一直为如何制作一个风格 TI 感到困扰……

什么样的训练数据集才算好?

在 automatic1111 中应使用什么训练设置?

TI 应该训练多久?

对于我的训练数据集,我将 konyconi 的 76 张 1024x1024 图片复制到新文件夹中,去掉对应的 TXT 文件,并全部缩小为 512x512。然后我将它们重命名为 “01 aeroplane.png”、“02 city.png”、“03 tank.png” 等等。

为什么?因为我试图模仿过去能生成可用 TI 的做法。这里所说的缩小后的图片数据集文件夹,就是下面设置所使用的。

automatic1111 文本反转(Textual Inversion)的维基页面如下:

https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Textual-Inversion

但非常过时。最后更新于 1 月 5 日,而我正在 5 月 8 日撰写此文。

我部分参考了这一讨论帖,内容详尽,值得一读!

https://github.com/AUTOMATIC1111/stable-diffusion-webui/discussions/1528

训练模型:v1-5-pruned.ckpt [e1441589a6]

我选择它是因为我不知道更好的,而且过去用过效果不错。我是否应该用其他模型进行训练?还是应该使用基础的 SD15?我不确定。

创建嵌入:

名称:kcboho07

初始化文本:boho style photo

每标记的向量数:4

训练嵌入:

嵌入名称:kcboho07

嵌入学习率:0.001:250, 0.0005:500, 0.00075:1000, 0.001

梯度裁剪:禁用

批量大小:1

数据集目录:你电脑上存放的位置

日志目录:textual_inversion

提示模板:minimum_style_2.txt

该模板有三行:

<<<

[name] style, [filewords]

[name] style, a photo of [filewords]

[name] style, an illustration of [filewords]

宽 = 高 = 512

不调整图像大小:关闭

最大步数:3000

保存图像的步数:25

保存嵌入的步数:25

使用 PNG 透明通道:关闭

在 PNG 块中保存嵌入图像:开启

从 txt2img 选项卡读取参数:关闭

打乱标签:关闭

丢弃标签:0

潜在采样方法:确定性

训练时间:在 2060/6GB 显卡上,每 1000 步约需 50 分钟。

3000 步的 TI 确实能生成波西米亚风格,但我认为与 BohoAI LORA 相比,效果仍不稳定。

如果有人对我的做法有不同建议,请留下评论。或如果我做了什么明显愚蠢的事情! :-)

此模型生成的图像

未找到图像。