Vodka by FollowFox.AI
详情
下载文件
关于此版本
模型描述
V3现已上线!
一如既往,您可以在我们的Substack上查看所有详细信息、使用的全部数据、参数以及代码片段 https://followfoxai.substack.com/p/impact-of-tags-on-sd-general-model
请查看下方即将推出的路线图——前方精彩不断!
关于V3
注:这可能是您构建LoRA模型的绝佳起点——该模型极为中性,能响应各种风格的提示词,并可适用于多种图像类型
我们已在图像中添加了一部分Booru标签,现在模型可以响应这些标签了!
您应该尝试的标签包括:
Solo—— 在生成图像中仅放置一个角色,效果相当稳定looking at viewer—— 虽有较强的女性倾向,但在使角色居中并面向镜头方面表现良好outdoors—— 能稳定生成户外环境或将角色置于户外场景中blurry—— 空生成时通常会产生模糊图像。作为负面提示词测试时,有一定改进效果Blurry background—— 能很好地模拟MidJourney的虚化风格(bokeh)。以下为作为正向提示词使用的示例Jewelry—— 生成珠宝图像,或将珠宝添加至生成内容中indoors—— 功能与outdoors相似
图像生成建议
该模型功能多样,几乎可适用于任意风格的提示词。无论是MidJourney风格,还是Civitai或Lexica中的各种提示,绝大多数情况下都能产出有趣结果。
此外,您现在可以尝试我们上述讨论的各类标签。
最后,我们强烈建议使用某种超分辨率方法。以下是我们的两个最爱方案:
Hires. Fix
启用Hires. Fix,去噪强度设为0.3–0.5,放大1.5–2倍,使用Latent(nearest exact)或4x-Ultrasharp超分器。其余参数可根据实验灵活调整。
ControlNet + Ultimate SD 超分
请参考我们此前帖子中的ControlNet瓦片超分方法 (链接)。
即将推出的路线图
伏特加系列:
伏特加V3(已完成)— 在标题中加入标签,以观察标签的影响
伏特加V4(进行中)— 通过解耦UNET与文本编码器的训练参数,解决“煎炸”问题
伏特加V5(数据准备阶段)— 使用全新优化的数据集及所有前期经验进行训练
伏特加V6(待定)— 对整个数据集重新标注,以评估使用AI生成标题与原始用户提示的差异影响
伏特加V7+,目前暂作为创意“停车场”:包括数据集分块与参数调整、微调VAE、基于模型弱点补充特定数据等众多设想
鸡尾酒系列:
这些模型将以伏特加(或未来其他基础模型)为基础进行融合组合。
红酒伏特加V1(已完成,尚未发布)— 我们的首个融合模型基于伏特加V2。敬请期待:伏特加V2已从需要精心操作才能生成优质图像,演进为多数生成结果均达到极高水平。模型灵活且极具潜力。
红酒伏特加V2+(计划中):目前尚无具体计划,仅基于V1的经验与伏特加基础模型的改进展开构想。
其他鸡尾酒(待定)— 我们已有其他鸡尾酒的构想与规划,但现阶段暂不对外分享。
LoRA、文本反转及其他扩展功能:
我们已启动对扩展类发布形式的探索,以提升伏特加与鸡尾酒系列模型的能力,敬请关注!
请注意:无论探索结果是否成功,我们都会分享相关文章。部分尝试可能失败,但更重要的是,我们将在过程中不断学习。
完整用户经验与解决方案:
这仅是我们即将发布内容的一小部分预示。我们正在将积累的经验与愿景转化为完整的产品发布。敬请期待,我们将陆续分享更多关于最激动人心项目的进展!
旧版本及伏特加发展历程
概览
简要总结:我们正式发布 Vodka_V2,由 FollowFox.AI 制作,是在更新后的数据集上微调的一般用途模型——现数据源来自Midjourney V5.1。一如既往,本文将详细分享我们如何达成这一成果。您从该模型中可期待以下几点:
我们采用的是客观上更优的数据集——规模扩大了2.5倍,且清理更彻底。
所得模型与V1非常相似,但略有提升。是一次进化,但非突破性飞跃。
当前状态下,通过一定投入,可生成一些酷炫图像。
模型仍远未达到轻松、一致地生成如MidJourney或顶尖SD模型水准的效果。
您可在 followfox.ai(链接 至文章) 阅读关于模型训练过程的全部详情,因为我们拥抱这一社区的开源精神。您可以复现整个流程,精确了解我们从何处走到今天,并对流程中的具体环节提出反馈与建议。
适用于Vodka V2的参数与有效工作流
还有大量内容可供测试,但我们先分享几点观察:
与V1相比,您可尝试更宽范围的CFG值;3到7.5之间的任意数值均可生成良好输出
仅使用Booru标签的提示词效果不佳,因我们未对数据集进行标签标注
以人类语言句式描述人物,再辅以形容词和“魔法词汇”,效果非常理想
几乎所有采样器都能产生有趣的结果
SD超分工作流(如下所述)配合瓦片ControlNet,显著提升该模型的图像质量
推荐使用EasyNegative TI (链接);在负面提示中加入“blurry”也有帮助
在Automatic1111中尝试的超分工作流
在txt2img标签页中生成您喜欢的初始图像后(我们建议针对每个提示词尝试不同采样器与CFG值的组合,以筛选出潜力候选),将其发送至img2img。
使用与原始生成相同的提示词和采样器
将采样步数设为较高值;我们大多数图片使用了150步
将宽度和高度设为原始尺寸的2倍;因此512x512应设为1024x1024
将去噪强度设为较低值;我们使用了0.2至0.25
对于CFG值,我们采用(原值 - 0.5)的公式。例如原图生成时CFG为7.0,则设为6.5
ControlNet设置:启用ControlNet;预处理器选择“tile_resample”,模型选择‘control_v11f1e_sd15_tile’。也可切换至“ControlNet更重要”选项。无需调整其他设置
确保安装了“Ultimate SD upscale”插件。从脚本下拉菜单中选择它,选取4x-UltraSharp超分器,并将瓦片宽度和高度设为640x640
点击生成,稍等片刻,您将获得令人满意的输出。可重复该过程以进一步提升分辨率
结论与下一步
我们认为模型开发正朝着正确方向前进,我们将持续发布新版本。当然,我们也会完整记录并公开整个旅程的每一步。
针对V3的发布,我们已对部分生成结果中模糊与细节缺失的问题提出了初步假设,并将着手解决。




















