SciStyle

详情

下载文件

模型描述

SciStyle

SciStyle v1 是我正在开发的新图像描述管道的测试模型。该模型在约1000张不同风格/媒介的图像子集上进行了训练。由于仅用1000张图像训练的模型结果令人惊讶,我决定在此发布。完整版模型目前正在开发中。

有关图像描述管道的更多信息,请参阅下面链接的我的 Discord 帖子


问题/反馈/更新?

访问我的 Unstable Diffusion Discord 帖子


信息

S&D

基础模型:Stable Diffusion v1.5

类型:实验性微调

Clip:1

媒介:多媒介

描述风格:自然语言 + Booru 风格

数据集大小:子集,25,000 张图像中的 4,000 张 + DnD 数据集

训练分辨率:768x768

与 v1 的区别:更偏向奇幻风格,额外使用 DnD 数据集进行训练。


V1

基础模型:Stable Diffusion v1.5

类型:实验性微调

Clip:1

媒介:多媒介

描述风格:自然语言 + Booru 风格

数据集大小:子集,25,000 张图像中的 1,000 张

训练分辨率:768x768


V2

基础模型:Stable Diffusion v1.5

类型:实验性微调

Clip:1

媒介:多媒介

描述风格:自然语言 + Booru 风格

数据集大小:子集,25,000 张图像中的 6,500 张

训练分辨率:768x768

与 v1 的区别:增加了来自多个科幻与奇幻宇宙的更多物种。


功能

  1. 多媒介:能够生成多种艺术媒介的图像,只需在提示中包含媒介即可。

  2. 自然语言 & Booru:支持自然语言提示和 Booru 风格提示。

  3. 额外细节:理解 SD 模型常忽略的细微细节,例如场景中物体/主体的数量、背景信息、图像各部分的颜色信息、氛围等。(更多信息请参见上方 Discord 帖子中关于实现方式的说明

  4. 灵活兼容:可轻松与其他 SD1.5 检查点 / LoRAs 合并


使用方法

特殊标记

  • SciStyle:可用作提示开头的类别标记,但非必需。

  • 各种艺术媒介标签,例如:a comic book illustration of90s anime screencap of,或直接在提示末尾添加媒介:comic book illustrationphotorealistic以上仅为标签位置示例,可自由尝试其他媒介


推荐设置

采样器/求解器

  • Euler a

    • 步数:20 - 32

    • CFG:6 - 7.5

  • DPM++ SDE Karras

    • 步数:30 - 40

    • CFG:6 - 8.5

  • DPM++ 2M SDE Karras

    • 步数:50+

    • CFG:7 - 8

以上仅为推荐值。

高分辨率修复

所有 ESRGAN 模型的设置

  • 放大倍数

    • 如果分辨率 > 512x768,则使用 1.5

    • 不要超过 2.0(除非你的设备性能强劲)

  • 去噪强度

    • 0.25 - 0.35
  • 高分辨率步数

    • 如果采样步数 > 60,

      • 高分辨率步数 = 采样步数的一半
    • 否则,保持为 0


扩展插件

ADetailer
下载地址:https://github.com/Bing-su/adetailer

中性提示

下载地址:https://github.com/ljleb/sd-webui-neutral-prompt

请阅读仓库说明以获取使用指南

负面嵌入

仅当你想复现样例图像时才使用。我个人建议避免使用负面嵌入,而改用简单的负面提示,并根据新想法手动添加+或减去-标记。我仅在样本生成时使用它们以加速推理。不过,其他负面嵌入如 EasyNegative 等也适用于本模型。


查看我的其他模型

SDXL

SD1.5

LoRA

此模型生成的图像

未找到图像。