The Essence of Star Trek DS9

详情

模型描述

此LoRA旨在捕捉《深空九号》的整体“感觉”,并为其生成结果增添一些核心主题。它并非旨在完美复刻任何单一角色,尽管训练数据中包含了部分主要角色的名字

我使用了约1000张经过精心挑选的图片进行训练,包括自动和人工标注的《星际迷航:深空九号》剧照、杂志图片、剧集截图、杂志扫描图、官方艺术图、剧集屏幕截图、档案影像等。

源图像的标注均以“star trek ds9”作为前缀,因此在您的提示词中加入该关键词通常会有助于生成效果。

该模型使用SDXL训练,并与SDXL Lightning配合良好。

在我的测试中,它与Lightning Fusion XL v1.4作为基础模型时表现尤为出色,但参数设置略显敏感——调整时请务必进行极微小的改动。

推荐推理参数

我使用InvokeAI进行所有图像生成。

  • 分辨率:1024x1024

  • 基础模型:Lightning Fusion XL

    • 采样器:LMS Karras

    • 步数:6-8

    • 基础模型CFG强度:1.5-1.8~

    • LoRA CFG强度:0.6-0.8~

训练数据

  • 我在互联网上广泛搜集,最终获得约2000张图像,经过筛选缩减至约1500张,再进一步精炼至v1.0版本约700张。

  • 许多源图像我使用Topaz Photo AI、Pixelmator Pro及几个自制脚本的组合进行了超分辨率放大和去噪处理。

  • 标注处理:

    • 首先,我使用WD14 AI分类方法,通过Kohya_SS为每张源图像自动生成标注。

    • 随后,我耗费大量时间手动为绝大多数图像补充详细标注,包括角色姓名、场景地点等。

    • 训练时,模型使用标注文本,保留前6个标记,其余部分随机打乱。


局限性

总体而言,我对v1.0版本相当满意,但仍存在一些不足之处:

  • 参数非常敏感(例如,在某些情况下,将LoRA CFG从0.75调整为0.70就可能产生显著差异)。

  • 似乎无法同时生成两个已知角色,例如提示“star trek ds9, Miles and Bashir drinking coffee”时,模型很可能生成两个Miles或两个Bashir。我尚未研究如何解决此问题,但若训练下一版本,我非常希望改进这一点。

  • 有时生成角色眼睛出现 glitch,我推测可能需要更多不同角度的高分辨率特写图,也可能模型某部分过训练了。

  • 尽管本模型并非旨在直接复刻单个角色,但我仍加入了一些我个人偏爱的角色——它们并不完美,也无意追求完美,但也不算糟糕。使用Lightning作为基础模型时,存在以下问题:

    • Bashir的额头常显得异常宽大。

    • Dax的眼睛常过于“梦幻”,类似TOS风格。

    • Miles的眼睛常出现 glitch。

    • Quark看起来过于邪恶且轮廓过于锐利。

    • 我训练时提供的Worf图像不足,因此当提示中出现Worf时,模型倾向于生成更通用的克林贡人形象。

此模型生成的图像

未找到图像。