Hikarimagine XL
详情
下载文件
关于此版本
模型描述
这是一个基于 Animagine XL 4.0 的实验性模型。
原始模型由 Cagliostro 研究实验室 开发。
许可证:Open rail ++
在阅读了这篇文章后 https://www.reddit.com/r/StableDiffusion/comments/1o1u2zm/text_encoders_in_noobai_are_dramatically_flawed_a/,我想尝试一下。也许在训练前先训练文本编码器,并在训练过程中保持其冻结,会是更好的做法。我将 Clip L 合并到 Animagine XL 4.0 中,并进一步训练了它,使用 70 万张图像进行 3 个周期,以修复图像缺陷,并将知识更新至约 2025 年 5 月。不过这可能仍不足够,我可能会再进行一次训练,将其更新到 2025 年 9 月。
此外,我还搭建了一个简易平台,可免费生成图像:https://miyukiai.com/
但由于 GPU 数量有限,可能会有较长的等待时间。
如果你喜欢我的作品,捐赠可以支持我的模型开发并维持平台免费:https://ko-fi.com/suzushi2024
以下仅是我对 AI 模型的一般性想法及当前未来计划的简要说明。
最初计划是开发一个优质的 SD3.5 中型动漫基础模型。但数月前,已有许多项目围绕此展开。如果我们拥有多个基础模型和 LoRA,便有可能构建一个非常完善的 SD3.5M 生态系统。然而,许多此类项目似乎在训练过程中被取消或失败了。此外,由于新变化,所有 SD3/3.5 系列模型又被从 CivitAI 上移除。尽管如此,我仍会持续在 Hugging Face 上更新本系列,供有兴趣者参考:https://huggingface.co/collections/suzushi/miso-diffusion-m。
我也期待训练一个更小的 DiT 基础模型。到目前为止,Lumina 看起来颇具潜力。大多数 DiT 模型体积较大,在 RTX 4080 等设备上等待至少 90 秒生成一张图像不仅耗时过长,而且大多数人也没有这类硬件。因此,我的目标是选择一个小型且稳健的模型。我已开始准备微调文本编码器,但仍需做更多准备工作。此前曾对 Sana 进行过另一项实验性训练;虽然它能实现更快的生成,但参数量小意味着更易生成有缺陷的图像,并产生身体恐怖效果(尤其是手部),且难以捕捉精细细节,因此我认为它不适合做下一个模型。





