Illustrious-Lumina-v0.03
详情
下载文件
模型描述
访问我们的网站,了解我们最近的成果,并探索我们的最新模型!
→ https://www.illustrious-xl.ai/
Illustrious-Lumina-v0.03
本模型基于 Alpha-VLLM/Lumina-Image-2.0,这是一个小巧的 DiT 模型,功能精简但稳定!有关官方仓库,请参阅 https://github.com/Alpha-VLLM/Lumina-Image-2.0。论文
在深入探讨 'Illustrious-Lumina-v0.03' 的细节之前,我们很高兴地宣布,您现在可以直接在我们的官方网站 illustrious-xl.ai 上使用 Illustrious XL 模型生成图像。
我们已推出一个完整的图像生成平台,支持高分辨率输出、自然语言提示、自定义预设,以及多个其他平台无法找到的独家模型。
请查阅我们更新的模型系列与命名:Model Series。
需要帮助入门?请参考我们的生成用户指南:ILXL Image Generation User Guide。
1. 模型概述
架构:2B 参数 DiT。
文本编码器:纯 LLM,Gemma-2-2b
本分支的目标:我们测试图像主干是否能够在不重新训练 LLM 组件的情况下学习插画概念。
Illustrious-Lumina-v0.03 是基于 Lumina-2.0 的一次实验性训练阶段,旨在验证仅通过 LLM 是否能够训练出一个专注于插画的小型 DiT 模型。原始模型在插画能力方面表现不佳,且缺乏相关知识,因此本次训练聚焦于补充这些缺失的知识。
经过 26,500 步训练后,模型 Illustrious-Lumina-v0.03 已展现出对数据集的快速适应能力。
然而请注意,原始模型本身并不擅长插画,而我们的训练目标仅限于插画领域,因此达到理想效果仍需一定时间。
示例已发布于 博客文章。
要测试该模型,请参阅 huggingface space。
如需本地运行模型,请使用 pth 文件 并参考 官方安装指南。safetensors 文件仅用于存储权重——我们将在尽快提供与 ComfyUI 兼容的格式。
2. 训练设置
| 项目 | 值 |
|---|---|
| 总计观察图像 | 22M 图像-文本对 |
| 步数 | 26,500 |
| 全局批次大小 | 768 |
| 分辨率 | 1024, 256 |
| 检查点 | Illustrious_Lumina_2b_22100_ema_unified_fp32.safetensors |
该模型共学习了 2200 万组图像-文本对。为加速训练,采用了多分辨率训练策略。
3. 推理示例代码
如需本地运行模型,请使用 pth 文件 并参考 官方安装指南。
可用于复现标题图像的设置如下:
4. 免责声明
本模型不代表任何最终产品,仅用于研究与分析目的。该模型尚未达到生产就绪级别,使用风险自担。
目前模型处于概念验证(Proof of Concept)阶段,仅使用了完整训练所需计算量的约 3%,在 A6000 GPU 上以低分辨率联合训练方式仅使用了 2200 万样本。
如需支持训练加速,请考虑访问我们的 支持页面!






