NewBie image
详情
下载文件
关于此版本
模型描述
NewBie 图像 Exp0.1

🧱 Exp0.1 基础模型
NewBie 图像 Exp0.1 是一个基于 Lumina 架构研究开发的 3.5B 参数 DiT 模型。
基于这些洞察,它以 Next-DiT 为基础,设计了一种专为文本到图像生成优化的新 NewBie 架构。
NewBie 图像 Exp0.1 模型在这一全新构建的系统中进行训练,代表了 NewBie 文本到图像生成框架的首次实验性发布。
文本编码器
- 我们使用 Gemma3-4B-it 作为主要文本编码器,以其倒数第二层的标记隐藏状态作为条件输入。同时,我们从 Jina CLIP v2 提取池化文本特征,进行投影并融合至时间/AdaLN 条件路径中。Gemma3-4B-it 与 Jina CLIP v2 共同提供了强大的提示理解能力与更好的指令遵循性。
VAE
- 使用 FLUX.1-dev 16 通道 VAE 将图像编码为潜在空间表示,提供更丰富、更平滑的色彩渲染和更精细的纹理细节,从而保障 NewBie 图像 Exp0.1 的卓越视觉质量。
提示词
XML 结构化提示词
自然语言提示词
标签提示词
🖼️ 任务类型
NewBie 图像 Exp0.1 在大量高质量动漫数据集上进行了预训练,使模型能够生成细节丰富、视觉震撼的动漫风格图像。
我们将数据集文本重新格式化为 XML 结构化格式 用于实验。实证表明,这种格式提升了注意力绑定和属性/元素解耦能力,并加速了模型收敛。
此外,它还支持自然语言和标签输入。
🧰 模型库
NewBie 图像 Exp0.1: Hugging Face | ModelScope
Gemma3-4B-it: Hugging Face | ModelScope
Jina CLIP v2: Hugging Face | ModelScope
FLUX.1-dev VAE: Hugging Face | ModelScope
💪 训练流程

🔬 参与者
核心成员
成员
✨ 致谢
感谢 Alpha-VLLM 组织 开源了先进的 Lumina 系列,为我们的研究提供了宝贵支持。
感谢 Jina AI 组织 开源 Jina 系列,助力进一步研究。
感谢 Black Forest Labs 开源 FLUX VAE 系列。强大的 16 通道 VAE 是提升图像质量的关键组件之一。
感谢 Neta.art 对 Lumina-image-2.0 基础模型进行微调并开源。Neta-Lumina 为我们研究 Next-DiT 在动漫类型上的表现提供了契机。
感谢 DeepGHS/narugo1992/SumomoLee 提供高质量动漫数据集。
感谢 Nyanko 的早期帮助与支持。
📖 贡献者
Neko, 衡鲍, XiaoLxl, xChenNing, Hapless, Lius
WindySea, 秋麒麟热茶, 古柯, Rnglg2, Ly, GHOSTLXH
Sarara, Seina, KKT机器人, NoirAlmondL, 天满, 暂时
Wenaka喵, ZhiHu, BounDless, DetaDT, 紫影のソナーニル
花火流光, R3DeK, 圣人A, 王王玉, 乾坤君Sennke, 砚青
Heathcliff01, 无音, MonitaChan, WhyPing, TangRenLan
HomemDesgraca, EPIC, ARKBIRD, Talan, 448, Hugs288
🧭 社区指南
入门指南
LoRA 训练器
💬 社区交流
📜 许可证
模型权重:Newbie 非商业社区许可证(Newbie-NC-1.0)。
适用范围:模型权重/参数/配置及衍生品(微调、LoRA、合并、量化版本等)。
仅限非商业用途,且必须在相同许可证下共享。
代码:Apache 许可证 2.0。
适用范围:本项目中的训练/推理脚本及相关源代码。
详见 Apache-2.0
⚠️ 免责声明
该模型可能产生意外或有害的输出。用户须自行承担使用该模型所引发的所有风险与潜在后果。












