Proteus
详情
下载文件
关于此版本
模型描述
Proteus v0.6
我很高兴推出 Proteus v0.6,这是我的 AI 图像生成模型的全新重构版本。这是重构后的首个版本,完全专注于提升写实效果。虽然它并不旨在成为最先进的模型,但我相信它在生成高质量图像方面迈出了坚实的一步。请注意,这是一个初步版本,并非最终的完整功能检查点——未来更新将带来更多改进和功能。
概述
Proteus v0.6 是从零开始的全面重构。在之前的版本中,混合不同的训练方法和学习率导致模型在大规模训练时变得不稳定。吸取这些经验后,我仅使用 Proteus 数据集中与写实性相关的部分重新训练了模型。
目前,我将这种新的训练技术称为 多视角融合。
多视角融合
该方法包括:
训练多个 LoRA 和全参数检查点:我在同一数据集上多次训练了多个低秩适配(LoRA)模块和全参数检查点,以捕捉数据的不同“视角”。
整合到统一框架中:这些多样化的模型随后被整合到一个更大的框架中,以提升整体性能。
我希望这种方法能引起探索先进训练技术的数据科学家的兴趣。
v0.6 的关键改进
全面重构:从零开始构建,以解决之前的问题。
增强写实性:专注于生成高质量的写实图像。
稳定的训练过程:优化训练方法,防止模型在大规模训练中崩溃。
初步版本:这是重构后的首个版本;未来发布将带来更多功能和改进。
局限性
无法生成插画或动漫风格图像:目前模型无法生成插画或动漫风格图像,因为它仅在写实数据上进行过训练。
并非最先进:虽然模型表现良好,但我并不声称它是最先进的——它只是一个良好的起点。
开发中:这不是最终的完整功能检查点,未来计划推出更多更新。
使用方法
推荐设置
Clip Skip:1
CFG Scale:7
Steps:25 - 50
Sampler:DPM++ 2M SDE
Scheduler:Karras
分辨率:1024x1024
v0.6 之前的版本
Proteus 背景
Proteus 是对 OpenDalleV1.1 的高级增强,利用其核心功能以实现更优异的效果。关键改进包括对提示词更强的响应能力以及更高的创造力。为实现这一目标,它使用约 22 万张无版权的图库图像(部分包含动漫)的 GPTV 标注数据进行微调,并进行了标准化处理。此外,通过一组精心挑选的 1 万对高质量 AI 生成图像对,采用了 DPO(直接偏好优化)技术。为追求最佳性能,多个 LORA(低秩适配)模型被独立训练,随后通过动态应用方法有选择性地整合进主模型。这些技术在学习过程中针对模型的特定部分,同时避免干扰其他区域。因此,Proteus 在呈现复杂的面部特征和逼真的皮肤纹理方面表现出显著提升,同时在多种美学领域,尤其是超现实主义、动漫和卡通风格可视化方面保持了出色的性能。




