anal x-ray (NetaYume Lumina 3.5)

详情

模型描述

我一直在试验这个模型,但现在暂时停下来,去专注其他事情。

我使用 Grok 4.1 推理模型为图片打标签,快速检查并微调后,就开始了训练。

我挑选了一些图片来训练“anal x-ray”这个概念。结果发现,图片翻转功能严重干扰了训练效果——导致肢体断裂,提示词描述与图片不匹配。一旦关闭这个功能,模型就开始正常工作,并且收敛速度大幅提升。

这让我开始怀疑,图像增强是否还有必要继续使用。我认为,拥有更好、更结构化的数据和准确的标注,要重要得多。

由于我较晚才修复了这个 bug,所以我多运行了几步训练来弥补。

我最初设置为 5,000 步,线性学习率(LR)为 2e-4,批量大小(Batch Size)为 4。后来,我将学习率改为余弦衰减(从 2e-4 降至 4e-5),并将批量大小翻倍至 8。在观察了生成的样本后,我在 12,000 步时停止了训练。

整个训练过程是在 vast.ai 上运行的,使用了 ai-toolkit 和 RTX Pro 6000 Blackwell 显卡(主要是为了尝试更大的批量大小)。

你也可以尝试一些相关概念,比如……?

建议降低权重以避免过拟合;权重应保持在 0.8 到 0.9 之间,不要超过 1。

此模型生成的图像

未找到图像。