Yiffydream image captioner
详情
下载文件
模型描述
这是一个基于moondream的极富实验性的图像字幕模型,专为兽迷图像(包括NSFW内容)设计,也能处理人类及类似图像。请注意:这不是一个文生图模型,它接受现有图像并为其生成文字描述。该模型不可靠,常会虚构图像中并不存在的NSFW细节。此外,若升级或使用旧版本,请务必阅读下方的警告信息。
在发布时,我尚未发现任何公开可用的兽迷内容字幕模型,因此我以当前状态发布了它,尽管它很可能需要大量的微调和对生成描述的手动编辑。此后,JoyCaption的测试版已发布,根据你的需求,它可能提供更好的结果。但我仍会不定期发布本模型的新版本,只要我找到了改进方案。请注意,虽然新版本整体上应更好,但不幸的是在某些情况下仍会出现退化。
要使用此模型,你需要安装moondream,并将本模型解压到其目录中。(我建议在执行此操作前先设置一个venv或conda环境,因为它会安装非常特定版本的Pytorch和transformers,可能无法与最新版本兼容):
git clone https://github.com/vikhyat/moondream
cd moondream
git checkout 281074b9e488d142fba86760c7b606a1866acf3f
pip install -r requirements.txt
unzip yiffydreamImage_20250511.zip
现在你可以将内置的批量字幕脚本指向一个图像目录,它将为所有尚未有字幕文件的图像生成 .caption 文件:
python3 batchcaption.py myimagedirectory/
重要警告:在20240826之前的字幕脚本中存在一个愚蠢的bug:它完全忽略提示词,不使用任何提示。(在_prompt___with_tags函数定义末尾缺少了“return prompt”。哎呀。)当你仅想用这些版本批量生成字幕且不做复杂操作时,这并不会造成太大影响(事实上我所有的测试都是这样进行的),这也是为何我长时间未发现它。不过,旧脚本可能无法与新版本正常配合,我建议一般情况下直接使用修复后的新版本。对此深表歉意。
在20241231版本中,你还可以非常实验性地启用--usetags选项,尝试使用人工编写的标签来引导字幕生成。该功能将为每张图像查找匹配的 .tags 文件,文件中应包含逗号分隔的标签(例如,123.jpg 应有一个 123.tags 文件,内容可能为 1girl, bikini, blonde hair 等)。若某些图像缺少标签,则仍按常规方式生成字幕。若启用此功能,请务必使用最新版的 batchcaption.py。
生成的字幕质量可能差异极大,尤其是涉及多个角色互动时效果尤其不佳。你也可以使用--outfile参数将结果输出为jsonl文件,这对你可能更有用。我还提供了一个快速微调脚本。




