Yiffydream image captioner
세부 정보
파일 다운로드
모델 설명
이것은 페르리 이미지(NSFW 포함)를 위한 moondream을 기반으로 한 극도로 실험적인 이미지 캡셔닝 모델이며, 인간 및 유사한 대상도 처리할 수 있습니다. 참고: 이는 텍스트에서 이미지로 변환하는 모델이 아니라, 기존 이미지를 입력받아 텍스트 설명을 생성하는 모델입니다. 또한 신뢰할 수 없으며, 실제로 존재하지 않는 NSFW 세부 사항을 허구적으로 생성하는 경향이 있습니다. 또한, 업그레이드하거나 이전 버전을 사용할 경우 아래 경고를 꼭 읽어주세요.
릴리즈 당시 페르리 콘텐츠용으로 공개된 캡셔닝 모델은 아무것도 없었기 때문에, 이 모델을 현재 상태 그대로 출시했습니다. 이 모델은 생성된 설명에 대한 상당한 미세 조정과 수동 편집이 필요할 것으로 예상됩니다. 이후, JoyCaption 베타 버전이 출시되었으며, 이는 사용자의 요구에 따라 더 나은 결과를 제공할 가능성이 높습니다. 그러나 저는 여전히 개선 사항을 찾을 때마다 이 모델의 새로운 버전을 가끔씩 출시하고 있습니다. 최신 버전이 전반적으로 더 나은 성능을 보이지만, 일부 경우에서는 성능이 저하되는 현상도 나타납니다.
이 모델을 사용하려면 moondream을 설치하고 이 모델을 해당 디렉터리에 압축 해제해야 합니다. (이 과정에서는 매우 특정한 Pytorch 및 transformers 버전이 설치되므로 최신 버전과 호환되지 않을 수 있으므로, 이를 수행하기 전에 venv 또는 conda 환경을 설정하는 것을 권장합니다):
git clone https://github.com/vikhyat/moondream
cd moondream
git checkout 281074b9e488d142fba86760c7b606a1866acf3f
pip install -r requirements.txt
unzip yiffydreamImage_20250511.zip
이제 포함된 일괄 캡셔닝 스크립트를 이미지가 저장된 디렉터리에 가리키면, 이미 .caption 파일이 없는 이미지에 대해 캡션 파일을 생성합니다:
python3 batchcaption.py myimagedirectory/
중요 경고: 20240826 이전 버전의 캡셔닝 스크립트에는 심각한 버그가 있습니다. 이 버그로 인해 프롬프트를 완전히 무시하고 사용하지 않습니다. ("_prompt__with_tags" 함수 정의의 끝에 "return prompt"가 누락되었습니다. 어이없네요.) 단순히 일괄 캡션을 생성하고 별다른 설정을 하지 않는 경우에는 큰 차이가 없기 때문에(실제로 제 모든 테스트도 이 방식으로 수행했습니다), 이 버그를 오랫동안 발견하지 못했습니다. 그러나 구버전 스크립트는 최신 버전과 호환되지 않을 수 있으므로, 일반적으로 수정된 버전을 사용하는 것을 권장합니다. 죄송합니다.
20241231 릴리즈부터는 실험적으로 --usetags 옵션을 활성화하여 인간이 작성한 태그를 캡셔닝에 활용할 수 있습니다. 이 옵션은 각 이미지와 일치하는 .tags 파일을 찾습니다. 이 파일에는 쉼표로 구분된 태그가 포함되어야 합니다(예: 123.jpg에는 123.tags 파일이 있어야 하며, 예시로 1girl, bikini, blonde hair 등이 포함될 수 있습니다). 태그가 없는 이미지의 경우, 일반적인 방식으로 캡션을 생성합니다. 이 기능을 활성화할 경우, 반드시 최신 버전의 batchcaption.py를 사용하세요.
생성된 캡션의 품질은 매우 다양하며, 여러 캐릭터 간의 상호작용에 대해서는 특히 부족합니다. 필요하다면 --outfile 인수를 사용하여 캡션을 jsonl 파일로 출력할 수도 있습니다. 또한 간단한 미세 조정 스크립트도 포함했습니다.

