anal x-ray (NetaYume Lumina 3.5)
세부 정보
파일 다운로드
이 버전에 대해
모델 설명
나는 이 모델을 실험해보았지만, 현재는 다른 일에 집중하기 위해 잠시 휴식을 취하고 있습니다.
이미지에 태그를 달기 위해 Grok 4.1 추론 모델을 사용했고, 간단히 확인하고 조정한 후 학습을 시작했습니다.
"anal x-ray" 개념을 학습하기 위해 일부 이미지를 선택했습니다. 그런데 이미지 플리핑 기능이 심각한 문제를 일으켰습니다—팔다리가 깨지거나 프롬프트 설명과 이미지가 일치하지 않게 되었죠. 이 기능을 끄고 나서야 모델이 제대로 작동하기 시작했고, 수렴 속도도 훨씬 빨라졌습니다.
이 경험을 통해 이미지 증강이 여전히 가치가 있는지 의문이 들었습니다. 더 나은, 더 구조화된 데이터와 정확한 캡션을 갖는 것이 훨씬 더 중요하다고 생각합니다.
버그를 늦게 고쳤기 때문에, 보상을 위해 학습을 몇 스텝 더 실행했습니다.
초기에는 5,000 스텝, 선형 학습률(LR) 2e-4, 배치 크기 4로 시작했습니다. 이후 학습률을 코사인 감쇠(2e-4에서 4e-5까지)로 전환하고 배치 크기를 8로 두 배로 늘렸습니다. 샘플을 관찰한 후 12,000 스텝에서 학습을 중단했습니다.
전체 과정을 vast.ai에서 ai-toolkit과 RTX Pro 6000 Blackwell을 사용하여 실행했습니다(주로 더 큰 배치 크기를 시험하기 위해).
관련 개념으로는 이런 것들을 시도해볼 수 있겠죠...?
과적합을 방지하기 위해 가중치를 줄이는 것이 권장됩니다. 가중치는 0.8에서 0.9 사이로 유지하고, 1을 넘지 않도록 해야 합니다.

