Breaking New Grounds - Full Glass of Wine + Diverse Clocks
세부 정보
파일 다운로드
이 버전에 대해
모델 설명
왜요?
이 LoRA 모델은 ML 이미지 생성 모델의 "딸기" 문제를 해결하기 위해 개발되었습니다.
"오, 당신의 수십억 달러짜리 알고리즘은 완전한 와인 잔 문제조차 해결하지 못했나요!"
이제 그럴 일은 없습니다.
오픈 소스는 모두를 위한 것입니다
오픈 소스는 거대 기업의 복잡한 워크플로우와 프로세스에 구애받지 않습니다. 저는 20장의 이미지를 수동으로 캡션 처리한 후 이 모델을 단 32분 만에 학습했습니다.
학습 세부 정보:
에포크: 12
스탭: 1920
최적화기: --optimizer_type=adopt.ADOPT
학습률: 8e-5
TE 학습률: 4e-5
스케줄러: constant_with_warmup 2% (냉장 와인을 따뜻하게 하기 위해 중요)
랭크: 128/64
편향 완화 추정 손실: True
시계와 잘 어울리지 않기 때문에 플리핑이나 캡션 셔플링은 하지 않았습니다 (당연하죠).
준비 및 학습 중 겪은 문제:
완전한 와인 잔 사진과 다른 시간을 보여주는 시계를 찾는 것이 약간 더 어렵습니다 (당연하죠). 시계는 reddit에서, 완전한 와인 잔은 인스타그램에서 감사히 얻었습니다. 어떤 사람들은 동물이 맞습니다.
아날로그 시계를 읽는 법을 잊어버렸다는 걸 알게 되었습니다. 일부 이미지의 캡션이 잘못되었을 수 있습니다.
와인과 시계의 편향을 완전히 교정하는 것이 예상보다 더 어렵습니다.
OOD 생성은 여전히 성능이 낮습니다. 더 많은 예제와 스텝이 필요할 수 있습니다.


