Breaking New Grounds - Full Glass of Wine + Diverse Clocks

세부 정보

파일 다운로드

모델 설명

왜요?

이 LoRA 모델은 ML 이미지 생성 모델의 "딸기" 문제를 해결하기 위해 개발되었습니다.

"오, 당신의 수십억 달러짜리 알고리즘은 완전한 와인 잔 문제조차 해결하지 못했나요!"

이제 그럴 일은 없습니다.

오픈 소스는 모두를 위한 것입니다

오픈 소스는 거대 기업의 복잡한 워크플로우와 프로세스에 구애받지 않습니다. 저는 20장의 이미지를 수동으로 캡션 처리한 후 이 모델을 단 32분 만에 학습했습니다.

학습 세부 정보:

에포크: 12

스탭: 1920

최적화기: --optimizer_type=adopt.ADOPT

학습률: 8e-5

TE 학습률: 4e-5

스케줄러: constant_with_warmup 2% (냉장 와인을 따뜻하게 하기 위해 중요)

랭크: 128/64

편향 완화 추정 손실: True

시계와 잘 어울리지 않기 때문에 플리핑이나 캡션 셔플링은 하지 않았습니다 (당연하죠).

준비 및 학습 중 겪은 문제:

  • 완전한 와인 잔 사진과 다른 시간을 보여주는 시계를 찾는 것이 약간 더 어렵습니다 (당연하죠). 시계는 reddit에서, 완전한 와인 잔은 인스타그램에서 감사히 얻었습니다. 어떤 사람들은 동물이 맞습니다.

  • 아날로그 시계를 읽는 법을 잊어버렸다는 걸 알게 되었습니다. 일부 이미지의 캡션이 잘못되었을 수 있습니다.

  • 와인과 시계의 편향을 완전히 교정하는 것이 예상보다 더 어렵습니다.

  • OOD 생성은 여전히 성능이 낮습니다. 더 많은 예제와 스텝이 필요할 수 있습니다.

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.