LLM이 생성한 영어 태그와 자연스러운 중국어를 결합하여 총 32에폭 및 10,624스텝으로 학습되었습니다. 흐름 일치 손실은 0.37에서 0.341로 감소했지만, 이상적인 범위는 0.220.23이며, 매우 좋은 값은 0.10.12입니다.
저는 qwen-image와 flux에 대한 학습 경험을 바탕으로 하고 있으며, 이는 회사 자산이므로 Civitai에 업로드하지 않았습니다. 문제는 프롬프트 구조에 있습니다.
현재 저는 학습 문제를 해결하기 위한 좋은 프롬프트 구조를 찾아야 하지만, 이는 어렵습니다. 순수한 자연어와 순수한 태그 모두 고유한 결함을 가지고 있으며, 더 나은 표준화된 구조로 통합되어야 합니다. 중국어 프롬프트 캡션의 품질이 낮아 수렴 효과가 그리 좋지 않습니다...
과거 경험에 따르면, 좋은 프롬프트와 구조를 찾으면 전체 품질을 유지하면서 수렴 속도를 몇 배 빠르게 할 수 있지만, 이 탐색은 매우 오랜 시간이 걸립니다.
일부 과적합 문제에 대해, 더 나은 결과를 얻기 위해 가중치를 0.8~0.9 또는 그 이하로 낮추는 것을 권장합니다. 현재 베이스 모델의 미세 조정은 여전히 열악한 프롬프트 구조로 인해 제한받고 있어 충분한 학습이 이루어지지 못하고 있다고 생각합니다. 물론 VAE도 일정 부분 문제입니다.
충분한 자금이 있었다면, 수백만 장의 이미지와 그에 해당하는 프롬프트를 미세 조정해야 했을 것입니다. 이를 교정하려면 약 8~16에폭이 필요하며, 엔지니어링 노력이 막대해 강력한 인력 조정이 필요하고, 이는 매우 어려운 일입니다. 학습률은 방향성 있는 안내를 위해 적절히 낮출 수 있습니다. (큰 배치로 1e-4 → 큰 배치로 5e-5 또는 그 이하).