Advanced Flux Captioning with GPT4O

세부 정보

파일 다운로드

모델 설명

안녕하세요,

Flux용 이미지 배치에 대한 캡션을 생성하기 위해 이 고급 캡셔닝 워크플로우 및 시스템 지침을 작성했습니다. Flux는 두 개의 텍스트 인코더인 Clip L(77 토큰)과 T5(256 토큰)를 사용하므로, 두 개의 캡션 스트림을 구현했습니다. T5용 NL 패스와 Clip L용 콤마 시퀀스 패스입니다. 작은 데이터셋을 사용할 때는 두 스트림을 모두 사용하며, 이를 통해 자연어로 프롬프트를 입력하거나 콤마로 구분된 시퀀스로 프롬프트를 입력할 수 있습니다. GPT4O 구성 요소를 실행하려면 OpenAI API를 루트 폴더에 추가해야 합니다. 곧 이 워크플로우를 다시 업데이트할 예정입니다.

현재는 즐겁게 사용해주세요.

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.