alimama-creative / FLUX.1-Turbo-Alpha

세부 정보

파일 다운로드

모델 설명

중국어 버전 Readme

이 저장소는 AlimamaCreative 팀이 공개한 FLUX.1-dev 모델 기반으로 훈련된 8단계 디스틸된 LoRA를 제공합니다.

설명

이 체크포인트는 FLUX.1-dev 모델을 기반으로 훈련된 8단계 디스틸된 LoRA입니다. 우리는 디스틸 품질을 향상시키기 위해 멀티헤드 판별기를 사용합니다. 우리의 모델은 T2I, 인페인팅 ControlNet 및 기타 FLUX 관련 모델에 사용할 수 있습니다. 권장되는 guidance_scale=3.5 및 lora_scale=1입니다. 더 낮은 단계 버전은 이후에 공개될 예정입니다.

  • 텍스트-이미지 생성

사용 방법

diffusers

이 모델은 diffusers와 직접 사용할 수 있습니다.

import torch
from diffusers.pipelines import FluxPipeline

model_id = "black-forest-labs/FLUX.1-dev"
adapter_id = "alimama-creative/FLUX.1-Turbo-Alpha"

pipe = FluxPipeline.from_pretrained(
  model_id,
  torch_dtype=torch.bfloat16
)
pipe.to("cuda")

pipe.load_lora_weights(adapter_id)
pipe.fuse_lora()

prompt = "A DSLR photo of a shiny VW van that has a cityscape painted on it. A smiling sloth stands on grass in front of the van and is wearing a leather jacket, a cowboy hat, a kilt and a bowtie. The sloth is holding a quarterstaff and a big book."
image = pipe(
            prompt=prompt,
            guidance_scale=3.5,
            height=1024,
            width=1024,
            num_inference_steps=8,
            max_sequence_length=512).images[0]

comfyui

훈련 세부 정보

이 모델은 100만 개의 오픈소스 및 내부 이미지에 대해 훈련되었으며, 미적 점수 6.3 이상 및 해상도 800 이상인 이미지를 사용했습니다. 품질 향상을 위해 적대적 훈련을 사용했습니다. 우리의 방법은 원본 FLUX.1-dev 트랜스포머를 판별기 백본으로 고정하고, 모든 트랜스포머 레이어에 멀티 헤드를 추가합니다. 훈련 중에는 가이던스 스케일을 3.5로 고정하고 타임 시프트를 3으로 사용했습니다.

혼합 정밀도: bf16

학습률: 2e-5

배치 크기: 64

이미지 크기: 1024x1024

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.