alimama-creative / FLUX.1-Turbo-Alpha
세부 정보
파일 다운로드
모델 설명
이 저장소는 AlimamaCreative 팀이 공개한 FLUX.1-dev 모델 기반으로 훈련된 8단계 디스틸된 LoRA를 제공합니다.
설명
이 체크포인트는 FLUX.1-dev 모델을 기반으로 훈련된 8단계 디스틸된 LoRA입니다. 우리는 디스틸 품질을 향상시키기 위해 멀티헤드 판별기를 사용합니다. 우리의 모델은 T2I, 인페인팅 ControlNet 및 기타 FLUX 관련 모델에 사용할 수 있습니다. 권장되는 guidance_scale=3.5 및 lora_scale=1입니다. 더 낮은 단계 버전은 이후에 공개될 예정입니다.
- 텍스트-이미지 생성
- alimama-creative/FLUX.1-dev-Controlnet-Inpainting-Beta와 함께 사용 시, 디스틸된 LoRA는 인페인팅 ControlNet에 잘 적응하며, 가속 생성 효과는 원본 출력을 잘 따릅니다.
사용 방법
diffusers
이 모델은 diffusers와 직접 사용할 수 있습니다.
import torch
from diffusers.pipelines import FluxPipeline
model_id = "black-forest-labs/FLUX.1-dev"
adapter_id = "alimama-creative/FLUX.1-Turbo-Alpha"
pipe = FluxPipeline.from_pretrained(
model_id,
torch_dtype=torch.bfloat16
)
pipe.to("cuda")
pipe.load_lora_weights(adapter_id)
pipe.fuse_lora()
prompt = "A DSLR photo of a shiny VW van that has a cityscape painted on it. A smiling sloth stands on grass in front of the van and is wearing a leather jacket, a cowboy hat, a kilt and a bowtie. The sloth is holding a quarterstaff and a big book."
image = pipe(
prompt=prompt,
guidance_scale=3.5,
height=1024,
width=1024,
num_inference_steps=8,
max_sequence_length=512).images[0]
comfyui
훈련 세부 정보
이 모델은 100만 개의 오픈소스 및 내부 이미지에 대해 훈련되었으며, 미적 점수 6.3 이상 및 해상도 800 이상인 이미지를 사용했습니다. 품질 향상을 위해 적대적 훈련을 사용했습니다. 우리의 방법은 원본 FLUX.1-dev 트랜스포머를 판별기 백본으로 고정하고, 모든 트랜스포머 레이어에 멀티 헤드를 추가합니다. 훈련 중에는 가이던스 스케일을 3.5로 고정하고 타임 시프트를 3으로 사용했습니다.
혼합 정밀도: bf16
학습률: 2e-5
배치 크기: 64
이미지 크기: 1024x1024


