car_design-sketch
세부 정보
파일 다운로드
이 버전에 대해
모델 설명
릴리스
- v0.8: 현재 이 모델은 테스트용입니다. 샘플 이미지를 확인하시고 피드백을 제공해 주시면 감사하겠습니다.
개요
이 모델은 자동차 디자인 과정에서 손으로 그린 스케치 렌더링을 생성하는 것을 목표로 개발되었습니다. 저는 이 문제를 해결하기 위해 일련의 모델을 학습할 계획이며, 이는 그 일환으로 시도한 모델 중 하나입니다. 이 모델은 SDXL 아키텍처를 기반으로 하며, DynaVision XL 모델을 사용하여 미세 조정되었습니다.
데이터
저는 약 3,000장의 손으로 그린 자동차 이미지를 수집했습니다. 현재까지 대규모 손으로 그린 자동차 이미지 모음을 전문으로 하는 웹사이트나 데이터셋은 없는 것으로 보이며, 따라서 이 데이터는 다양한 채널에서 수집되었습니다. 데이터는 기본적인 라벨링만 적용되었고, 분류나 인간 선호도 필터링은 수행하지 않았습니다(시간이 부족하여 아직 진행하지 않았지만, 향후 가능하면 수행할 예정입니다). 라벨링은 검토되지 않았으며, 그대로 제공됩니다.
학습
위에서 언급한 바와 같이, 저는 SDXL 기본 모델을 학습에 사용하지 않았습니다. 그 이유는 기본 모델의 2D 성능이 좋지 않다고 느꼈기 때문이며, 오히려 DynaVision XL_ Release_v0.6.1.0-bakedvae 모델보다 성능이 떨어지기 때문입니다. 따라서 이 모델을 학습에 선택했습니다.
사용한 학습 스크립트는 sd-scripts이며, 아래는 몇 가지 상세 파라미터입니다.
base_model: dynavisionXLAllInOneStylized_releaseV0610Bakedvae.safetensors
resolution: 1024
max_train_epochs = 20
device = 4090 X 2
clip_skip = 2
save_precision = fp16
network_module = lycoris.kohya
network_dim = 16
network_alpha = 8
train_batch_size = 16
gradient_checkpointing = true
gradient_accumulation_steps = 1
real_batch_size = 32
lr_scheduler = constant
min_snr_gamma = 5
multires_noise_discount = 0.3
multires_noise_iterations = 10
unet_lr = 2e-4
text_encoder_lr = 2e-4
기타 참고 사항
현재 저는 일부 테스트 결과만 공개하고 있습니다. 모델 개선을 위한 방향성을 얻기 위해, 이미지를 관찰하고 의견을 주시면 감사하겠습니다.
할 일
더 많은 이미지
더 나은 라벨링
더 나은 기본 모델 찾기 (아마도)
제공된 도구: ChatGPT (OpenAI)


