BohoTI
세부 정보
파일 다운로드
이 버전에 대해
모델 설명
이것은 konyconi의 BohoAI LORA의 감성을 담은 TI 임베딩을 만들 수 있는지 실험해보기 위한 것입니다.
뛰어난 BohoAI LORA를 공유해 주신 @konyconi님께 감사드립니다.
/model/52697/tutorial-konyconi-style-lora
전시에서는 2개의 모델을 사용하였습니다:
revAnimated_v122.safetensors [4199bcdd14] with clip skip = 2
avalonTruvision_v2.safetensors [a4df55d292] with clip skip = 1
이 TI는 괜찮은 보호 피크스를 생성할 수 있지만 때로는 혼란스러워집니다... 예를 들어 우주선을 요청했는데 트럭이 나올 수 있음. 아마도 이런 종류의 TI를 만들려면 훈련 데이터셋에 더 많은 사진과 더 다양한 주제를 포함해야 할지도 모릅니다?
---------------------------
업데이트 2023년 5월 9일
훈련을 4000 스텝, 그리고 5000 스텝까지 계속 진행했습니다.
kcboho07-4000은 보다 강력한 보헤미안 스타일을 생성합니다.
kcboho07-5000는 더 강력한 스타일이지만 반복/복제가 늘어나는 문제점이 있습니다. 예를 들어 손가락이 더 많아지거나, 손이 더 많아지고, 하늘에 떠 있는 중복된 도시가 나타납니다.
6000 스텝을 시도했지만, 더 나빠졌습니다 — 과도하게 훈련된 상태.
저는 아마도 이번 실험에서 가장 좋은 결과를 낸 4000 스텝 버전을 업로드했습니다.
또한 5000 스텝 버전도 업로드했습니다. 특히 객체 프롬프트를 조심스럽게 설정하면 좋은 결과를 낼 수 있기 때문입니다.
---------------------------
저는 스타일 TI를 만드는 법을 고민해 왔습니다...
좋은 훈련 데이터셋은 무엇이어야 할까요?
자동1111에서 어떤 훈련 설정을 사용해야 할까요?
TI를 얼마나 오래 훈련해야 할까요?
저의 훈련 데이터셋은 konyconi의 76개의 1024x1024 이미지를 별도의 폴더로 복사하여 관련 TXT 파일은 제거하고, 모두 512x512로 리사이징했습니다. 그 후 "01 항공기.png", "02 도시.png", "03 전차.png" 등의 이름으로 재이름했습니다.
왜냐하면 과거에 제작한 사용 가능한 TI들과 유사한 방식을 따르기 위함이었습니다. 아래 설정에서 사용한 이미지 데이터셋 폴더가 바로 이 리사이징된 이미지 폴더입니다.
자동1111 텍스트 인버전 위키 페이지는 여기 있습니다:
https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Textual-Inversion
그러나 매우 오래된 상태입니다. 마지막 업데이트는 1월 5일이고, 저는 5월 8일에 이렇게 작성하고 있습니다.
이 스레드의 일부는 도움이 되었습니다. 아주 긴 읽기이지만요!
https://github.com/AUTOMATIC1111/stable-diffusion-webui/discussions/1528
훈련 모델: v1-5-pruned.ckpt [e1441589a6]
더 나은 선택이 있을지 모르겠지만, 저는 이 모델을 사용한 이유는 이전에 유용했기 때문이며, 다른 것을 써야 할지 모르겠습니다. 기본 SD15 모델이 가성비 최고인 건지 어떤지 확신이 없습니다.
임베딩 생성:
이름: kcboho07
초기화 텍스트: boho style photo
토큰당 벡터 수: 4
임베딩 훈련:
임베딩 이름: kcboho07
임베딩 학습률: 0.001:250, 0.0005:500, 0.00075:1000, 0.001
그라디언트 클리핑: 비활성화
배치 크기: 1
데이터셋 폴더: 컴퓨터에 저장한 위치
로그 폴더: textual_inversion
프롬프트 템플릿: minimum_style_2.txt
템플릿은 3줄로 구성됩니다:
<<<
[name] style, [filewords]
[name] style, a photo of [filewords]
[name] style, an illustration of [filewords]
너비 = 높이 = 512
이미지 리사이징 금지: 종료
최대 스텝 수: 3000
이미지 저장 스텝 수: 25
임베딩 저장 스텝 수: 25
PNG 알파 채널 사용: 종료
임베딩을 PNG 청크에 포함하여 이미지 저장: 활성화
txt2img 탭의 매개변수 읽기: 비활성화
태그 섞기: 비활성화
태그 삭제: 0
잠재 샘플링 방법: 결정론적
훈련 시간: 2060/6GB 기준 약 1000 스텝당 50분
3000 스텝에서 생성된 TI는 보헤미안 스타일을 생성합니다. 다만 BohoAI LORA보다는 성패가 엇갈리는 듯한 느낌입니다.
만약 제가 다른 방식으로 해야 할지 조언이 있다면 댓글로 제안해 주세요. 아니면 제가 어색한 것을 하던가요! :-)
/model/51966/bohoai
/model/52697/tutorial-konyconi-style-lora


















