【Art Style】赤倉 | Akakura
세부 정보
파일 다운로드
이 버전에 대해
모델 설명
2023.11.03
v3 버전을 업데이트하여 v1 기반으로 일반화 성능을 강화했습니다. 고해상도 복원(Hires.fix)을 사용하는 것을 추천합니다. 샘플 이미지에 사용된 확대 알고리즘은 R-ESRGAN 4x+ Anime6B이며, 확대 배수는 1.5, 반복 횟수는 0입니다.
moat v2를 사용하여 학습 데이터셋에 태그를 부여했고, 최적화기는 Lion을 사용했습니다. 학습률은 기본적으로 1e-5 및 1e-6, repeat=5로 설정하고 20 에포크 동안 학습했습니다. 이번 학습에서는 스텝 수를 줄이고 배치 크기를 증가시켰으며, 학습 해상도는 1024×1024로 설정했습니다.
배치 크기를 증가시키는 과정에서, 학습률을 늘리지 않은 상태에서 모델이 4번째 에포크에서 가장 좋은 성능을 보였습니다(이 결론은 anmi 모델 학습 시에도 나타났습니다). 에포크 ≥7일 때 스타일이 과적합되기 시작했으며, 에포크 ≥16일 때 두 번째 최소값으로 수렴하기 시작했습니다.
따라서 이전 LoRA 모델이 심각하게 과적합되었다고 판단하여 v1 버전 모델을 삭제하기로 결정했습니다.
——————————
2023.09.19
v2 버전을 업데이트하였으며, 파일 크기를 크게 줄이기 위해 Loha를 사용했습니다. 이는 일부 사용자의 요구를 충족시키기 위함입니다.
Loha를 포함한 Lycoris 모델의 학습 속도는 매우 느립니다(일반 LoRA 학습 속도의 약 절반 수준)이며, VRAM 요구량이 높아 학습 비용이 큽니다. 따라서 Loha 모델을 많이 학습하지는 않을 것입니다.
표지 이미지는 Loha가 NAI(학습 기본 모델)에서 생성한 샘플입니다. LoRA에 비해 이 모델은 NAI 및 Anything에서 약간의 과소적합을 보이지만, 다른 기본 모델에서는 안정성과 일반화 성능이 향상되었습니다.
사실 Loha는 스타일 학습에 적합합니다. 모델 내의 합성곱 층이 학습 데이터셋의 스타일 및 다른 추상적 정보를 더 잘 흡수할 수 있기 때문이며, 이는 선형 층의 학습 부담을 완화합니다. 테스트 결과, 적절한 스타일 학습 파라미터는 dim = 32, conv = 4로 나타났습니다. alpha 값은 확정되지 않았으나, dim과 동일한 값으로 설정하는 편입니다. 너무 낮게 설정하면 이상한 결과가 나올 것 같습니다.
Stable Diffusion WebUI가 최신 버전인지 확인해 주세요. 추천 생성 해상도는 704×1024입니다.
——————————
2023.09.02
v1.1은 눈동자 부분의 문제를 수정했습니다. 프롬프트에 “dot pupils”, “eyelashes” 등의 키워드를 추가하는 것을 추천합니다.
모든 이미지는 NovelAI 유출 모델로 생성되었으며, ‘highres’를 사용하면 이미지 품질이 향상될 수 있습니다. Anything 같은 2차원 모델을 선택하면 디테일 재현 효과가 더 우수하지만, NSFW 콘텐츠에 대한 성능은 떨어집니다.
가장 낮은 loss 값을 가진 테스트 버전(v1.0)을 선택했으나, 결과가 좋지 않았습니다. 원경이나 전신 이미지에서 화면이 왜곡되는 현상이 발생했기 때문에, 다른 버전(v1.1)을 계속 테스트 중입니다.
v1.0의 핵심 문제는 눈동자를 제대로 그려내지 못한다는 것입니다. “dot”, “pupils” 등 눈동자 관련 태그를 추가하여 인물 특징을 강화하는 것이 좋지만, 효과는 여전히 좋지 않습니다. 학습 과정에서 모델이 점차 수렴하면서 loss 값이 감소하는 동안, 인물의 눈동자 특징도 점차 사라지는 것을 관찰했습니다.
개인적으로, 학습 데이터셋에 다양한 유형의 눈동자가 존재하지만, 이를 구분할 수 있는 관련 태그가 부족하여 학습 중 다양한 눈동자 특징이 혼합된 것으로 판단됩니다. 이 화가가 그린 눈동자는 일반적으로 작기 때문에, loss 값을 줄이기 위해 AI가 눈동자를 노이즈로 인식하고 제거한 것으로 보입니다.




