playground-v2-512px-base-anime-finetune

세부 정보

모델 설명

playground-v2-512px-base-anime-finetune

■이것은 실험적인 미세 조정입니다.

I trained using onetrainer.

10만 장의 이미지 데이터셋을 사용하여 주로 애니메이션 이미지를 포함하며, 일부 사실적인 이미지와 AI 이미지도 포함되어 있습니다. 학습 해상도는 512px입니다.

모든 분들께 playground v2 512px base의 가능성을 공유하고 싶습니다.

SDXL과 동일하므로 다운로드 후 즉시 사용하실 수 있습니다.

이 모델의 장점은 512px 해상도입니다. SDXL 아키텍처를 학습하고 싶지만 VRAM 부족 등의 문제를 겪고 계신 분들에게 이상적일 것이라 생각했습니다.

SDXL 아키텍처를 사용하고 싶지만 생성되는 이미지 크기인 1024px가 너무 크다고 느끼시거나, 512px에서 생성하고 싶은 분들에게 이 모델이 좋은 선택이 될 수 있다고 생각합니다.

미세 조정은 512px 해상도로 이루어집니다. 장점은 1024px 데이터셋을 별도로 준비할 필요가 없다는 점입니다. SD1.5에서 사용했던 데이터셋을 그대로 사용할 수 있어 부담이 적고, 학습 시간도 단축할 수 있습니다.

1024px는 학습 시간, 캐시 시간, 캐시 공간, VRAM, 하드디스크 등을 많이 소모합니다...

1024px 대비 4배 빠릅니다. 계산이 틀렸다면 죄송합니다... 저해상도에서도 SDXL 아키텍처의 장점을 누릴 수 있어 학습이 빠르고 재미있습니다.

이 모델은 잠재력을 가질 수 있습니다.

제 소원은 많은 분들이 잠재력을 지닌 베이스 모델을 발견하고, 그 가능성이 더욱 확장되기를 바랍니다. 제가 그 실현에 조금이라도 도움이 되길 바랍니다.

■성적 이미지도 생성될 수 있으니 주의해 주세요.

어떤 경우엔 사실적이거나 AI처럼 보이는 외형이 강하게 나타나기도 합니다.

네거티브 프롬프트에 "realistic"을 추가하는 것이 좋은 방법일 수 있습니다.

"blush" 태그는 애니메이션 스타일을 강제로 유도하는 데 효과적일 수 있습니다.

이 태그는 매우 강력하므로, 프롬프트 맨 앞에 두면 지나치게 강해질 수 있습니다.

반대로, 애니메이션이 아닌 다른 스타일을 시도해 보는 것도 재미있을 수 있습니다.

처음에 의도하지 않았던 영역에서 새로운 발견이 일어납니다.

완벽함을 기대하기보다는 유연하게 접근하세요. 이 모델은 아직 미숙합니다. 잘못된 결과가 오히려 흥미로울 수 있습니다!

자동 태그 생성 도구를 사용해 다양한 태그를 생성해 보는 것도 좋습니다.

■이 모델의 표준 해상도는 512px입니다.

SD1.5처럼 512x768과 같은 비율이 적합합니다.

768px나 1024px는 학습되지 않았으므로 결과가 심각하게 망가집니다.

i2i에서 큰 해상도로 설정하면 실패합니다.

제한은 1.5배 확대와 denoise 0.5입니다.

저는 dpmpp_sde step:12 cfg:3-5를 선호합니다. Euler a도 안정적이고 좋습니다. 생성 속도도 빠릅니다.

i2i에서는 cfg를 원하는 만큼 높일 수 있습니다. cfg 약 15에서 대비와 디테일이 더 두드러집니다.

■애니메이션 스타일을 강제하기 위해 LoRA를 추가했습니다.

자세한 내용은 LoRA 탭을 참고해 주세요.

최근 테스트 결과도 여기에 기록되어 있습니다.

이제 추론에 익숙해지고 있습니다!

ComfyUI 워크플로우도 업데이트되었습니다.

■Animagine-xl-3.1의 0.4 텍스트 인코더를 v0.0_aesthetic에 병합한 모델을 추가했습니다.

세부 설명은 v0.0_aesthetic_TE 탭에 기재되어 있습니다.

매우 실험적이므로 강력히 추천드리지는 못하지만, 관심이 있으시다면 시도해 보세요!

열심히 시도하면 애니메이션 캐릭터와 약간 닮은 다른 인물을 생성할 수 있습니다. 샘플 이미지의 캐릭터가 누군지 궁금하셨나요? 저는 정말 열심히 했습니다. LOL!

캐릭터에 대한 미세 조정은 하지 않았으므로 높은 기대는 금물입니다!

기타를 들고 있는 캐릭터나 검을 든 캐릭터를 생성할 수 있다는 점이 예상 밖이었습니다...

다른 결과도 생성될 수 있습니다.

Animagine 태그 규칙도 효과가 있을 수 있을까요?

■안정적인 품질의 병합 모델을 추가했습니다.

playground-v2-1024px-aesthetic과 사전 학습 모델 간의 차이를 추출하여 +0.5로 병합했습니다.

512px 외의 해상도도 i2i 확대 시 안정성을 높이기 위해 개선되었습니다.

스타일과 태그 인식률은 변할 수 있지만, 미학적 측면도 향상되었으므로 기존 모델을 사용하기 어려우신 분들에게 이 모델을 추천드립니다.

cfg가 3 근처여도 문제없습니다. 색상이 어두우면 값은 낮춰 주세요.

기대보다 훨씬 재미있습니다.

성적인 내용에서는 기존 모델이 더 잘 반응합니다.

자신만의 최적 조합을 찾아보는 것도 재미있을 것입니다.

이미지가 약간 흐릿할 수 있으며, 업스케일링 등으로 선명도를 높여야 할 수 있습니다.

샘플 이미지에는 검을 든 이미지도 있습니다. 그런 이미지가 생성될 줄은 몰라 놀랐습니다...

일부 경우 786x1152px와 같은 해상도도 실패 없이 생성되었습니다.

↓ 다음과 같이 추론을 단계별로 나누는 것이 효과적일 수 있습니다.

1. 512x768px에서 프롬프트를 시도하여 개념을 확립하세요.

2. 768x1152px에서 더 나은 구도와 인체를 생성하세요.

3. i2i로 디테일을 개선하세요.

■스타일의 일관성이 없습니다. 품질이 낮고 고정된 설정이나 프롬프트가 없습니다.

기존 모델 대비 장점이 없으며 데이터셋도 좁습니다.

장점은 경량이라는 점입니다.

기타 장점을 발견하시면 알려주세요!

■danbooru 태그를 사용해 학습하고 있습니다.

적은 수의 태그는 결과가 심각하게 망가질 수 있습니다. 이 모델의 품질 태그는 danbooru와 SD에서 자주 사용되는 태그입니다.

일반 태그(예: 1girl)만 학습하며, 아티스트나 애니메이션 작품 태그는 학습하지 않습니다.

향후 학습을 계속할 때 어떤 데이터셋이 있으면 좋을지 의견을 듣고 싶습니다.

태그 순서가 중요합니다. 각 태그마다 고유한 이미지가 존재합니다.

인기 있는 태그일수록 품질이 좋아질 수 있지만, 이미지 반영이 강해지므로 다른 태그로 조절하거나 순서를 바꿔 희석시키는 것도 효과적입니다.

효과가 너무 강하다면 가중치를 낮추는 것도 좋습니다.

"Looking at viewer", "upper body", "shiny skin" 등은 쉽게 고품질 이미지를 생성합니다.

"nsfw" 태그를 추가하지 않고 학습하지만, 이상하게도 효과가 있는 것 같습니다...

■이 모델은 미완성이고 매우 어렵지만, 관심이 있으시다면 시도해 보세요. 프롬프트는 제가 잘 못 다루므로, 흥미로운 결과를 생성하시면 공유해 주세요. 그러면 이 모델을 더욱 강력하게 만들 수 있습니다.

귀하의 피드백은 더 다양한 데이터셋으로 학습하는 동기입니다.

아직 학습되지 않은 태그도 많으므로 더 다양하고 풍부한 표현이 가능할 것입니다.

■생성 테스트에 사용하는 ComfyUI 워크플로우를 추가했습니다.

사용하는 소프트웨어는 무엇이든 상관없으므로 다양한 소프트웨어를 시도해보세요!

■SDXL u-net과 병합하면 실패합니다. 병합 방법이 있다면 알려주시면 감사하겠습니다.

병합이 가능해지면 다른 훌륭한 SDXL 모델의 장점을 누릴 수 있습니다!

SDXL과 가중치가 다르기 때문에 기본적으로 호환되지 않지만, 두 모델을 결합하는 방법을 찾아보는 것도 재미있을 것입니다.

다른 playground 모델들과 병합할 수 있을 것이라 생각합니다. 또한 흥미로울 수 있습니다.

다른 모델을 병합할 때 발생하는 화학 반응이 있다면 공유해 주세요!

사실적이든 애니메이션적이든 상관없습니다.

■다른 playground_v2와 차등 병합을 위한 학습 소스인 playground-v2-512px-base 모델을 추가했습니다.

이 모델은 "v0.0_base" 탭에 업로드되어 있으니 확인해 주세요.

이제 다른 playground_v2 1024px의 미학 학습 + 미세 조정 가중치를 차등 추출할 수 있습니다. +1.0으로 추가 및 병합하면 512px 베이스가 1024px와 일치합니다. +0.5는 중간 결과를 제공하며 넓은 범위에서 일치시킬 수 있습니다. 반대로, 제 모델과 차등 비교하면 오직 제 미세 조정 결과만 추출하여 다른 playground_v2 1024px에 추가 및 병합할 수 있습니다. 다양한 조합이 가능하며 재미있습니다.

LoRA도 SDXL처럼 학습할 수 있을 것 같습니다.

아직 명확하지 않은 부분이 많아 자세한 설명은 드리지 않지만, 긍정적인 의견이 있다면 가능한 한 많은 정보를 공유하고 싶습니다.

■미세 조정을 위한 float32 체크포인트와 diffuser 모델을 추가했습니다. 학습 설정은 diffuser 모델에 포함된 onetrainer_config입니다.

이 모델은 "v0.0_base" 탭에 업로드되어 있으니 확인해 주세요.

u-net과 텍스트 인코더 모두 미세 조정되었습니다.

사용 중인 학습 도구가 SDXL을 지원한다면 문제없이 학습할 수 있습니다. 여전히 걱정된다면 제가 사용한 onetrainer로 학습하는 것이 더 안심할 수 있습니다.

이 모델은 512px에서도 매우 잘 학습되어 학습이 재미있습니다.

playground-v2-512px-base는 미학적 미세 조정 전의 SDXL 모델입니다.

일반적으로 얻을 수 없는 매우 드문 자원입니다. 무한한 가능성이 있습니다.

이를 출발점으로 삼아 원하는 특화된 모델을 만들 수 있을 것입니다.

저는 멋진 캠퍼스의 약간 만족스럽지 못한 그림만 그렸습니다.

여기에 더한다면 멋진 그림이 될 것입니다.

제 꿈은 512px 같은 저해상도에서도 생성할 수 있는 더 많은 SDXL 모델이 나오는 것입니다!

저해상도 학습 비용으로 512px 학습을 추가하여 개념을 더욱 풍부하게 만들 수 있습니다. 혹은 384px와 768px를 추가하여 다중 해상도 학습을 하면, 512px를 유지하면서 저/고해상도를 유연하게 지원하고, 업스케일링 실패를 줄이며, 더욱 미세한 디테일과 개념을 기억하기 쉬워집니다.

학습 중 샘플 이미지의 품질이 낮아도 문제없습니다. 실제로 추론을 하고 자동 태그 생성을 해보니 매우 잘 작동했습니다. 학습이 실패하지 않고 노이즈가 되지 않는 한 괜찮습니다.

학습 결과가 나쁘더라도 다른 모델과 병합하면, 512px_base 이후에 학습된 존재하지 않는 미학적 요소가 추가되어 고해상도 성능이 더 강력해져, 상상 이상의 이미지를 생성할 수 있습니다!

학습 전에 “animagine”이나 “pony”와 같은 SDXL 텍스트 인코더로 교체한 후 학습해 보는 것도 흥미로울 수 있습니다.

텍스트 인코더는 이미 캐릭터와 danbooru 태그를 알고 있습니다. u-net만 학습하면 됩니다!

또한 텍스트 인코더를 0.5로 병합하여 두 특성을 유지한 채 추가로 학습하는 것도 좋은 방법일 수 있습니다.

저는 civitai 초보자입니다. 의견이 있으시면 알려주세요!

귀하의 반응이 제 동력입니다. m(_ _)m

총 다운로드 수가 300회를 넘었습니다. 제 미숙한 모델에 관심 가져주셔서 감사합니다! 많은 추천에도 감사드립니다. m(_ _)m

■미세 조정에 사용된 훌륭한 사전 학습 모델

https://huggingface.co/playgroundai/playground-v2-512px-base

질문이 있으시면 언제든지 문의해 주세요!

일본어로도 질문 가능합니다. 편하게 말씀해 주세요~

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.