PixArt-Sigma-1024px_512px-animetune

세부 정보

모델 설명

4/7 1024px 모델 업데이트! 1024px_v0.4 자세한 내용은 1024px_v0.4 탭을 확인하세요.

512px 모델과 비교할 때 더 불안정하고 아티팩트가 발생하기 쉬우나, 구도면에서 더 큰 자유도를 제공합니다. 최신 버전은 더 많은 개념을 학습했지만, 미적 결과를 원하신다면 v0.2 이전 버전이 더 나을 수 있습니다.

3/5 512px 모델 업데이트! 512px_v0.7 자세한 내용은 512px_v0.7 탭을 확인하세요.

개인적으로 저는 512px 모델을 추천합니다. 512px 모델은 훨씬 더 많은 개념을 학습했습니다. 저는 512px 모델을 사용해 실험적 추론을 통해 좋은 이미지를 생성한 후, 1024px 모델 또는 SD1.5를 이용한 i2i로 이미지를 확대하거나, 동일한 프롬프트를 1024px 모델로 시도하는 워크플로우를 좋아합니다.

2/11 1024px & 512px 워크플로우 업데이트! TIPO 워크플로우 및 SD1.5 i2i도 추가했습니다. TIPO: 프롬프트 작성의 노력을 줄이고 이미지 생성을 쉽게 할 수 있어 강력히 추천합니다. SD1.5 i2i 워크플로우는 디테일 향상과 스타일 변경에 유용합니다. 모델을 선택하는 것에 즐거움이 있습니다. 이 방식은 PixArt와 SD1.5의 장점을 모두 활용합니다. '제안된 자원'에 있는 "TinyBreaker"는 그 잠재력을 탐색하며 더욱 개선된 완벽한 예시입니다. 꼭 확인해 보세요.

또한 SD1.5 i2i용 모델을 실험적으로 병합했으니 관심 있으시면 확인해 주세요.

/model/1246353

PixArt과 SDXL을 병합하는 방법도 발견되었습니다.

https://github.com/kantsche/ComfyUI-MixMod

/model/1565538/a-pile-of-junk-mixmod-workflow

■이것은 실험적인 미세 조정입니다.

주의: 이 미세 조정 모델은 매우 어렵습니다!

품질이 좋지 않습니다!! 기대를 지나치게 높이지 마세요!

PixArt-Sigma를 처음 접하시는 분이라면, 원본 모델을 추론할 수 있는 워크플로우를 먼저 확인해 보시기를 추천드립니다. 제 모델이 완벽하지 않더라도, 다른 분들의 뛰어난 미세 조정 모델을 사용해 보세요!

저는 "Comfy Sigma Portable"가 ComfyUI를 처음 사용하는 분들도 사용할 수 있다고 생각합니다. 복잡한 설치가 필요 없고, 단순히 다운로드 후 바로 시도하시면 됩니다!

병합은 ComfyUI로 가능합니다. "모델을 쉽게 병합하는 도구"도 간단하고 좋습니다.

●Forge에도 다음과 같은 확장 기능이 제공됩니다. SDNext에서도 추론이 가능합니다.

지능적인 해결책은 아니지만, Forge에서 미세 조정 모델을 사용하는 가이드를 준비했습니다. 참고로 사용해 주세요. 2/16: 최근 업데이트로 제 모델을 추가하고 추론에 사용할 수 있게 되었습니다. 이렇게 기능이 뛰어나고 사용자 친화적인 확장 기능을 만들어 주신 개발자분께 감사드립니다.

https://github.com/DenOfEquity/PixArt-Sigma-for-webUI

https://civitai.com/articles/11612

'제안된 자원'에 있는 'anime sigma1024px'는 유연하고 미적인 애니메이션용 모델입니다. 시도해 보세요.

PixArt에 조금이라도 관심을 가져 주신다면 기쁩니다. PixArt는 잠재력이 있습니다.

제 바람은 더 많은 사람들이 잠재력을 지닌 베이스 모델을 발견하고, 그 가능성이 더욱 확장되기를 바랍니다. 제가 그 과정에 조금이라도 도움이 되었다면 기쁩니다.

PixArt-Sigma는 단순하고 가벼우며, 300개의 토큰으로도 학습이 가능합니다. 이 조건을 충족하는 모델은 드뭅니다. 훈련 제약이 거의 없어 희귀한 모델입니다. 하드웨어 요구사항이 SD1.5와 거의 동일하므로 누구나 학습에 참여할 수 있고, 개인도 최소한의 부담으로 대규모 실험을 수행할 수 있습니다. 추론 중에도 300개 토큰의 장점을 활용할 수 있으며, 작고 가벼운 모델 크기 덕분에 병합 실험이 쉬워집니다. 이것은 1024px 지원, DIT, T5, SDXL VAE, 개선된 대비 처리 기능을 갖춘 SD1.5 모델과 같습니다. 저는 이런 모델을 찾고 있었고, PixArt가 그 기준을 충족했습니다.

저는 onetrainer를 사용해 학습했습니다.

미세 조정은 애니메이션 이미지를 주로 포함하는 7만 또는 40만 장의 이미지 데이터셋(인공지능 생성 이미지 사용하지 않음)을 기반으로 진행되었습니다. 모든 booru 태그를 학습에 사용했으며, 학습 해상도는 512px 또는 1024px입니다. PixArt는 고품질이면서도 요구사항이 낮아 학습에 적합합니다. 12GB VRAM으로 충분합니다. 학습에 대한 자세한 정보는 페이지 하단에 설명되어 있으니 참고해 주세요. 또한 Onetrainer 설정 데이터도 업로드했습니다.

■성적 이미지도 생성될 수 있으므로 주의하세요.

■다음은 최근 제가 선호하는 추론 설정입니다. 필요에 따라 업데이트됩니다.

이것은 최적의 해결책은 아닙니다. 다양한 시도를 해 보세요!

booru 태그와 자연어 모두 사용 가능합니다.

●SD1.5 i2i를 사용하는 것이 좋은 아이디어입니다. 이 방식으로 PixArt의 한계를 극복할 수 있습니다.

PixArt는 구도력이 뛰어나지만, 손과 같은 디테일은 종종 어려운 편입니다. i2i를 통해 SD1.5와 결합하면 디테일이 개선되어 두 모델의 장점을 모두 활용할 수 있습니다.

또한 SD1.5 모델을 변경함으로써 사실적, 2.5D, 애니메이션 등 어떤 스타일로도 유연하게 전환할 수 있습니다. 여력이 있다면 SDXL과 결합하는 것도 훌륭한 선택입니다.

●샘플 이미지에는 ComfyUI에서 볼 수 있는 내장 워크플로우가 포함되어 있었지만, 최근 저장 공간 절약을 위해 JPG로 변환되면서 일부 로드되지 않을 수 있습니다. 아래 확장 프로그램을 설치하면 확인할 수 있습니다.

https://github.com/Goktug/comfyui-saveimage-plus

●샘플러: "SDE cfg2.5-6 step12-20", "Euler cfg_pp" 또는 "Euler A cfg_pp", cfg 1.5-2.5 step30-50

스케줄러: "GITS" 또는 "simple"

●Euler, Euler_CFG_PP, DEIS: 예리하고 구도가 뛰어나며 붕괴의 미학을 즐길 수 있습니다.

Euler_A: 가장 안정적이며 포즈와 독특한 개념에 이상적이나, 놀라움은 적습니다.

DPM++_SDE: 중간 지점—역동적이면서도 안정적입니다.

●GITS는 풍부한 텍스처를 제공하고, Simple은 안정적인 생성 품질을 보장하며, SDE는 데이터셋에 충실하고, Euler는 예리하며, Euler A는 안정성을 제공합니다.

일반적으로 GITS + "Euler", "Euler cfg_pp" 또는 "SDE"를 선호합니다.

"GITS + Euler" 또는 "Euler cfg_pp"는 매우 예리합니다.

"GITS + SDE"는 역동적입니다.

"simple + Euler A 또는 SDE"는 안정적이며, 선명도가 향상되는 듯하지만 대비가 높을 수 있습니다.

●GITS는 놀라운 디테일을 생성할 수 있지만, 종종 붕괴되거나 프롬프트를 따르지 못할 수 있습니다. 자연어로 분위기를 강조하고 싶을 때 선호합니다. 반면, Simple은 안정적이며 프롬프트를 잘 따르므로 캐릭터 작업에 더 적합합니다.

●512x512 및 1024x1024 외에도 약간 다른 해상도는 허용됩니다. 512x768이나 1024x1536은 약간의 문제를 일으킬 수 있지만 실용적입니다. 더 안정적이려면 832x1216과 같은 표준에 가까운 해상도를 사용하는 것이 좋습니다.

저는 안정성보다 큰 해상도를 선호하므로 비표준 해상도를 자주 선택합니다.

●프롬프트를 떠올리기 어려우면 아래의 프롬프트 자동 생성 도구를 사용해 보세요.

https://huggingface.co/spaces/KBlueLeaf/TIPO-DEMO

Command R+는 프롬프트를 검열하거나 거부하지 않으므로 명시적인 자연어 프롬프트에 이상적입니다. 공식 웹사이트에 계정을 생성하면 무료로 시도할 수 있습니다.

●특정 태그의 효과가 너무 강하다면, 그 태그의 가중치를 낮추거나 다른 태그의 가중치를 높여 보세요. 기능이 없어서가 아니라 너무 지배적이어서 문제가 될 수 있으며, 이로 인해 해결될 수 있습니다.

캐릭터용 고유 태그는 매우 지배적이므로 주의하세요.

캐릭터 태그는 심지어 스타일을 변경할 수도 있습니다. 따라서 상황에 따라 캐릭터 태그를 끝에 두고 "1girl, green hair, School uniform"과 같은 일반 태그로 특징을 보완하면 유연성이 높아집니다.

●부정적 프롬프트는 학습되지 않았습니다. 다양한 프롬프트를 시도해 보세요!

아래 페이지의 데이터셋 내용에 설명된 대로, 사실적인 텍스처가 싫다면 "realistic, figure" 같은 용어를 포함해 보세요.

부정적 프롬프트에 'anime screencap'를 추가하면 평평함을 줄일 수 있습니다.

저는 제한을 싫어하고 다양성을 우선시하므로 부정적 프롬프트는 최소한으로 유지합니다.

최근에는 초기 단계에서는 부정적 프롬프트를 비활성화하고 후반 단계에서만 적용하는 워크플로우를 선호합니다. 이렇게 하면 초기 단계에서 구도 문제를 줄일 수 있고, 후반에서 스타일을 자유롭게 조정할 수 있어 전반적인 품질이 향상됩니다.

하지만 제 생각은 비정통적입니다. 반드시 따라야 할 필요는 없습니다! 많은 부정적 프롬프트를 사용해 더 나은 결과를 얻을 수도 있으니 시도해 보세요!

저는 단계 수가 적으면 구도가 잘 나오지 않는다고 느낍니다.

●최소 20단계 이상을 권장합니다. 최근에는 50단계로 고정하고 있습니다.

미리보기에는 15-25단계에서 멈춰 진행 상황을 확인합니다.

좋은 시드를 찾으면 CFG를 조정하며 50 또는 100단계로 정밀 조정합니다.

후반 단계에서는 큰 변화가 없기 때문에 결과를 예측할 수 있습니다. 이렇게 하면 효율성과 품질을 균형 있게 조절할 수 있습니다.

그러나 단계 수가 많을수록 붕괴는 줄어들지만 과도하게 조정될 수 있습니다. 대비 측면에서는 30단계 설정이 더 나은 균형을 줄 수 있습니다.

참고로, 작업 제목 태그로는 학습하지 않았지만, 때로 캐릭터 태그에 작품 제목이 포함되어 있습니다. 이 경향은 모바일 게임에서 특히 강합니다. 임의로 작품 제목을 추가했을 때 스타일 변화가 있었기 때문에, 효과가 있을 가능성이 있습니다.

●최소 20단계 이상을 권장합니다. 최근에는 50단계로 고정하고 있습니다.

미리보기에는 15-25단계에서 멈춰 진행 상황을 확인합니다.

Uni-pc는 약 20단계로 좋은 결과를 내므로 더 빠를 수 있습니다. i2i를 기반으로 한다면, splitsigmas 등의 방법으로 단계를 절반으로 줄인 후 i2i를 수행하는 것도 좋은 방법입니다.

좋은 시드를 찾으면 CFG를 조정하며 50 또는 100단계로 정밀 조정합니다.

후반 단계에서는 큰 변화가 없기 때문에 결과를 예측할 수 있습니다. 이렇게 하면 효율성과 품질을 균형 있게 조절할 수 있습니다.

안정적인 품질을 내는 프롬프트를 만들기 번거로우면, 아래와 같은 프롬프트를 사용하면 출력이 안정화될 수 있습니다. 역설적이게도 이런 태그는 곧 품질 태그가 됩니다. lol

" nikke, azur lane, blue archive, kancolle, virtual youtuber, arknights, girls' frontline"

●품질 향상을 위한 자연어 프롬프트도 공유합니다. 프롬프트 끝에 추가해 보세요. 이미 제 워크플로우에 포함되어 있습니다. 게임 제목 태그를 마지막 줄에 추가하는 것도 좋습니다.

■일관된 고품질

부드럽고 빛나는 피부와 생동감 있고 자연스러운 색조를 지닌 고도로 상세한 캐릭터, 자연스러운 비율과 정확한 구도를 가진 역동적이고 표현력 풍부한 포즈. 부드럽고 균형 잡힌 조명이 깊이와 온기를 강조하며, 주변 조명이 캐릭터와 부드럽게 상호작용하여 색조를 혼합하고 환경과 조화로운 연결을 만듭니다. 풍부한 표정이 감정과 존재감을 전달하고, 부드러운 하이라이트가 캐릭터의 곡선과 디테일을 강조해 깊이와 자연스러운 빛나는 광채를 더합니다.

■역동적인 구도

부드럽고 빛나는 피부와 화려하고 균형 잡힌 색조를 지닌 고도로 상세한 애니메이션 스타일 캐릭터는 완벽한 해부학과 자연스러운 비율을 가진 역동적이고 표현력 풍부한 포즈로 묘사됩니다. 구도는 시각적으로 매력적이며, 캐릭터 디자인의 정교한 질감과 세밀한 디테일을 특징으로 합니다. 부드럽고 정교한 조명이 깊이와 온기를 강조하고, 주변 환경과 조화롭게 상호작용하여 일관되고 몰입감 있는 분위기를 조성합니다. 배경은 풍부하고 역동적이며, 캐릭터를 압도하지 않고 장면을 보완하는 매력적인 요소들로 가득 차 있습니다. 부드러운 하이라이트와 그림자가 캐릭터의 곡선, 복장 및 특징을 강조해 사실감과 빛나는 광채를 더합니다. 전체 이미지는 예술적 스타일리제이션과 확실히 현실감 있는 존재감 사이의 완벽한 균형을 포착합니다.

●이 방대하고 혼란스러운 부정적 프롬프트는 실제로 효과가 있을 수 있습니다. 다만, 다른 모델에서 그냥 복사한 것이므로 보장은 없습니다. 그러나 일부 효과는 있는 듯합니다.

구도나 해부학이 이상해 보인다면 부정적 프롬프트를 제거해 보세요. 여러 차례 부정적인 영향을 미치는 것을 확인했습니다.

■절단된, 비정상적인 해부학, 비율 이상, 흐릿함, 오래된 스타일, 변형, 추가된 팔다리, 융합된 손가락, 낮은 품질, 비정상적인 팔다리, 결핍된 팔다리, 돌연변이, 추함, 과노출, 부족 노출, 평평한 색상, 낮은 디테일

■512px 모델

이 모델의 표준 해상도는 512px입니다.

SD1.5와 같은 512x768과 같은 비율이 적합합니다.

768px 또는 1024px는 학습되지 않았기 때문에 결과가 망가집니다.

기본 모델은 512px에서도 매우 고품질입니다!

일반적으로 사전 학습 중간 단계나 라이트 버전 모델은 학습이 부족하거나 미적 매력이 낮지만, 이 모델은 다릅니다. 지금까지 제가 본 것 중 가장 미적으로 뛰어난 모델입니다.

훈련 및 추론 사양에 대한 요구사항이 낮고 속도가 빠르기 때문에, 제가 찾고 있던 SD1.5의 후계 모델이 될 잠재력을 가지고 있다고 느낍니다. 이 모델을 정말 좋아합니다.

정직하게 말해, 2D 캐릭터에 초점을 맞춘 이미지를 생성할 때 512px와 1024px 사이에는 거의 차이가 없습니다. 고해상도가 명확히 필요한 개념이 아니라면, 512px로 충분합니다.

■ 1024px 모델.

시간을 아끼고 싶다면, 어떤 프롬프트가 효과적인지 연습하기 위해 먼저 512px 모델을 사용하는 것이 좋습니다.

병합도 흥미로울 수 있습니다.

실제적인 모델과 병합하면 해부학적 표현이 개선될 때도 있습니다.

흥미로운 병합 실험 예시:

1024px와 512px 모델을 0.5 비율로 단순히 병합하세요. 그러면 768px 해상도로 생성할 수 있습니다. 768x768, 576x960, 심지어 640x1024와 같은 해상도를 시도해 보세요. 768x1024는 때때로 붕괴되지만, 가끔 성공할 수도 있습니다.

미리보기에서 블록 노이즈나 선 노이즈가 보이지 않는다면 괜찮습니다. 이러한 노이즈가 나타나고 생성된 이미지에 이상한 아티팩트가 생긴다면, 그게 해상도의 한계입니다.

이 접근 방식은 속도와 디테일을 균형 있게 조정하지만, 병합이 안정적인지는 확신이 없으며 일부 문제가 있을 수 있습니다. 그래도 흥미로운 실험으로 시도해볼 만한 가치는 있습니다.

※ 참고로, 이전 버전들이 열등하다고 생각하지 않습니다.

훈련이 진행될수록 모델은 더 많은 개념을 학습하지만, 점차 PixArt의 미학에서 벗어나게 됩니다.

따라서 이전 버전이 일부 경우 더 나은 균형을 가질 수 있습니다.

개인적 취향의 문제이므로, 자신이 가장 좋아하는 버전을 사용하는 것이 좋습니다.

개인적으로, 이전 버전의 샘플 이미지 중 정말 좋아하는 것들이 있습니다. 최신 버전으로 그것들을 재현할 수 있을지 확신이 없네요, lol.

저는 danbooru 태그로 훈련 중입니다.

일반적인 태그(예: 1girl)만 학습하고 있으며, 아티스트나 애니메이션 작품 태그는 훈련하지 않습니다.

드문 태그는 심각한 결과를 초래할 수 있습니다.

인기 있는 태그는 일반적으로 품질이 더 높습니다.

예시: 시선을 바라보는, 상체, 반짝이는 피부, 애니메이션 스크린캡, 등...

효과가 너무 강하면 가중치를 낮추는 것이 좋습니다.

태그를 자동으로 생성할 수 있는 도구를 사용해 다양한 태그를 생성하는 것도 흥미로울 것입니다.

이것은 태그가 얼마나 잘 학습되는지 테스트하는 실험입니다.

제 훈련 품질은 낮지만, 예상보다 더 나쁘지 않게 학습하고 있습니다.

어떤 경우에서는 다른 모델로는 구현하기 어려운 것을 표현할 수 있을 것 같습니다.

T5를 세세하게 조정하지 않아도 일부 새로운 개념을 추가할 수 있는 것처럼 보입니다.

기본 모델은 과도하게 검열되지 않습니다. Cascade처럼 고노출 의상도 문제 없이 처리하며, 때로는 노출을 생성하기까지 합니다.

다른 모델들과는 느낌이 달라 흥미롭습니다.

데이터셋이 작기 때문에 아직 모든 태그를 인식하지는 못합니다.

자연어는 여전히 잘 작동하는 것 같습니다. 기본 모델과는 다른 흥미로운 측면이 있을 수도 있습니다.

정말 재미있습니다. 저는 ChatGPT에 주제를 주어 자연어 프롬프트를 생성하게 합니다.

■ 일부 이미지에서는 사실적이거나 AI적인 느낌이 강하게 나타납니다.

부정 프롬프트에 "realistic"을 추가하는 것이 좋을 수 있습니다.

반대로, 애니메이션이 아닌 다른 스타일을 시도해보는 것도 재미있을 수 있습니다.

원래 의도하지 않은 영역에서 새로운 발견이 이루어집니다.

완벽함을 기대하기보다는 유연한 태도가 좋습니다.

이 모델은 여전히 미성숙합니다. 깨진 결과물이 더 흥미로울 수 있습니다!

■ 스타일에 일관성이 없습니다. 품질이 낮고 고정된 설정이나 프롬프트도 없습니다.

● 기존 모델에 비해 장점이 없으며 데이터셋이 더 좁습니다.

● 불완전하고 매우 어려운 모델이지만, 관심이 있다면 시도해보세요.

● 인체가 깨지면 검열 때문이 아니라 제가 세세하게 조정한 품질이 낮아서 그런 것이므로 이해해 주세요! lol

향후 더 나은 모델로 개선하기 위해 계속 조정할 예정입니다!

● 병합은 문제가 없습니다. 흥미로운 결과가 있다면 공유해 주세요!

512px 모델을 차등 병합 방식으로 1024px 모델에 병합할 수 있습니다. 비율이 너무 크면 붕괴될 수 있지만, 개념과 스타일을 강화하는 데 유용할 수 있습니다.

■ 데이터셋 참고 사항:

● "realistic, figure, anime screencap"

이 세 가지 태그만 스타일 학습을 위해 의도적으로 훈련했습니다. 이 태그를 사용하면 특정 스타일이 강제됩니다.

"anime screencap"는 TV 애니메이션 스타일을 생성합니다.

● 부정 프롬프트에 "realistic, figure"를 넣으면 애니메이션 스타일이 강제됩니다.

그러나 다른 2D 스타일은 일관성이 없고 키워드에 따라 스타일이 달라집니다...

● 제 이해에 따르면, 성적 콘텐츠는 비주얼 노벨 게임 스타일을 따르며, 자연어는 AI 또는 2.5D 스타일에 더 가깝습니다.

"시선을 바라보는, 상체, 반짝이는 피부"와 같은 태그는 많은 이미지에 태그되어 있으므로 품질이 더 높을 가능성이 큽니다. AI 이미지 스타일에 더 가깝다고 느낍니다.

" blush"도 널리 사용되며 비주얼 노벨 게임과 일본 2D 아티스트의 플랫한 스타일을 띱니다.

● 제 데이터셋에는 비주얼 노벨 게임, 실제 인물, 피규어, 2.5D, 애니메이션 스크린캡, AI 이미지가 포함되어 있습니다.

이렇게 광범위한 데이터로 훈련했기 때문에 스타일이 태그와 연결되어 제어가 약간 어려울 수 있습니다...

● 배경 태그가 없으면 이미지가 흰색 배경이 될 수 있습니다.

이것은 주어진 프롬프트 외부의 요소가 이미지에 침투하기 어려워서 발생합니다.

짧은 프롬프트로 결과가 모호하고 흐릿해질 수 있습니다. 생성하려는 이미지 유형을 설명하는 핵심 키워드를 추가하세요.

● 원하는 풍경 유형에 대한 태그를 포함하는 것이 좋습니다. 아래 예시를 참고하세요.

또한, 그 태그에 기반해 배경에 어떤 요소가 있어야 할지 고려하여 추가하세요—예: 실내의 식물, 도시의 자동차 등.

배경이 주요 초점이 되고 캐릭터가 작게 나타나면, "solo focus" 같은 태그를 사용해 캐릭터를 주요 대상으로 강조할 수 있습니다. "landscape" 태그는 일반적으로 배경을 주요 초점으로 만듭니다. 캐릭터가 주요 대상이라면 사용하지 않는 것이 좋습니다.

"outdoors, scenery, landscape, indoors, bedroom, building, car, crowd, forest, beach, city, street, day, night, from above, from below"

■ 참고로, 간단한 ConfyUI 워크플로우와 onetrainer 훈련 설정 데이터도 공유하겠습니다.

ConfyUI를 추론에 사용하려면 "ExtraModels" 플러그인을 설치해야 합니다. 제가 사용하는 "vae"와 "T5"의 URL도 공유하겠습니다.

다른 WebUI에서 사용할 수 있는지는 모르겠습니다.

다른 사람들이 워크플로우를 공유했으므로 참고하는 것이 좋습니다.

■ ExtraModels

https://github.com/city96/ComfyUI_ExtraModels?tab=readme-ov-file#installation

■ vae

https://huggingface.co/madebyollin/sdxl-vae-fp16-fix/blob/main/diffusion_pytorch_model.safetensors

■ T5

https://huggingface.co/theunlikely/t5-v1_1-xxl-fp16/tree/main

SD3의 T5와 동일하므로, SD3의 8비트 T5도 사용할 수 있을 것입니다. 로드 속도가 더 빨라질 수 있습니다.

■ 기본 모델. 다른 해상도를 시도하려면 다운로드하세요.

https://huggingface.co/PixArt-alpha/PixArt-Sigma/tree/main

■ 1024px diffuser 모델은 훈련 중에 필요합니다. 이 모델을 기본 모델로 지정하여 훈련하세요.

https://huggingface.co/PixArt-alpha/PixArt-Sigma-XL-2-1024-MS

■ 512px 모델.

https://huggingface.co/PixArt-alpha/PixArt-Sigma-XL-2-512-MS

1024px 모델과 비교해 하드웨어 요구사항이 낮고 훈련 속도가 약 4배 빠르므로, 더 많은 사람들이 훈련할 수 있습니다. 트랜스포머 외에는 1024px 모델과 동일한 데이터를 사용하므로 위 URL에서 데이터를 전송하세요.

■ GPU에 여유가 있다면 T5를 GPU에 로드하면 추론 속도가 빨라지고 부담이 줄어듭니다.

T5를 4비트로 변환하면 낮은 사양에서도 추론이 가능합니다.

12GB GPU는 충분합니다. 4비트로 변환하면 8GB GPU에서도 로드할 수 있을 것입니다... 만약 안 된다고 해도 걱정하지 마세요! 시스템 RAM에 로드할 수 있습니다!

ComfyUI Manager로 ExtraModels를 설치한 후에도 오류가 발생하면,

ExtraModels URL의 지시사항에 따라

VENV를 활성화하고 요구사항을 다시 입력하세요.

T5를 4비트로 변환하려고 했을 때 bitsandbytes에서 오류가 발생했지만, 요구사항을 다시 입력하니 해결되었습니다.

저도 이 부분에 대해 잘 모릅니다. 설치에 대한 지원을 제공하기는 어려울 수 있습니다...

■ 저는 civitai 초보자입니다. 의견이 있다면 알려주시면 감사하겠습니다.

훈련에 능숙하지는 않지만, 가능한 많은 사람들과 PixArt의 잠재력을 공유하고 싶습니다.

PixArt-Sigma는 잠재력이 있습니다.

제 꿈은 더 많은 PixArt 모델을 보는 것입니다. 여러분이 훈련한 모델도 보고 싶습니다!

훈련 요구사항이 낮아 12GB만 있어도 충분합니다!

총 다운로드 수가 1,000회를 넘었습니다. 저의 미성숙한 모델에 관심을 가져주셔서 감사합니다! 많은 좋아요도 정말 감사합니다. m(_ _)m

흥미로운 반향에도 감사드립니다!

이 세세한 조정 자체는 특별히 뛰어나지 않지만, 제 훈련 정보가 PixArt에 관심 있는 분들께 도움이 되기를 바랍니다!

■ 아래는 제 훈련에 사용한 GPU와 훈련 시간 목록입니다. 훈련 시 참고하세요!

정확한 설정을 알고 싶다면 onetrainer 데이터를 다운로드하세요.

GPU: RTX 4060 Ti 16GB

■ 512px

배치 크기: 48

70,000 / 48 = 1,500 스텝

1 에포크: 5시간

15 에포크: 75시간

GPU 사용량: 13GB

이 배치 크기와 에포크 시간으로, SD1.5와 속도 차이가 크지 않다고 느낍니다. 빠릅니다.

512px 모델이 SD1.5의 후계 모델처럼 느껴집니다.

■ 1024px (테스트)

배치 크기: 12

70,000 / 12 = 5,833 스텝

1 에포크: 30시간

5 에포크: 150시간

GPU 사용량: 15GB

정확히 4배 길지 않은 이유는 배치 크기 차이 때문입니다.

저의 환경에서는 1024px SDXL 모델을 훈련하는 것이 불가능하다고 느껴 시도하지 않았고, 속도가 빠른지 느린지도 모릅니다. 하지만 배치 크기는 적절하다고 생각합니다!

■ 12GB로도 1024px 풀 훈련은 문제없습니다.

저는 16GB를 가지고 있어 배치 크기가 약간 더 큽니다.

배치 크기를 줄이면 VRAM 사용량이 크게 줄어듭니다.

배치 크기 1 또는 2라면 8GB에서도 충분할 수 있습니다.

저는 CAME 최적화기를 사용하며, 이는 GPU 사용량을 약간 증가시킵니다. 품질이 좋아서 좋아했습니다.

Adafactor 또는 AdamW8bit를 사용하면 VRAM 사용량이 크게 줄어듭니다.

텍스트 인코더가 T5이며 매우 크므로, 현재는 훈련에 많은 VRAM이 필요해 어려울 수 있습니다...

SD3의 등장으로 이 논의가 발전하고 훈련 방식이 확립될 것입니다. 그 전까지는 많은 VRAM이 필요할 수 있습니다...

풀 훈련 설정 가이드를 원한다면 이 내용을 참고하세요.

그러나 이 설정은 과적합을 유발하거나 PC 사양에 따라 어려울 수 있습니다.

이를 참고하여 자신에게 가장 적합한 설정을 찾아보세요.

저는 GPU 사용량을 줄이기 위해 BF16 훈련으로 전환해 동일한 설정을 달성했습니다. 그래서 현재 이를 사용하고 있습니다.

https://github.com/PixArt-alpha/PixArt-sigma/blob/master/configs/pixart_sigma_config/PixArt_sigma_xl2_img512_internalms.py

https://github.com/PixArt-alpha/PixArt-sigma/blob/master/configs/pixart_sigma_config/PixArt_sigma_xl2_img1024_internalms.py

주의!

■ Onetrainer로 훈련할 때 토큰 수가 120개로 제한될 수 있습니다.

태그 훈련의 경우, 태그 셔플링이 수행되므로 영향이 거의 없습니다.

정직하게 말해, 태그에 120 토큰을 사용해 본 적이 전혀 문제 없었습니다.

그러나 자연어의 경우, 캡션 길이가 중요하므로 의도치 않은 절단이 발생할 수 있습니다.

■ 관련 부분: "max_token_length=120" 이 값은 토큰 제한입니다.

https://github.com/Nerogar/OneTrainer/blob/23006f0c2543e52a9376b0557e7a78016d489acc/modules/dataLoader/PixArtAlphaBaseDataLoader.py#L244

■ xformers의 경우 256 토큰을 초과하면 오류가 발생했습니다. sdp의 경우 300 토큰까지는 문제 없었으나, 512 토큰에서는 생성된 이미지가 붕괴되었습니다.

더 많은 토큰이 반드시 더 나은 결과를 의미하지는 않습니다.

캐시 크기가 증가하므로, 비용 대비 효과가 크지 않다면 120 토큰으로도 충분할 수 있습니다.

품질 향상은 보장되지 않지만, 조사해볼 만한 가치는 있습니다.

확실하지 않으므로, 오류가 있다면 알려주세요!

질문이 있으시면 언제든지 문의해주세요!

일본어로 된 질문도 괜찮으니 부담 없이 말씀해주세요~

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.