2D Gold Fish | High-Res Anime XL
세부 정보
파일 다운로드
이 버전에 대해
모델 설명
이 모델은 Seele-NoobAI-SDXL v2.1의 작은 세부 조정 및 LoRA 병합 버전입니다. 이 모델과 Seele은 Noob 1.0 Vpred을 기반으로 합니다.
이 모델의 목표는 고품질의 2D 평면 애니메이션과 배경을 생성하는 것입니다.
이 모델을 다른 모델과 구분짓는 주요 특징은 2048x2048까지 원본으로 이미지를 생성할 수 있는 능력입니다. 위에 게시된 모든 이미지는 원본으로 생성되었습니다. 확대, 후처리, 인페인팅은 전혀 사용하지 않았습니다.
왜 이 모델을 사용해야 할까요?
평면/애니메이션 스크린캡 스타일의 진정한 2D 애니메이션을 생성할 수 있습니다.
일러스트 수준의 배경을 생성할 수 있습니다.
2048x2048까지 이미지를 생성할 수 있으며, 원하지 않는 한 확대할 필요가 없습니다.
Noob 기반이며 V-pred이므로, Noob의 모든 지식과 V-pred의 장점을 활용할 수 있습니다.
Noob/Illustrious LoRA는 대부분 잘 작동합니다(많이 테스트하지는 않았습니다).
어디서 문제가 발생할까요?
손과 발은 성공과 실패가 반복됩니다. 2048x2048 또는 비권장 해상도에서 생성할 때, 대부분의 경우 문제가 발생합니다. 2D 스타일에 대한 편향으로 인해 일부 아티스트 및 LoRA가 영향을 받습니다. 일부 배경 유형은 특히 좋지 않습니다. 예를 들어 도시나 실내 환경이 그렇습니다.
어떻게 사용해야 할까요?
프롬프트는 Seele의 형식을 따릅니다. 이미지를 설명하기 위해 프롬프트를 Danbooru 태그로 시작하세요. 프롬프트 마지막에 다음을 추가하세요:
masterpiece,best quality,absurdres,highres,high resolution,
네거티브 프롬프트는 단순히 다음만 필요합니다:
worst quality
여기에는 이미지 품질을 향상시키는 데 도움이 될 것 같은 몇 가지 네거티브 추천이 있습니다.
나쁜 원근법: 이 태그는 배경에 약간 도움이 됩니다.
너무 많은 손가락, 나쁜 손: 이 태그와 다른 손 관련 태그는 손을 교정하려 할 때 손에 강조를 두는 데 도움이 됩니다.
고리 모양 눈: 때때로 눈동자 주변에 고리가 생깁니다. 이 태그를 네거티브에 넣으면 이를 방지할 수 있습니다.
평면 색상: 학습에 사용된 재료로 인해 2D 스타일이 지나치게 단순화될 수 있습니다. 2D 스타일을 강화하려면 이 태그를 네거티브에 넣으세요.
미니멀리즘: 평면 색상 태그와 마찬가지로 이 태그도 2D 스타일을 강화하지만 훨씬 더 극심합니다. 이 태그와 평면 색상 태그를 함께 사용하면, 주요한 평면 2D 재료에 가려졌던 학습 재료의 그라데이션 스타일을 끌어낼 수 있습니다.
이 모델에서 어떻게 프롬프트를 작성해야 할까요?
이 모델은 V-pred Noob 기반 모델입니다. 즉, 명시적으로 프롬프트를 작성하지 않으면 원하는 결과가 거의 나타나지 않습니다. Danbooru 태그를 매우 신중하게 사용해야 합니다. 예제 이미지를 자세히 분석하고 Danbooru 태그에 익숙해지세요. 서로 모순되거나 의미 없는 태그 조합은 나쁜 결과를 초래합니다.
이것은 특히 배경에서 두드러집니다. 예를 들어, "숲"이라는 단어만으로 인유샤의 산고 같은 QT 1소녀를 프롬프트하면 배경이 나쁘게 생성됩니다. 그 이유는 "숲"이라는 태그가 너무 포괄적이기 때문입니다. 대신 "나무, 풀, 바위, 이끼, 잎, 나무 그늘"과 같은 숲 관련 세부 태그를 사용하세요. 우리에게는 산고라는 워ifu뿐만 아니라 배경에도 강조를 두어야 합니다!
파라미터:
샘플링: Euler Ancestral CFG++ 또는 Euler/Ancestral
스케줄 유형: DDIM
스텝: 48 [44-60] (이하로 설정하면 품질이 떨어집니다)
CFG 스케일: 1(CFG++용), 5(일반용)
VAE: SDXL Anime VAE Dec-only B3(내장)
추가 정보는 여기를 참조하세요.
권장 해상도
1568x2048, 1408x2048, 1728x2048, 1024x2048
더 많은 해상도를 사용할 수 있지만, 저는 위 해상도를 가장 많이 사용합니다. 이 해상도들은 손과 발의 오류를 최소화합니다. 물론 기본 XL 해상도(또는 다른 해상도)를 사용할 수도 있지만, 더 높은 품질의 결과를 활용하지 않는다면 왜 이 모델을 사용하려는 것입니까?
말할 필요도 없지만, 이러한 높은 해상도와 높은 스텝 수를 사용하면 생성 시간이 크게 늘어납니다. 저는 5090 GPU에서 1568x2048 해상도로 이미지를 생성하는 데 약 25초가 걸립니다. 이미지 품질이 시간의 희생을 가치 있게 만드는지 스스로 판단해야 합니다.
왜 이 모델을 만들었나요?
처음에는 또 다른 체크포인트를 만들거나 공개할 계획이 없었습니다. 그러나 Seele을 접한 후 흥미를 느꼈습니다. 처음에는 MeMax 자료를 사용한 LoRA로 시작했습니다. 결과는 만족스러웠지만 배경이 너무 나빴습니다. 그래서 Worldly 자료를 사용해 LoRA를 훈련했지만, 배경은 거의 개선되지 않았습니다.
이 시점에서, 왜 캐릭터 스타일만큼 배경을 효과적으로 조정할 수 없을까 생각했고, 갑자기 떠올랐습니다. 모델 자체를 세부 조정해보면 어떨까? 저는 실제로 세부 조정을 해본 적 없었지만, LoRA와 크게 다를 것 같지 않았습니다.
수많은 날의 반복 끝에, 마침내 작은 세부 조정 모델을 완성했습니다. 저는 MeMax 데이터를 거의 전부 사용했고, Worldly와 CoMix의 배경 자료도 함께 사용했습니다.
그러나 결과는…… 별로 눈에 띄지 않았습니다.
고민 끝에, 세부 조정 모델 위에 새로운 LoRA를 훈련하기로 결정했습니다. 기본적으로 MeMax와 Worldly와 동일한 자료를 사용했습니다. 그리고 그 차이는 하늘과 땅처럼 컸습니다. 애니메이션 스타일이 더 좋아졌을 뿐 아니라, 배경도 크게 향상되었습니다.
그때 저는 마치 금광을 발견한 것 같았습니다. 그 후, 저는 이 모델의 제작에 집중했습니다. 이 여정 덕분에 MeMax와 Worldly 데이터셋에 많은 변경과 개선을 가했습니다. 위에 보이는 결과는 수주간의 훈련, 테스트, 실패의 총결산입니다. 완벽하지는 않지만, 이 정도로 만들어낸 것에 매우 기쁩니다.
마무리 의견
놀라운 Seele 모델을 만든 waw1w1에게 큰 감사를 드립니다. 이 모델이 존재하지 않았다면, 저는 전혀 시도하지 않았을 것입니다. 이 모델은 기반된 모든 것과 동일한 라이선스를 따릅니다. 책임감 있게 사용해주세요.




















