NeoSD

세부 정보

파일 다운로드

모델 설명

개요

이 전체 FT는 SD1.5 모델을 근본적으로 개선하는 것을 목표로 합니다. 다중 캐릭터 표현, 포즈 다양성, 안정적인 신체 구조 및 추가 정보를 포함합니다.

기반 모델은 NAI2의 요소를 통합한 애니메이션 스타일 모델이며, 수천 장의 이미지를 반복적으로 소규모 FT하여 버전 1을 목표로 합니다. 몇 가지 기반 모델을 원료로 생성한 후, 학습 방식을 개선하면서 최종적으로 통합하고 조정할 계획입니다.

고해상도 출력은 일부 지원되지만, 절대 권장하지 않습니다.

특히 언급되지 않았지만, 모든 샘플은 LCM을 통해 저해상도 출력되었습니다.

참고: 이는 SD1.5이므로, 먼저 출력하고자 하는 내용을 명시하세요. 대부분의 경우 품질 프롬프트는 단순히 방해 요소일 뿐입니다.

현재 저는 다섯 종류의 FT 자료를 보유하고 있습니다. 이제 FT 모델 자료 사용을 중단하고, 이 다섯 가지를 기존 자료와 결합하여 새로운 모델을 탐색할 계획입니다.

Qwen의 출력은 특별히 흥미롭지는 않지만 안정적이며 잘 붕괴되지 않기 때문에, 기본으로 0.3(확장이 필요할 수 있음)을 사용하고, 0.4와 같은 NSFW 요소로 보완할 계획입니다.

기존 모델과 결합하면 TeatimeDream Neo와 유사한 결과가 생성됩니다.

ver.0.32L

0.32의 불안정한 부분을 보완하기 위해 LoRA를 사용해 보았습니다. 애니메이션 이미지는 이제 상대적으로 안정적이지만, 하나의 LoRA에 많은 캐릭터 요소를 추가했기 때문에 NSFW 요소가 약간 더 증가했습니다. 이 LoRA는 오랫동안 사용해왔던 것 중 하나지만, CIVITAI의 애니메이션 그림과 캡션을 크롤링하여 생성했기 때문에 NSFW 요소가 지나치게 강한 문제가 있었습니다. 사용 전 레이어를 조정했으나, 이를 교정하기 위해 지나치게 강하게 적용했습니다. 그럼에도 일부 이미지는 여전히 애니메이션 그림처럼 보이지 않았습니다.

큰 문제는 아닙니다. 이상적으로는 여러 LoRA를 사용해 조정해야 하지만, 이 방식은 몇 가지 흥미로운 이미지를 생성합니다.

ver.0.32

0.31 버전의 데이터를 점검하던 도중 일부 캡션 데이터가 완전히 누락되어 있음을 발견했습니다.

일부 이미지의 확장자, 또는 보다 정확히 말해 참조 파일 자체의 형식이 잘못되었습니다. 문자 코드 관련 사소한 문제들을 수정했다고 생각했는데, 일부 영역은 잘 작동하지만 일부는 전혀 작동하지 않습니다. 또한 수렴 속도가 이전보다 낮습니다. 약 150 에포크 후에 안정화될 것으로 예상되지만, 여기서는 90 에포크의 데이터를 추출했습니다.

기본적인 문제들이 별로 개선되지 않고 품질도 향상되지 않았다는 것이 실망스럽지만, 이 버전은 이전 데이터의 오류를 수정했습니다.

Ver. 0.31

지난번에는 주로 Qwen-image의 출력을 사용하는 0.3 시리즈를 기반 모델로 삼겠다고 언급했으나, 0.3은 이미지 자원이 극히 부족했기(Qwen-image는 시드를 변경해도 거의 변화가 없음) 더 많은 자원을 추가하고 기반 모델을 다시 구성해 버전 0.31을 만들었습니다. Qwen 이미지는 안정적이었지만 약간 지루했고, 다양성을 좀 더 추가하려 노력했습니다.

실제로 버전 0.3은 이전에 없던 높은 수렴 속도로 학습되었지만, 자원을 더 추가하면서 예상보다 덜 안정적으로 되었습니다. 신체 구조와 손가락이 매우 불안정해졌습니다.

더 예상치 못한 점은 이미지 자체가 불안정하다는 것입니다. 안정적인 애니메이션 이미지를 생산하려 했지만, 때로는 반실사적인 모습으로 나오곤 합니다. masterpiece나 best quality 같은 프롬프트를 제거해 보세요(어떤 경우엔 추가하는 것이 더 나을 수도 있음). 이는 기반 모델 또는 캡션에 남아 있는 문제 때문일 수 있습니다.

이와 같은 이유로, 0.32 및 0.33 버전의 출시가 곧 이어질 것으로 보입니다.

그러나 0.31은 이전 SD1.5 모델에서는 볼 수 없었던 이미지를 생성할 수 있는 기반 모델 자료라고 생각합니다. 그러나 FT 후 조정되지 않은 상태이므로, 단독 사용은 추천하지 않습니다.

일반적으로 이 샘플은 512x768 픽셀 LCM 출력을 그대로 보여줍니다. 중간 거리의 얼굴은 명백히 HiRes.Fix나 Adetailer로 처리되어야 하지만, 별도의 처리는 하지 않았습니다.


ver.0.5

이 모델은 큰 움직임을 포함하고 있습니다. 수렴은 나쁘지 않았지만 이미지가 불안정했기 때문에 100 에포크까지 학습했습니다.

ver.0.4

이 버전은 이전보다 다른 자료와 더 많은 이미지를 사용했습니다. 약 10,000장의 이미지를 사용했으며, 60 에포크가 소요되었습니다.

학습 수렴 속도가 느려 신체 구조와 세부 사항에 영향을 미쳤지만, 잘 나오면 아름다운 이미지를 생성합니다. 0.1 및 0.2와 유사한 시리즈의 자료를 사용하므로 유사한 이미지를 생성합니다.

각 프롬프트에 대한 반응에 명확한 강점과 약점이 있으며, 몇 가지 특이한 특성도 있습니다. 주로 자료용이므로, 통합 시 어떻게 활용할지 고려할 예정입니다.

ver.0.3

이 모델은 Qwen-image의 출력을 기반으로 합니다. 이전 버전도 있었으나, SFW 요소까지 포함해 거의 웃길 정도로 Qwen 스타일을 유지했습니다. ver.0.3 자체는 이러한 요소들을 제거하고 재생성했기 때문에 Qwen 느낌이 다소 약해졌습니다. 이번에는 Qwen 환경의 문제로 VAE에 문제가 생겨 손가락 정확도와 색상 재현도가 저하되었습니다. 그러나 여전히 SD1.5에 대한 새로운 자료로 나쁘지 않다고 생각합니다.

ver.0.1+0.2K

단순한 트윅만으로는 귀엽게 나오지 않아, 캐릭터를 귀엽게 만드는 LoRA(일반적으로 강한 부작용이 있어 사용하지 않음)를 추가했습니다. 작동한다면 그대로 사용할 수 있지만, 손가락과 다른 부분이 쉽게 깨집니다. Adetailer에서 얼굴에만 적용하는 것이 나을까요? (LoRA만 출시하는 것으로 충분했을까요?)

ver.0.1+0.2

병합 예제입니다. ver.0.1의 구성과 ver.0.2의 캐릭터 및 회화 스타일을 결합하고, 제 평소 LoRA 도구를 가볍게 적용했습니다. 중간 거리 얼굴과 배경의 세부 사항에 초점을 맞췄습니다. 대충 다듬은 부분만 보완했지만, 일반적으로 사용하기에 충분하다고 생각합니다.

ver.0.2_38

이 버전은 ver.0.1과 완전히 다른 자료 시리즈를 사용하여 제작되었습니다(비슷한 이미지가 많습니다). 이 버전은 캐릭터와 애니메이션 일러스트 측면에서 더 안정적이지만, 포즈의 다양성은 ver.0.1보다 떨어집니다.


ver.0.1_41

작동은 괜찮았으나 100 에포크가 과도하다고 느껴 41 에포크로 재작성했습니다. 자료를 수정하고 캡션을 변경했으며, 에포크를 줄인 대신 자료량을 1.5배 늘렸습니다(약 4,500장). 애니메이션 아트 스타일을 일관되게 통합하려 노력했습니다. 세부 사항은 다소 거칠고 손가락도 약간 불안정합니다. 얼굴 세부 사항은 HiRes.Fix나 LoRA로 쉽게 보정할 수 있으므로 문제되지 않습니다. 더 많은 에포크가 필요할까요? 오히려 에포크를 늘리면 신체 구조가 불안정해지는 경향이 있습니다.


ver.0.1

이 모델은 애니메이션 스타일 모델로, 100 에포크 동안 완전히 세부 조정된 결과입니다. 이것은 제가 두 번째로 수행한 전체 FT 모델입니다.

첫 번째 시도보다는 더 안정적으로 느껴지지만, 전체 마무리가 아직 완성되지 않았습니다. 병합하여 조정하는 것이 더 나을 것 같지만, 우선 단독 FT를 몇 번 더 시도해 보겠습니다.

돌아보면, 왜 EtudeFT가 이리 어려웠을지 의문이 듭니다. 아마 기반 모델에 문제가 있었던 것 같습니다.

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.