T-ponynai3
세부 정보
파일 다운로드
이 버전에 대해
모델 설명
https://discord.gg/CXKvxTSfkm 디스코드 링크입니다. 중국어와 영어 채널이 두 개 있습니다.
451450868(발할라)
929721518(차단된 대체 그룹)
(58) T-ponynai3 - v6.5 | Stable Diffusion 모델 - 체크포인트 | Tensor.Art (tusiart.com)
이것은 중국 내 TusiArt의 온라인 생성 플랫폼으로, 무료로 이미지를 생성할 수 있습니다.
v6 사용 팁: “anime”라는 단어는 nai3의 스타일을 학습하는 데 사용됩니다. 사용 중 유럽 및 미국 스타일이 나타나면 이 단어를 사용하여 nai3 스타일을 안정화할 수 있습니다. 이는 과적합을 줄이기 위해 시도한 방법입니다.
V6 사용 팁: “anime”라는 단어는 nai3의 스타일을 학습하는 데 사용됩니다. 사용 중 유럽 및 미국 스타일이 나타나면 이 단어를 사용하여 nai3 스타일을 안정화할 수 있습니다. 이는 과적합을 줄이기 위해 시도한 방법입니다.
이 모델에는 이미 VAE가 내장되어 있으며, 별도로 VAE를 추가할 필요가 없습니다.
이 모델에는 이미 VAE가 포함되어 있으므로 추가 VAE를 설치할 필요가 없습니다.
가장 이상적인 이미지 생성 전략은 고해상도로 직접 출력하는 것이 아니라, 중간 해상도에서 고화질 복원을 사용하는 것입니다.
가장 이상적인 생성 전략은 고해상도로 직접 출력하는 것이 아니라, 중간 해상도에서 고화질 복원을 사용하는 것입니다.
v5 버전에는 4개의 새로운 스타일이 추가되었으며, style_1부터 style_4를 사용하여 이미지 세부 사항을 미세 조정할 수 있습니다(이론상으로는 그렇지만, 실제 효과는 약간 신비합니다)
V5 버전에는 4개의 새로운 스타일이 추가되었으며, style_1부터 style_4를 사용하여 이미지 세부 사항을 미세 조정할 수 있습니다(이론상으로는 그렇지만, 실제 효과는 약간 신비합니다)
이 모델은 ponyv6을 기본 모델로 학습한 LoRA를 완벽히 지원하며, ani3, sdxl1.0의 LoRA도 일정 수준에서 호환됩니다.
이 모델은 ponyv6을 기본 모델로 학습한 LoRA를 완벽히 지원하며, ani3, sdxl1.0의 LoRA도 일정 수준에서 호환됩니다.
v4.1 기반의 이미지 인페인팅 테스트(이전 버전에서 간과된 부분입니다)
v4.1 기반의 이미지 인페인팅 테스트(이전 버전에서 간과된 부분입니다)




pony는 신입니다. 호환성 최고. 이 모델은 ani, pony의 LoRA를 모두 지원합니다.
필수 전제 효과 텍스트는 ponydiffusion과 동일합니다
긍정적: (score_9,score_8_up,score_7_up,score_6_up,score_5_up,score_4_up)
또는 (score_9,score_8_up,score_7_up)
부정적 추가 가능:
부정적: (score_4,score_3,score_2,score_1),
또는 일반적인 nai계 부정적 키워드 추가 가능, 예:
부정적: worst quality, bad hands, bad feet
hope u like it ᕕ(◠ڼ◠)ᕗ base on nai3 and ponyv6
학습 참고사항: v1는 94장, v2는 119장, v3는 348장, v3.5는 474장의 nai3로 생성된 이미지를 사용하여 LoRA를 학습하고, 이를 기본 모델에 통합해 미세 조정했습니다. ponyv6이 지원하는 모든 아티스트 태그를 지원하며, 두 개 이상의 아티스트 태그 사용은 배경 파괴를 유발할 수 있습니다. 현재 Genshin Impact 캐릭터 생성이 가능함을 확인했으며, 그 외는 아직 확인되지 않았습니다. 이 모델에 대한 제 테스트도 많지 않지만, nai3의 스타일을 재현하는 데 놀라움을 느꼈습니다. 기본 모델은 T-anime-xl, ponyv6 및 ani3의 융합 모델이며, 아직 공개되지 않았습니다.
학습에 사용된 그래픽카드는 제 개인 3090이며, v1부터 v3까지 각각 7시간, 12시간, 35시간, 47시간 사용했습니다.
학습 참고사항: v1은 94장, v2는 119장, v3은 348장, v3.5는 474장의 nai3로 생성된 이미지를 사용하여 LoRA를 학습하고, 이를 기본 모델에 통합해 미세 조정했습니다. ponyv6이 지원하는 모든 아티스트 태그를 지원하며, 두 개 이상의 아티스트 태그 사용은 배경 파괴를 유발할 수 있습니다. 현재 Genshin Impact 캐릭터 생성이 가능함을 확인했으며, 그 외는 아직 확인되지 않았습니다. 이 모델에 대한 제 테스트도 많지 않지만, nai3의 스타일을 재현하는 데 놀라움을 느꼈습니다. 기본 모델은 T-anime-xl, ponyv6 및 ani3의 융합 모델이며, 아직 공개되지 않았습니다.
학습에 사용된 그래픽카드는 제 개인 3090이며, v1부터 v3까지 각각 7시간, 12시간, 35시간, 47시간 사용했습니다.
v1
재미있는 시도
재미있는 시도
v2
v1에 비해 학습 데이터셋을 약간 늘리고 약 30시간의 파라미터 테스트를 거쳤지만, 학습된 스타일은 여전히 약간의 과적합이 나타났습니다. 예: 이중 배꼽과 헤어가 어지럽습니다.
v1에 비해 학습 데이터셋을 약간 늘리고 약 30시간의 파라미터 테스트를 거쳤지만, 학습된 스타일은 여전히 약간의 과적합이 나타났습니다. 예: 이중 배꼽과 헤어가 어지럽습니다.
v3
v3의 신체는 v2보다 훨씬 나아졌습니다. footfocus에 대한 이해도가 높아져 시각적 충격이 큰 발을 생성할 수 있으며, 더 어려운 원근법도 구현됩니다. v3의 머리카락은 AI 감이 v2보다 약해졌습니다. v2의 학습 데이터가 너무 적었기 때문에 머리카락 부분이 약간 과적합되었고, v2에서 가끔 나타나던 이중 배꼽도 사라졌습니다. 전반적으로 v2 대비 3배에 달하는 학습 데이터셋과 더 큰 dim 파라미터 덕분에 스타일이 더 자연스럽게 학습되었고, 긴 프롬프트에서의 표현력도 v2보다 훨씬 우수합니다.
v3의 신체는 v2보다 훨씬 나아졌습니다. footfocus에 대한 이해도가 높아져 시각적 충격이 큰 발을 생성할 수 있으며, 더 어려운 원근법도 구현됩니다. v3의 머리카락은 AI 감이 v2보다 약해졌습니다. v2의 학습 데이터가 너무 적었기 때문에 머리카락 부분이 약간 과적합되었고, v2에서 가끔 나타나던 이중 배꼽도 사라졌습니다. 전반적으로 v2 대비 3배에 달하는 학습 데이터셋과 더 큰 dim 파라미터 덕분에 스타일이 더 자연스럽게 학습되었고, 긴 프롬프트에서의 표현력도 v2보다 훨씬 우수합니다.
v3.5
이 버전에서는 품질 평가어에 대한 요구사항이 덜 엄격합니다. pony의 미적 점수 평가어를 사용하지 않고도 이미지를 생성할 수 있습니다. 테스트 중 가끔 무의미한 색상 블록이 생성되는 경우가 있는데, 이 경우 미적 점수 평가어를 1.5 일반 품질 평가어로 교체하면 됩니다. 예: score_1, score_2를 worst quality로 변경합니다. 이 버전에서는 학습 데이터셋을 약 150장 추가하여 스타일의 균형과 풍부함을 향상시키고, 학습 곡선의 초기 기울기를 낮춰 이 모델이 과적합되지 않도록 했습니다. 그 결과, 더 많은 LoRA와 기발한 프롬프트에 대한 호환성이 향상되었습니다. 전반적으로 이 버전은 v3보다 훨씬 자유롭고, 남성 캐릭터 표현력도 v3보다 훨씬 뛰어납니다. 특정 프롬프트에서의 색상과 스타일도 과도하게 화려하거나 기름진 느낌이 덜합니다.
이 버전에서는 품질 평가어에 대한 요구사항이 덜 엄격합니다. pony의 미적 점수 평가어를 사용하지 않고도 이미지를 생성할 수 있습니다. 테스트 중 가끔 무의미한 색상 블록이 생성되는 경우가 있는데, 이 경우 미적 점수 평가어를 1.5 일반 품질 평가어로 교체하면 됩니다. 예: score_1, score_2를 worst quality로 변경합니다. 이 버전에서는 학습 데이터셋을 약 150장 추가하여 스타일의 균형과 풍부함을 향상시키고, 학습 곡선의 초기 기울기를 낮춰 이 모델이 과적합되지 않도록 했습니다. 그 결과, 더 많은 LoRA와 기발한 프롬프트에 대한 호환성이 향상되었습니다. 전반적으로 이 버전은 v3보다 훨씬 자유롭고, 남성 캐릭터 표현력도 v3보다 훨씬 뛰어납니다. 특정 프롬프트에서의 색상과 스타일도 과도하게 화려하거나 기름진 느낌이 덜합니다.
v4
이 버전은 798장의 이미지를 학습 자료로 사용했고, 3090 GPU로 90시간 학습했습니다. v3.5 대비 특정 프롬프트에서의 구도와 특정 부위 표현이 더 정확해졌습니다. 예: 손가락의 겹침 현상 및 일부 신체 부위의 중첩 문제. 프롬프트 측면에서는 여전히 중간 길이 및 약간 짧은 프롬프트를 주요 학습 목표로 설정했습니다. 어차피 누구도 품질 좋은 이미지를 생성하려면 긴 프롬프트를 작성하고 싶지 않죠? pony의 미적 점수 평가어를 제거한 후, v3.5 대비 이미지 품질이 크게 향상되었습니다. 생성된 이미지는 입체감보다 평면적인 느낌이 강하며, 고전적인 애니메이션 스타일에 더 가까워졌습니다. ponyv6을 미세 조정하는 데 필요한 이미지 수에 대한 테스트가 거의 끝났고, 다음 단계는 프롬프트 학습 라벨에 초점을 맞춰 pony의 제한된 단일 학습 자료 내에 더 많은 조절 가능한 프롬프트를 추가하는 것입니다(예: 미적 점수를 포함). 현재 학습 로직은 여전히 주류 품질어를 사용해 pony의 미적 점수 평가어를 덮어씌우고 있습니다. 또한, 장면 및 발 관련 학습 자료를 계속 추가할 예정입니다(v4의 발 학습 자료는 약간 부족한 것 같습니다).
이 버전은 798장의 이미지를 학습 자료로 사용했고, 3090 GPU로 90시간 학습했습니다. v3.5 대비 특정 프롬프트에서의 구도와 특정 부위 표현이 더 정확해졌습니다. 예: 손가락의 겹침 현상 및 일부 신체 부위의 중첩 문제. 프롬프트 측면에서는 여전히 중간 길이 및 약간 짧은 프롬프트를 주요 학습 목표로 설정했습니다. 어차피 누구도 품질 좋은 이미지를 생성하려면 긴 프롬프트를 작성하고 싶지 않죠? pony의 미적 점수 평가어를 제거한 후, v3.5 대비 이미지 품질이 크게 향상되었습니다. 생성된 이미지는 입체감보다 평면적인 느낌이 강하며, 고전적인 애니메이션 스타일에 더 가까워졌습니다. ponyv6을 미세 조정하는 데 필요한 이미지 수에 대한 테스트가 거의 끝났고, 다음 단계는 프롬프트 학습 라벨에 초점을 맞춰 pony의 제한된 단일 학습 자료 내에 더 많은 조절 가능한 프롬프트를 추가하는 것입니다(예: 미적 점수를 포함). 현재 학습 로직은 여전히 주류 품질어를 사용해 pony의 미적 점수 평가어를 덮어씌우고 있습니다. 또한, 장면 및 발 관련 학습 자료를 계속 추가할 예정입니다(v4의 발 학습 자료는 약간 부족한 것 같습니다).
v4.1
짧은 시간 안에 또 새로운 버전을 내놓게 되어 사용자 여러분께 사과드립니다. 이는 컴퓨터 메모리와 네트워크 속도에 큰 부담을 줍니다. O_O
이 새로운 버전은 v4의 신체 부위 최적화 버전입니다. v4의 신체 표현이 너무 제어하기 어려웠고, 손가락의 완벽도도 제가 최근 테스트한 기대치에 미치지 못했습니다. 그래서 제 친구 木猫猫猫와 함께 v4를 수정하고 개선하여, v4.1의 신체 표현이 제 기대에 부합하도록 만들었습니다. 동일한 파라미터 하에서 v4.1이 v4보다 얼마나 개선되었는지 명확히 보여주기 위해 몇 장의 XY 그래프를 공개하겠습니다.
이 새로운 버전은 v4의 신체 부위 최적화 버전입니다. v4의 신체 표현이 너무 제어하기 어려웠고, 손가락의 완벽도도 제가 최근 테스트한 기대치에 미치지 못했습니다. 그래서 제 친구 木猫猫猫와 함께 v4를 수정하고 개선하여, v4.1의 신체 표현이 제 기대에 부합하도록 만들었습니다. 동일한 파라미터 하에서 v4.1이 v4보다 얼마나 개선되었는지 명확히 보여주기 위해 몇 장의 XY 그래프를 공개하겠습니다.
v5
이 버전은 학습 데이터셋을 줄였습니다. v4의 실패 이후, 저는 작은 메모리 사용량을 기반으로 제 아이디어를 테스트하는 또 다른 프로젝트를 시작했습니다. 바로 T-ponynai3에 적합한 네 가지 서로 다른 스타일의 LoRA를 학습하는 것이었습니다. 물론 원본 모델도 Civitai에 업로드했습니다. 호환성 테스트 후, 이 네 가지 스타일을 T-ponynai3-v5에 추가하여 학습했습니다. 놀랍게도 v5의 선 텍스처는 한 단계 향상되었습니다. 아마도 매우 세밀한 데이터셋을 학습했기 때문인 것 같습니다. 이 네 가지 스타일을 구분하기 위해 style_1부터 style_4라는 프롬프트를 사용했으나, 이유는 불분명하지만 이 네 가지 스타일은 각각 분리되지 않았고, 오히려 효과가 약해 원래의 스타일과 잘 융합되었습니다. 다중 스타일 지원이라는 목표는 달성하지 못했지만, 원래의 nai3 스타일의 텍스처를 한 단계 끌어올리는 데 성공했습니다. 다음 버전에서는 더 나아갈 수 있을 것입니다. (저는 게임을 매우 좋아하는데, 매번 학습할 때 컴퓨터 게임을 못 하는 것이 정말 힘듭니다.)
v5 버전의 몇 가지 문제를 정리합니다.
LoRA 호환성, 신체, 흐릿한 눈 문제. LoRA 호환성은 이번 학습에서 최종 가중치가 너무 높아 발생한 문제로, 일부 상황에서 과적합이 나타납니다. 이 최적화 버전은 해당 가중치를 낮춘 버전으로, 신체 파괴율과 일부 LoRA의 호환성이 향상될 것입니다. v4.1 기반 학습 스타일 LoRA를 사용한 비교 이미지를 몇 장 공개합니다. 눈 흐릿함 문제는 style_1 학습 때문입니다. 원본 데이터셋의 눈이 흐릿했기 때문이며, style_3 또는 4를 사용하면 개선할 수 있습니다.
볼륨 라이트의 노출 문제. 테스트 중 이 문제를 경험하지 못했지만, noise offset 학습 매개변수를 사용했기 때문에 이 모델이 빛 관련 프롬프트에 민감해졌습니다. 이로 인해 동일한 가중치의 빛 프롬프트가 더 밝은 결과를 낳습니다. 가중치를 높이기 위해 괄호나 숫자를 사용하지 않는 것을 권장합니다. sdxl의 프롬프트 민감도를 고려해 동일한 프롬프트를 여러 번 반복해보세요. 이 방법은 극단적인 결과를 피할 수 있습니다. 동시에 이 매개변수는 프롬프트가 적을 때 생성 결과가 노란색으로 나타나는 문제를 해결하기 위해 사용되었습니다. 비교 이미지를 몇 장 공개합니다.
모델 복잡도 감소 문제. 이론적으로도 실제 테스트에서도 v5는 이전 버전보다 더 깔끔하고 다채로운 모델이어야 합니다. 특정 프롬프트 하에서 더 정확한 표현력을 얻을 수 있을 것입니다. 비교를 위해 몇 장의 비교 이미지를 실행했습니다. 이번 학습 데이터셋은 지나치게 복잡한 자료를 사용하지 않았습니다. 지나치게 복잡한 이미지는 과적합으로 이어질 수 있으며, 이는 여러 세부 사항의 손실을 초래했을 것입니다.
목적: 이전 버전과 충분히 다른 모델을 만들고 싶습니다. 이전 버전과 거의 동일한 모델을 출시하고 싶지 않습니다. 이번 사용자 피드백은 훌륭한 실험 기회였고, 저 혼자만으로는 실험 비용이 컸을 것입니다. 다음 버전에서는 다양한 스타일의 학습 자료량을 늘려 각기 다른 스타일이 잘 융합되고 분리되도록 할 예정입니다. 특정 프롬프트를 사용해 스타일을 전환할 수 있도록 하려면 새로운 학습 기술이 필요할 수도 있습니다. 여러분의 피드백에 감사드립니다!
v5.5
이 버전은 5.1에 대한 최적화 버전으로, 눈의 세부사항, 발의 자연스러움, 프롬프트에 대한 민감도, 사지 중첩의 합리성을 개선했습니다. 그러나 화면의 명암 처리는 여전히 제 기대에 미치지 못했습니다. 제 테스트에서 style_4를 사용하면 화면이 더 어두워지며, 어두운 결과를 생성하려면 (dark light, no light, very dark)과 같은 태그를 사용하는 것을 권장합니다. 이는 일시적인 해결책일 수 있습니다. 직접 학습시킨 결과가 그렇게 좋지 않아 추가 학습을 몇 번 진행했고, 그 과정에서 시간이 조금 낭비되었습니다. 추가로 문제가 있다면 꼭 댓글에 알려주세요!
v6
이 버전은 이전 버전에 비해 더 많은 장면 소재를 추가하여 더 아름다운 장면 이미지와 더 나은 장면 구성을 생성할 수 있으며, v5.5에서 존재했던 손가락 문제를 개선하고, 일부 프롬프트 하에서 발가락의 문제도 개선했습니다.
새 버전 팁: nai3 스타일을 더 잘 활용하기 위해, nai3 스타일을 'anime' 프롬프트에 통합했습니다. nai3 스타일이 부족하다고 느껴질 때 'anime' 프롬프트를 추가해보세요.
모델에 대한 어떤 질문이든 꼭 알려주세요! 댓글이나 개인 메시지 모두 환영합니다.
v6.5
v6.5는 v6.1의 일부 과적합 문제를 완화하기 위해 개발되었습니다. 여러분의 피드백을 바탕으로 모델의 단점을 확실히 파악할 수 있었고, 모델 테스트와 지원에 감사드립니다! 이 버전은 일부 프롬프트가 무효인 문제를 수정하고, 손과 사지의 왜곡을 개선했습니다. 동시에 일부 노이즈와 심도 문제도 개선되었습니다. 전반적으로는 모든 면에서 업그레이드되었지만, 환경 효과는 약간 줄어든 버전입니다.
















