당신의 사랑스러운 꼬리~ NAI3 전체 경험을 준비하셨나요? (실제로 더 나은)

180만 장의 애니메이션 이미지 데이터셋으로 Pony Diffusion 6을 완전히 미세 조정한 결과::

원래 Pony 및 기타 모델에서 누락된 (오픈소스 기준에서) 비교할 수 없는 지식
8,000명 이상의 아티스트 스타일 (와일드카드), 몇 가지 일반적인 스타일
단순히 프롬프트만으로 수천 개의 캐릭터
완전한 색상 팔레트, 완전한 밝기 범위 (예시 1, 예시 2), 훌륭한 기본 미적 감각
다른 곳에서 흔히 보이는 성가신 워터마크 없음
독특한 각도, 단축 표현, 풀바디 와이드샷 또는 극도의 클로즈업 문제 없이 구현, 추가로 훌륭한 배경
가장 귀엽고 사랑스러운 것부터 가장 깊고 어두운 환상까지
여우/고양이/개/드래곤/... 웨이프/허스밴도의 꼬리 개념에 최적화된 최고 성능

이 미세 조정은 기본 애니메이션 모델을 만들기에 충분한 학습량을 갖추고 있습니다. 그럼에도 불구하고 기존의 애니메이션 관련 지식은 사라지지 않고 오히려 향상되었습니다. TE 학습에 대한 정확한 접근법과 품질 높은 자연어 캡션(약 60만 개, 주로 Claude3 Opus/Claude3.5 Sonet로 생성)이 프롬프트 제어 및 이해를 크게 향상시켰습니다. "페일처럼 새로운 베이스처럼 느껴지지, 페일은 아님(c)".

그리고 예, 대부분의 PD 파생 모델이 단순히 리스킨 또는 뇌 절단된 병합인 반면, 이 모델은 단 하나의 LoRA도 손상되지 않고 병합되었습니다. 필요하다면 원하는 트위커를 추가하거나 다른 선호하는 체크포인트의 차이를 병합할 수 있으며, 이는 우수한 Pony 호환 베이스로 작동합니다.

v0.5.0 변경 사항

PD 베이스를 사용하여 새로운 접근 방식(사전 학습, 주 학습, 세부 조정)으로 대규모 데이터셋을 기반으로 한 새로운 학습
많은 새로운 데이터
학습 과정에서 일부 마법 같은 처리를 거친 결과, 기존 도구, LoRA 등과 호환성을 유지한 채 완전히 검은색 또는 흰색 이미지를 생성할 수 있게 되었습니다. 실제로 매우 흥미로운 경험의 예시입니다
더 나아지고 안정적인 기본 스타일, 아티스트에게 덜 "타는" 효과
버그 수정, 개선 등

(데이터셋 마감일 - 7월 초, 그 이후 요청은 보류 중이며 잊지 않았습니다)

기능 및 프롬프팅:

우선, TE는 매우 많은 지식을 가지고 있습니다. 무시하지 않고 당신이 프롬프트한 모든 것을 시도합니다. 가이드레일 없음, 보호장치 없음, 뇌 절단 없음. 쓰레기 입력하면 쓰레기 출력.

(예: (sunny day, rainbow, ethereal hair, transparent skin, huge breasts:1.9)처럼 태그 가중치를 높이고 추가 태그를 넣어 반응을 얻어야 하는 혼합형 스이조 프롬프트)는 작동하지 않습니다. 당신은 미친 듯이 기이하거나 예상치 못한 결과를 얻게 될 것입니다.

반면에, 위와 같은 조작 없이 보루 이미지에서 태그를 그대로 복사하거나, 태그와 자연어를 조합하여 일반적으로 설명하면 대부분의 경우 매우 넓은 범위에서 훌륭한 결과를 얻을 수 있습니다. 최상의 결과를 얻으려면 원래 보루 태그를 그대로 사용하세요. 가장 깊고 어두운 환상은 약간의 롤링이 필요할 수 있으며, 인기 있는 주제는 매우 안정적입니다.

기본:

모든 SDXL과 동일하게, txt2img는 약 1메가픽셀, 해상도는 64의 배수(1024x1024, 1152x, 1216x832 등)인 모든 비율 사용 가능. Euler_a 및 CFG 4~~9(6~~7이 최적). 하이레스픽스: 어떤 GAN/DAT도 가능, x1.5~1.6, denoise 0.5, 업스케일은 단일 타일 해상도가 3MPX 이하일 때 가장 잘 작동. 하이레스픽스 및 추가 업스케일은 품질, 디테일, 눈, 손, 발 등을 크게 향상시킵니다.

생성 도구 설정에서 _강조: No norm_을 설정하세요. 이상한 덩어리나 왜곡이 발생할 경우.
LCM/PCM 가속기를 적용한 경우 Euler/Euler a 샘플러를 사용하세요. DDIM은 많은 혼란과 괴상한 결과를 초래합니다.
LoRA가 이 문제를 일으키지 않는 한 Clip Skip 1을 사용하세요.

품질 분류:

4가지 품질 태그만 사용:

긍정적:

masterpiece, best quality,

부정적:

low quality, worst quality

원래 Pony에서 사용했던 score_x, source_x 등과 같은 태그는 사용하지 마세요.

대부분의 경우 이 태그들은 오히려 상황을 악화시키며, 노이즈와 혼란을 추가하고, 신체, 손가락을 왜곡시키고, 스타일을 변경하며, 소변 노란-녹색 필터를 되살립니다.

이 태그들은 단지 상황을 악화시키고, 노이즈와 혼란을 추가하며, 신체, 손가락을 왜곡시키고, 스타일을 변경하며, 소변 노란-녹색 필터를 되살립니다.

원래 이 태그는 훈련 결함을 포함한 최선의 품질 태깅 방식이 아니었고, 많은 토큰을 요구했습니다. 원래 태그를 수정하는 것보다 새로운 태그를 도입하는 것이 더 낫다는 것이 명확해졌습니다. 현재 이 태그들은 심각한 개선 없이 오래된 트리거만을 불러옵니다.

부정적 프롬프트:

(worst quality, low quality:1.1), error, bad hands, watermark, distorted

자신의 선호에 따라 조정하세요.

회색조, 단색, 노란 배경 등을 부정적 프롬프트에 넣지 마세요. 그러면 단순히 이미지가 타버릴 뿐이며, 여기서는 색상이 흐릿해진 것이나 "노란 필터"를 수정할 필요가 없습니다. 부정적 프롬프트에 3D를 넣는 것도 대부분의 경우 좋지 않습니다.

배경을 개선하려면 부정적 프롬프트에 다음을 추가하세요:

simple background, blurry background, abstract background

그러나 단순한 배경을 프롬프트할 때는 이 태그를 제거하는 것을 잊지 마세요.

아티스트 스타일:

예시 그리드

"by "를 사용하여, 여러 개를 조합하면 매우 흥미로운 결과를 얻을 수 있으며, 프롬프트 가중치로 제어 가능합니다.

by ARTISTNAME1, [by ARTISTNAME2, (by ARTISTNAME3:0.8),...]

또는/그리고

[by ARTISTNAME1|by ARTISTNAME2|by ARTISTNAME3|...]

프롬프트 시작 부분에서 가장 잘 작동합니다. 와일드카드로 사용 가능합니다(주의: sd-dynamic-prompts 확장 프로그램에서 배치 크기가 1을 초과할 때 결과가 망가지는 버그가 있음). 대부분의 경우 하이레스픽스/업스케일은 품질을 크게 향상시킵니다.

일반 스타일:

2.5d, bold line, smooth shading, flat colors, minimalistic, cgi, digital painting, ink style, oil style, pastel style

조합 가능(아티스트와 함께), 가중치 사용, 긍정/부정 프롬프트 모두 사용 가능.

캐릭터:

보루와 동일하게 전체 이름 태그와 적절한 형식을 사용하세요. 예: "karin_(blue_archive)" → "karin \(blue_archive\)", 더 나은 재현을 위해 피부 태그를 사용하세요. 예: "karin \(bunny \(blue_archive\))". 이 확장 프로그램이 매우 유용할 수 있습니다.

대부분의 캐릭터는 이름으로 알려져 있지만, 주요 특징을 함께 프롬프트하는 것이 더 좋습니다:

karin \(blue_archive\), karin \(bunny \(blue_archive\), dark-skinned female, purple halo, ponytail, yellow eyes, playboy bunny, fishnet pantyhose, gloves

자연어:

보루 태그와 함께 사용하면 매우 훌륭합니다. 스타일과 품질 태그 입력 후에 자연어만 사용하세요. 보루 태그만 사용해도 되며, 모든 것은 당신의 선택입니다.

그리고 예, 여전히 Pony를 기반으로 하므로, 실제 세계 개념, 참조, 복잡한 표현에서는 다른 Vanilla SDXL 기반 체크포인트보다 약간 떨어집니다. 이런 점을 처리할 수 있는 제 새로운 모델 Tofu를 확인해 보세요.

많은 꼬리/귀 관련 개념:

tail censor, holding own tail, hugging own tail, holding another's tail, tail grab, tail raised, tail down, ears down, hand on own ear, tail around own leg, tail around penis, tail through clothes, tail under clothes, lifted by tail, tail biting,...

(보루 의미, e621 아님) 및 기타 많은 자연어와 함께. 일부는 완벽하게 재현되며, 일부는 롤링이 필요합니다. 불행히도 0.5.0에서는 일부가 더 나빠졌지만, 다른 것은 더 좋아졌습니다. 또한 이제 털이 많은 케모미미뿐만 아니라 모든 종류의 꼬리에 대해 더 나은 성능을 보입니다.

밝기/대비:

원하는 대로 태그나 자연어로 프롬프트하면 작동합니다. 예: 어두운 밤, 저녁, 밝은 햇빛 등. 검은색/흰색 배경도 작동하지만, 종종 0,0,0 또는 255,255,255가 아닙니다. 이는 프롬프트와 관련이 있으며, 해당 태그가 붙은 이미지를 확인해 보세요. (cute girl in front of completely black background)와 같은 문구를 사용하면 해결됩니다. 어쨌든 일반 사용에서는 문제가 없으며, NAI3과 동일하게 작동하며 종종 더 나은 성능을 보입니다.

알려진 문제

불행히도 다음과 같은 문제가 있습니다:

일부 아티스트 스타일이 제대로 작동하지 않습니다.

(이유는 명확하지 않지만, 동일한 데이터셋을 사용한 다른 모델에서는 잘 작동합니다. 아마도 PD 1-토큰 해시와의 충돌 또는 원래 TE의 문제일 가능성이 있습니다. 향후 수정 가능하며, 효과가 부족한 아티스트를 발견하면 알려주세요.)
일부 개념은 더 많은 학습이 필요합니다(몇 가지 꼬리 관련, "dogeza"나 멤 같은 드문 개념)
가끔 워터마크가 나타납니다. 대부분은 Pony 베이스에서 비롯되지만 일부는 데이터셋에서 유래
Ciloranko는 사실 오포썸입니다(LMAO, 선택된 데이터셋 중 하나의 오류)
아직 발견되지 않은 문제들, 계속 개발 중

향후 모델을 위한 아티스트/캐릭터 요청은 계속 열려 있습니다. 성능이 약하거나 정확하지 않거나 강한 워터마크가 있는 아티스트/캐릭터/개념을 발견하시면 알려주세요. 명시적으로 추가하겠습니다. 최신 버전을 주시해 주세요.

라이선스:

Pony 바이럴 라이선스, 원본을 확인하세요. 병합, 미세 조정 등 자유롭게 사용 가능하나, 링크를 남겨주세요.

향후 계획:

현재 2.5배 더 크고 균형 잡히고 분류가 개선된 새로운 데이터셋이 준비되어 있지만, 실수나 결함은 막대한 비용을 초래합니다. 현재 버전의 수정은 곧 제공될 수 있으나, 다음 대규모 학습 전에 더 많은 피드백을 수집하고 새로운 기술을 테스트할 예정입니다. 조언이나 학습 도구, 방법을 공유하고 싶으시면 환영합니다.
데이터셋에 일부 퓨리들을 추가하는 것을 고려 중입니다. 해부학, 포즈, 개념 측면에서 유익할 수 있으나, 태깅 시스템의 차이와... 광범위한 미적 범위로 인해 쉽지 않습니다. 이를 해결하는 방법이나 멋지거나 흥미로운 퓨리 아티스트, 데이터셋을 공유해 주시면 감사하겠습니다.
자연어 태깅(보루 태그와 결합)은 SDXL에도 매우 유망해 보이며, 새로운 대규모 모델은 이를 기본으로 제공합니다. 현재 로컬 VLM은 성능이 좋지 않고, COG와 Idefics3는 좋지만 강한 SFW 제한이 있으며, joycaption은 환각을 일으키고 프롬프트에 거의 통제 불가능하며, Llava는 단순히 바보 같고, 다른 것들도 유사한 문제를 겪고 있습니다. 상용 제품은 claude가 극도로 비싸고, gemini는 강한 검열이 있으며, gpt4o는 이 작업에 매우 어리석습니다.
따라서 언젠가 이 데이터셋의 SFW/NSFW 애니메이션 이미지로 미세 조정된 다중 모달 LLM을 볼 가능성이 있습니다. 이는 매우 큰 도움이 될 것입니다. 아, 여기 예비 버전과 쇼케이스가 있습니다.
Flux - 유망하지만 매우 스마트하고 GPU를 많이 소모하며, 젖가슴조차도 뇌세척합니다. "언센서링"과 애니메이션 개념에 대한 약간의 지식을 달성한 학습을 수행했지만, 충분히 좋지 않았습니다. 관심 있으시면 알려주세요. 그러나 주요 문제는 학습 도구(활발히 개발 중이며, 곧 정확한 full t5 학습을 얻을 수 있기를 기대)와 약 5~7배 더 많은 GPU 시간 요구 사항입니다. 따라서 잠시 기다리는 것이 더 나을 수 있습니다.
어떤 제안이나 요청이든 Discord 서버에 참여하세요.

감사의 말:

개인 작품을 공유해 주신 아티스트들(익명을 원함); Soviet Cat - GPU 후원; Sv1. - LLM 접근, 캡셔닝, 코드; K. - 학습 코드; Bakariso - 데이터셋, 테스트, 조언, 내부 정보; NeuroSenko - 기부, 테스트, 코드; T.,[] - 데이터셋, 테스트, 조언; dga, Fi., ello - 기부; 도와준 다른 동료들. 진심으로 사랑합니다 ❤️.

물론 피드백과 요청을 해주신 모든 분들께도 감사드립니다. 이는 정말 소중합니다.

기부

AI는 제 취미이며, 저는 돈을 낭비하고 있고 기부를 요청하지 않습니다. 지원하고 싶으시다면 제 모델을 공유해 주시고, 피드백을 남기며, 케모미미 소녀와 귀여운 이미지를 만들어 주세요. 그리고 물론 원작 아티스트들을 지원해 주세요.

그러나 기부금은 향후 학습과 연구를 가속화할 것입니다.

(단, 술이나 코스프레 소녀에게 쓸 수도 있다는 점을 기억하세요.)

BTC: bc1qwv83ggq8rvv07uk6dv4njs0j3yygj3aax4wg6c

ETH/USDT(e): 0x04C8a749F49aE8a56CB84cF0C99CD9E92eDB17db

GPU 시간(A100+ 이상)을 제공하실 수 있다면 PM 주세요.

모델 유형	체크포인트
기본 모델	Pony
게시일	9/10/2024

4th tail (anime/hentai)

세부 정보

파일 다운로드

이 버전에 대해

모델 설명