SDXL Sim UNET Experts [SFW/NSFW]
세부 정보
파일 다운로드
모델 설명
모델이 원하시는 이미지로 전환되는 과정을 관찰하세요.
지속적인 평가 결과
BeatriXL은 VPRED 모델입니다. 매우 매우 직접적이고 강력한 vpred 모델이지만, 이전 버전들에 비해 훨씬 더 좁은 시야를 가지고 있습니다. 이는 매우 강력하고 직접적인 문자 그대로의 변형이며, 실제 기능 전환에서의 중대한 재설계에 거의 닮았습니다. 원하는 대로 작동하지만, 원하지 않는 것들도 많이 생성될 수 있습니다.
SimV4 epsilon은 제가 실행한 대부분의 VPRED 재설계 모델보다 여전히 훨씬 더 강력합니다.
SimV5의 출시되지 않은 epsilon 버전은 SimV4 epsilon의 강력함에 맞춰 강력한 세부 조정을 받을 예정이지만, 그 전에 SD3.5를 세부 조정해야 합니다. 지금은 모델들을 즐기세요. SD3은 시간이 더 걸릴 수 있습니다.
12개의 완전한 세부 조정 모델 후, SimV4가 나머지 모델들보다 두드러집니다. 전반적으로 가장 강력하고 사용하기 쉬운 구조를 갖추고 있지만, 그 대신 유연성은 약간 떨어집니다.
SimNoob의 취약성은 너무 많은 일반 영어 압력 아래에서 무너집니다. 그러나 매우 훌륭합니다. 확실히 A등급 학생이죠. 그러나 SimV3가 가지고 있던 장점의 대부분을 잃었고, 그 행동은 지향적이기보다 급격하게 극단화되었습니다.
잠재력이 아닌 절대성의 교향곡입니다. 혼란스러운 묘사가 아니라 강력하고 매혹적인 풍경입니다. 순수한 소음이나 절대적 혼란의 가능성이 아니라 인식 가능한 품질과 정밀도입니다.
vpreds는 좋지만, 너무 극단적인 한쪽 방향으로 급격히 전환되어 독립적인 모델로 보기 어렵습니다.
변환 과정에서 그들이 처음에 독특하게 만든 것들의 상당부분을 잃어버렸습니다. 이런 의미에서 이들은 더 이상 이전의 동일한 모델이 아닙니다. 그럼에도 불구하고, Epsilon에 대한 세부 조정도 동일한 결과를 낳았을 것이고, Epsilon에 대한 완전한 세부 조정이 이 모델들에 반드시 좋은 것은 아닙니다.
PonySim vpred V5 출시
사람들이 현실감이 별로 좋지 않다고 자주 언급하므로, 나중에 현실감 있는 세부 조정에 집중하겠습니다. 지금은 제게는 괜찮아 보입니다.
손의 문제가 정리되고, 다른 문제들도 개선되고 있습니다.
업로드할 전체 이미지 목록이 준비되어 있으니, 조금만 기다려 주세요. 모두 페이지에 올리겠습니다.
지금은 몇 가지 성공과 실패 사례를 보여드립니다.
PonySim vpred V5 출시 임박;
HuggingFace에서 저를 팔로우하시는 분들은 이미 이 safetensors에 접근할 수 있습니다.
곧 여기에 텐서를 업로드할 것이며, 현재 해결 중인 문제 영역의 전체 생검을 포함할 예정입니다. 이 문제 영역들은 이미지가 예상보다 일찍 또는 늦게 종결되는 안전하고 중간 단계의 문제를 해결하기 위한 잠재적 해결책을 준비 중입니다.
반복 9회로 학습한 코사인은 모델을 적절히 학습시키기에 충분했으므로, 전체 대신 중앙만 학습했을 때 어떤 결과가 나오는지 확인해보겠습니다.
PonySim vpred V43 출시;
흥미로운 새로운 발견: 점수 태그는 사용하지 마세요.
모든 품질 태그를 하단에 몰아두고 그냥 사용하세요. SimNoob처럼 다루세요.
masterpiece, most aesthetic, very aesthetic, good aesthetic,
high resolution, highres, absurdres, absurd res,
다양한 품질 태그를 사용하는 큰 데이터셋이 있으며, 품질이 크게 저하된 것을 관찰했습니다. 따라서 최고 품질의 이미지를 원하신다면, 이 모든 품질 태그를 함께 사용해야 합니다. 토큰 수는 많지만, 하단에 브레이크를 두고 넣으면 괜찮습니다. PonySim은 매우 견고합니다.
잘못된 버전으로 출시한 점에 대해 깊이 사과드립니다. 이번 주는 직장에서 매우 바빴고, 올바른 버전을 사용해볼 시간조차 없었습니다.
동작하므로 출시했습니다.
태그 가이드를 꼼꼼히 따라주세요. 현재 상태에서는 다루기 쉽지 않지만, 제대로 조절하면 아름다운 결과를 만들어낼 수 있습니다.
보세요, 쓰레기가 아닙니다. :'| 저는 이 작업에 진심으로 열심히 일하고, 그저 감사의 말 하나만을 요청할 뿐입니다. 돈은 원하지 않습니다.
현재 HuggingFace 학습은 PonySim V43을 다른 모델들 수준으로 끌어올리는 데 집중하고 있습니다. Toy Omega 출시를 위해 SimNoob 및 NoobSim보다 우수할 수도 있습니다.
https://huggingface.co/AbstractPhil/PONY-SIM-V4/tree/main/VPRED-SOLIDIFIER
PonySim을 더 잘 사용할 수 있도록 태그 가이드를 업데이트했습니다.
PonySim vpred V38 문제;
다시 오븐으로 돌아갑니다.
지금까지 ComfyUI나 표준 Forge를 사용하면 잘 작동하는 것으로 보입니다. A1111과 ReForge에서는 문제가 발생합니다. 특히 PonySim과 vpred에서 75개 이상의 토큰을 사용할 때 말이죠.
이 문제를 다음 세부 조정에서 해결하여, Pony의 깊이가 vpred에 잘 맞춰지도록 할 예정입니다. 하지만 현재 EPRED를 사용하려면 더 긴 프롬프트를 작성할 수 있습니다.
즐겁게 사용하세요.
PonySim vpred V38 예정 출시;
예정 출시일: 2025년 3월 21일, GMT-8 오후 5시
일부 성공적인 재설계 후, 모델이 점차 적응하기 시작했습니다. 지금까지 다른 모델들보다 훨씬 더 많은 치유가 필요하지만, 학습에 잘 반응하고 있습니다.
분명히 vpred Pony 모델입니다.
Pony는 V-PRED로 재설계되어 어두운 장면, 조명 및 기타 여러 요소를 제대로 지원하도록 훈련 중입니다.
저는 조명과 미적 디테일 이미지 팩과 방법을 CLIP을 사용해 분석하기 위해 눈여겨보고 있습니다. 어떻게 될지 지켜봐 주세요.
컨텍스트는 다른 모델들만큼 강력하지는 않지만, 많은 EPRED Pony LoRAs를 지원합니다.
모두 즐겁게 사용하세요.
놀라운 수요일 출시!
다시 오븐으로 돌아가자!
오랜 기다림 끝에 순수한 EPRED SIMV4가 안정화되었습니다.
일반 영어 프롬프트의 힘의 복귀.
이 모델을 작동시키기 위한 올바른 공식을 찾는 데 시간이 오래 걸렸습니다.
이 모델은 SimNoob보다 뛰어난 컨텍스트 _잠재력_을 가지고 있지만, 아직 그 수준에 도달하지 못했습니다.
출시되지 않고 불안정한 Sim 순수 VPRED v5는 여전히 많은 면에서 경쟁 모델들을 훨씬 앞서지만, 극도로 불안정합니다. SimV4는 EPRED에서 VPRED로 필요한 데이터를 연결하는 연결고리가 될 것이지만, 아직 준비되지 않았습니다.
SimNoob 전체 출시
당신의 눈은 거짓을 말하지 않습니다. SimNoob은 SDXL VPRED 모델입니다. Noob loras, Illustrious loras, 그리고 수많은 SDXL loras를 처리할 수 있습니다. 이는 평범한 모델이 아닙니다.
현재 긍정적 프롬프트에 “safe”, “censored”를 반드시 포함하세요. 이 censored 태그는 잠재적으로 불법적인 모든 그리드 포인트를 식별하도록 강력히 훈련되었습니다.
부정적 프롬프트에 “nsfw”, “explicit”, “questionable”, “uncensored”를 포함하세요
초기 단계에서 빈 몸체 인형 모델을 학습시키는 부산물로, 매우 적은 태그만으로도 NSFW 정보가 기본적으로 생성되며, 이는 향후 세부 조정에서 해결해야 할 문제입니다.
이것은 이미지 생성에 대한 더 많은 제어를 제공하기 위한 지속적인 실험입니다.
Sim V4 - 지속 중 - 각 반복 후 T5 기능 학습
NoobSim Full V-Pred 준비 완료 - 출시
-> 440만 개의 특징 수집. -> 4XX 기가바이트 보간 데이터.
SimNoob Full V-Pred 준비 완료 - 출시
-> 440만 개의 특징 수집. -> 4XX 기가바이트 보간 데이터.
PonySim Full V-Pred 준비 완료 - 조리 중
-> 310만 개의 특징 수집. -> 2XX~ 기가바이트 보간 데이터.
SimPony Epsilon/V-Pred 융합 준비 완료 - 다음으로 VPRED 준비 중.
NoobPony Epsilon 준비 완료
PonyNoob Epsilon 준비 완료
T5 적응 미완료; 완전한 수렴을 위해 추가 특징 필요.
총 특징 데이터: 1,190만 개
V2 단순 워크플로우
V2 컨텍스트 워크플로우
V3 단순 워크플로우
V3 컨텍스트 워크플로우
V4 단순 워크플로우
V4 컨텍스트 워크플로우
이 모델 세트는 확실히 SDXL 기반입니다. 그러나 SD3 스타일의 부정적 프롬프트를 사용하세요. 즉, 부정적 프롬프트의 초기 10% 타임스텝을 0으로 설정하세요. 전반적으로 품질이 크게 향상됩니다.
이 모델을 학습할수록 Flux에 더 가까워집니다. 현재 여러 면에서 Flux를 능가하는 기능을 가지고 있다고 말할 수 있습니다.
vpred noobs는 워크플로우에서 다른 모델들과 다르게 동작하므로, 이들을 위한 전용 워크플로우도 개발하겠습니다.
현재 컨텍스트 워크플로우는 기록을 위해 IPADAPTER와 CLIP_VISION을 사용합니다. T5 버전에서는 이들이 필요하지 않습니다.
우리의 후보 기반 모델은 다음과 같습니다;
SDXL Base -> Sim SDXL
CLIP_L
- CLIP_24_L_OMEGA, Flux를 통해 심화 조정한 후 SDXL로, 다시 Flux로, 마지막으로 다시 SDXL로 재조정되었습니다. 깊이 연관성, 그리드, 영역 제어, 오프셋, 나쁜 손, 나쁜 해부학 등 다양한 고난도 요소에 대응하도록 재조정되었습니다. Noob, Pony, Noob 다시, Illustrious, SDXL, Noob 다시 등과의 훈련을 거쳤으며, 1억 개 이상의 샘플을 학습했습니다.
CLIP_G
- CLIP_24_G_OMEGA, CLIP_L보다 덜 심화 조정되었습니다. 오랫동안 CLIP_L의 학생이었으며, SDXL 학습 기간 동안 두 모델은 오랫동안 경쟁했고, 지금은 UNET 내에서 서로 연관된 준수를 달성했습니다.
이 경쟁은 전설적이었습니다.
Illustrious Base -> NoobXL v-Pred V10
CLIP_L -> [NOOB_CLIP_L + CLIP_24_L_OMEGA] 72 / 28
- COMFYUI의 SIMPLE MERGE를 사용하여 병합했습니다. CLIP에 대한 지식이 부족해 적절한 보간 병합 학습을 하지 못했지만, 제 역할은 충분히 합니다.
CLIP_G -> [NOOB_CLIP_G + CLIP_24_G_OMEGA] 72 / 28
- CLIP_L과 동일한 방식으로 병합했습니다.
Pony Base -> Ebara
- 아직 완성되지 않았습니다.
V5 Sim 준비
순수 EPRED SimV4는 제가 지금까지 사용해본 가장 강력한 모델 중 하나입니다. 하지만 아직 완성되지 않았습니다. SDXL에 적용된 대규모 학습의 적어도 80%를 보존하기 위해 V5로 신중히 다듬어야 합니다.
NoobSim과 SimNoob은 흥미로운 특징을 도입했지만, 많은 정보가 누락되거나 파괴되었습니다. SimNoobV5는 Sim EPRED에 더 가깝지만, 여전히 그 수준은 아닙니다. 모델의 처음부터 끝까지 통째로 보간 디스틸레이션 세부 조정을 수행해야 합니다. 이는 제가 지금까지 한 번도 시도하지 않은 방식입니다.
이 새로운 학습 프로세스를 개발하고, 지원 전문가들로부터 특징을 수집하는 동안, 나는 여전히 동료 모델들을 학습할 것입니다.
곧 출시될 PonySim은 매우 날카롭지만, NoobSim과 SimNoob에 비해 그 나이가 드러납니다. 이 둘은 모두 매우 견고하고 강력한 애니메이션 모델입니다.
순수 SimV5는 지금까지 가장 강력하고 견고한 컨텍스트를 갖출 예정이며, SD3, Flux 또는 다른 의도적으로 고컨텍스트 모델을 제외하고는 어떤 모델에서도 볼 수 없던 수준일 것입니다.
이렇게 되면, 더 깊이 빠질수록 품질이 떨어질 것이며, VPRED 영역으로 학습이 진행될수록 이 문제가 정리될 것입니다. 이는 Sim Pure를 최종 형태로 완성하기 위한 지속적인 과정입니다. 우리가 진정으로 언체인된 Flux/SD3 경쟁자로 삼을 컨텍스트 전문가입니다. 그러나 더 많은 포인트를 달성해야 합니다. 보간된 혼합 속의 모든 전문가들의 전문가이자 대장이 되어야 합니다. 그렇지 않으면 열악한 지도자가 될 것입니다.
V5 SimNoob 출시
SimNoob은 SDXL 엡실론 예측 노이즈를 기반으로 하며, 여러 에포크에 걸쳐 v예측으로 재설계되었고, NoobXL에서 28%의 보간 특징을 주입받았습니다.
이는 NoobSimVPRED의 반대 구성 요소입니다. NoobSim은 Noob에 매우 의존하는 반면, SimNoob은 SimV4에 매우 의존합니다. SimV4는 이전의 비협조적이고 고집스러웠던 SimV3의 후속 버전입니다.
주로 SDXL 기반이며, Noob의 주입은 인간 묘사의 향상에 결정적인 역할을 했습니다. 이전에는 비정상적으로 왜곡된 신체가, 훨씬 더 안정적이고 실용적인 형태로 고정되었습니다.
구조는 여전히 뛰어난 방식으로 작동합니다. 완전한 내장된 경계 구조 세트, 손 제어, 그리드 제어, SimV3에 있어야 했던 모든 요소가 포함됩니다.
인간 형태가 크게 향상되어, 어떤 자세나 상황에도 IPADAPTER나 Solidifier 없이도 신뢰할 수 있게 형성됩니다.
캡션에 대한 제어가 뛰어나며, 묘사, 오프셋, 각도, 회전, 자세, 스타일, 색상 등 많은 요소에서 테스트된 대부분의 SDXL 모델을 능가합니다.
일반 영어 프롬프트에 매우 잘 반응하며, NoobSim보다 여러 측면에서 훨씬 앞섭니다.
결과는 V5로 라벨링할 만큼 충분합니다.
V3 학습 도중 손상된 V2의 묘사 연관성과 스타일 계층화 시스템이 부분적으로 복원되었습니다.
타임스텝 제어가 V3보다 원래 V2에 더 잘 맞춰졌습니다.
V46 NoobSim 출시
V46 NoobSim은 6개의 1216x1216 vpred 모델 중 하나로, 최종 병합을 목표로 훈련 중입니다. 이는 인간 형태 묘사를 위해 의도적으로 병합되고 설계된 인간 형태 모델입니다. 제 고유한 인간 형태 데이터 세트를 사용하여 강력하게 세부 조정되었으며, 풍경 데이터 세트는 대부분 제외했습니다.
V46은 메가 모델에 필요한 모든 기준을 충족하므로, 다음 버전은 SIM SDXL V4가 될 것입니다. SIM SDXL V3 FULL을 약 30%의 NoobXL VPRED 강도로 병합한 버전입니다.
V46 NoobSim은 추가로 새로운 요소들을 도입합니다;
애니메이션과 인간 형태 모두 매우 견고합니다.
2D, 애니메이션, 3D, 현실감 사이를 빠르게 전환하면서 유사한 형태를 유지합니다.
현실감은 더 현실처럼 보이고, 애니메이션은 더 애니메이션처럼 보이며, 3D는 더 3D처럼 보입니다.
더 많은 아티스트, 더 많은 TV 프로그램, 더 많은 영화적 장면, 더 많은 뮤직비디오, 더 많고, 더 많고, 더 많음.
각도에 대한 더 많은 제어.
grid_b3, grid_c3, grid_d3를 사용하세요. 이들은 모든 그리드 섹션 중 가장 많은 학습을 거쳤으며 최상의 결과를 도출합니다.
이 버전에서는 safe/questionable/explicit/nsfw 모두 작동하며 매우 제어하기 쉽습니다.
더 정확한 각도, 오프셋, 화면 위치, 심도 등.
V4 NoobSim Prime는 새로운 요소들을 많이 추가했습니다;
데이터베이스는 90만 개 이상의 자동화되고 표시 오프셋에 태그가 붙은 이미지로 구성되어 있습니다; 현재로서는 캡션은 주로 Noob Mix에서 제외되었습니다. V3 FULL(병합의 기초)의 결과가 일정 수준 이후 캡션이 심각하게 손상을 초래했기 때문입니다.
미국 기반의 다양한 애니메이션; Cartoon Network, Comedy Central, Nick, Family Guy, Rick and Morty 등 여러 채널의 다양한 시리즈를 포함합니다. 솔직히 말해, 저는 모든 것을 수집했습니다.
액션 영화; 액션 영화에서 일부 영화적 장면을 포함하고 있지만, 그 수는 매우 제한적입니다. 기본 SDXL은 이를 필요로 하지 않았지만, Noob는 거의 없으므로 보완이 필요합니다.
여배우, 남배우, 코미디언 등은 포함되어 있지 않거나 Sim의 낮은 강도로 인해 제대로 표현되지 않습니다. (이들은 모두 기본 SDXL에 존재하며, 저의 정교한 학습 덕분에 많은 것이 살아남았습니다.) 그러나 더 강력한 LAION 학습과 공인들에 대해서는 적절한 애니메이션 표현이 가능하며, 이는 꽤 멋집니다. 테스트 중 일부는 얼굴 팩과 흐릿한 얼굴 신체 세트로 인해 통과되지만, 대부분의 경우 누가 누구인지 매우 어렵게 식별됩니다.
워터마크가 가끔 나타납니다. 일반적으로 얼굴은 보이는 워터마크에 맞추어지지 않지만, 현실감이 높을수록 더 자주 나타납니다.
애니메이션은 NOOB에 수많은 시리즈가 내장되어 있어 원하는 대로 거의 즉시 생성할 수 있습니다.
3D에는 많은 게임, TV 프로그램, 영화, 시리즈들이 학습되었습니다.
NOOB의 도입과 함께 E621 데이터셋도 도입되었으며, 이는 제가 영어를 깨지 않으려는 의도를 더 강조합니다. 왜냐하면 이 태그셋은 저에게 외국어이기 때문입니다.
V3는 제가 기대했던 만큼 잘 작동하지 못했습니다. 이는 저에게 큰 실망이었습니다. 그러나 실패는 새로운 진보의 길을 열어줍니다.
V3 - FULL은 가장 강력한 버전으로 입증되었습니다; 그리고 다른 버전들보다 훨씬 더 많은 가능성을 가지고 있습니다.
NSFW에 주의하세요. 모든 것에 스며들어 있는 것 같습니다.
그러나 이 모델은 필요한 정보에 완전히 부합하지 않았음에도 불구하고 상당히 강력한 모델을 생성했기 때문에, 저는 이제 E-PRED 노이즈가 아닌 V-PRED 기반으로 다양한 변형을 훈련하기 시작했습니다. 결과는 초기 단계에서 훨씬 더 일관성이 높습니다. 이에 대해 기대해 주세요.
확대 및 버킷화된 이미지들은 필요한 결과에 제대로 부합하지 않았으므로, 무엇을 입력하든 결과는 좋을 수도, 나쁠 수도 있습니다. 현재로서는 V2-FULL이 여전히 우수한 모델입니다. 그러나 둘 다 매우 강력하고 올바른 단어로 프롬프트를 주면 매우 유용합니다.
아직 기대에 부합하지는 못했습니다.
영어는 통하지 않았습니다. 저는 여러 가지 변형을 시도해 보았지만, 단순한 영어는 제가 선택한 것에 상관없이 항상 요소들을 망가뜨렸습니다.
이 릴리즈는 영어가 아닌 태깅 기반입니다. 이것이 제가 지금까지 겪은 가장 큰 실망입니다.
그 외에도 Sim V3는 고해상도 이미지에서 고도로 복잡한 단일 캐릭터 및 복잡한 장면 제어 기능을 매우 잘 작동시킵니다. 다수의 캡션, 계층적 단일 캐릭터 컨트롤러, 원본보다 향상된 포즈 제어, 대량의 LAION 데이터 접근성, 그리고 필요한 프롬프팅에 맞추기 위해 효율적으로 학습된 방대한 새로운 정보와 경로를 지원합니다.
V4 Sim SDXL에서 제가 원하는 수준에 도달했나요? 아니요.
좋나요? 네. 매우 매우 좋습니다. 저는 이와 함께 프로토타입 NoobSim도 공개했습니다. 이는 향후 메가 모델에 필요한 세부 정보를 보완하기 위해 훈련 중입니다.
V4 제안:
크기 1216x1216, 1472x1472, 1600x1600, 2048x2048, 변형 등
스텝 -> 20-50;
* noob는 20, sim의 타임스텝 학습을 활용하려면 30-50.
CFG -> 3.5 - 7;
* 단순한 애니메이션 및 3D: 3.5
* 현실적 또는 리얼리즘: 5-6
* 고선명 고복잡도 풍경 및 다중 캐릭터 상호작용: 7
DPM 2M SDE ->
* BETA: sim 관련 요소를 처리하는 데 좋음, noob에는 적합하지 않음
* SIMPLE: noob에 더 잘 맞음
EULER A ->
* BETA: 매우 빠르나 컨텍스트가 별로
* NORMAL: 매우 빠르고, 적당한 컨텍스트, 애니메이션에 적합
* SIMPLE: noob 관련 요소를 처리하는 데 매우 효과적
DPM 2S ->
* BETA: 고선명 리얼리즘
* 둘 다 잘 처리하지만 애니메이션 사용은 제한적
IMG2IMG:
>>> 테스트되지 않음.
그리드 헬퍼 LoRA를 사용하면 초기 에폭에서 화면 및 표시 제어를 강화하고 다양한 그리드 및 스프라이트시트 기능을 가능하게 합니다. 고 에폭에서는 품질과 컨텍스트를 희생하며 더 강력한 화면 제어를 제공합니다.
Pony, SDXL, 심지어 Illustrious LoRA 등 다양한 모델의 많은 LoRA를 사용할 수 있습니다. 이 모델은 Felldude의 모든 SDXL simv4 기반 모델과 직접 병합됩니다.
안타깝게도 VPRED NOOBXL LoRA는 성공률이 불확실하지만, 이들을 포함시키는 방법을 생각해 냈으니 해당 범위의 전체 V3 릴리즈에 대해 기대해 주세요.
SDXL-Simulacrum V3 βγE 릴리스 2025년 2월 26일
α 버전은 기본적으로 전체 V2 Full 버전을 기반으로 했습니다.
β 버전은 약 90만 장의 이미지를 기반으로 1,000만에서 1,180만 개의 샘플을 학습했습니다.
이는 태깅 절반입니다. 캡션 절반은 아직 준비 중이므로, 이 버전은 V2와 달리 단순 영어 캡션에 잘 부합하지 않습니다.
타임스텝 32-920 -> 절대 전문가급 img2img.
γ 버전은 감마 정규화와 타임스텝 500-1000을 사용합니다.
이 버전은 β 에폭마다 감마 에폭을 실행합니다.
실험은 고복잡도 연관성과 원래 영어를 재구성하는 능력을 보여줍니다.
전체 에폭이 이 방향을 계속할지 결정할 것입니다.
1216x1216 크기로 버킷화되어 512에서 2048까지 훈련되었습니다.
다음 버전은 태깅이 아닌 단순 영어를 기반으로 합니다.
V3 B 권장 설정:
txt2img:
크기 1216x1216, 1472x1472, 1600x1600, 2048x2048, 변형 등
스텝 50
CFG 4-7 -> 고선명 고복잡도 풍경 또는 20명 이상 캐릭터 상황: 15-25
DPM 2M SDE ->
* BETA: 빠르고 컨텍스트 우수
* UNIFORM: 빠르고 적절한 컨텍스트
* SGM UNIFORM: 느리지만 형태가 우수
* EXPONENTIAL: 빠르고 적절한 컨텍스트
* NORMAL: 빠르고 다중 캐릭터 스타일 컨텍스트 우수
EULER A ->
* BETA: 매우 매우 빠르나 컨텍스트가 별로
* NORMAL: 매우 빠르고 적절한 컨텍스트, 애니메이션에 적합
DPM 2S ->
* BETA: 고선명 리얼리즘
* NORMAL: 왜곡되거나 변형됨
IMG2IMG:
모든 크기
스텝 50
노이즈 제거 0.7 > 1.0 (실제로 형태를 유지)
DPM 2M SDE ->
* DDIM UNIFORM: img2img에 절대 최고
* SIMPLE: 나쁘지 않음, 그러나 최고는 아님
* BETA: 새 요소 도입, 요소 제거, 색상에 매우 적합
DDIM ->
* DDIM UNIFORM: 품질은 다소 낮지만 컨텍스트는 파괴하지 않음
Euler은 예상 외로 별로입니다. 보통 꽤 좋습니다.
부정 프롬프트는 0.05 이상에서 시작하세요. 그 이하는 사용하지 마세요.
긍정 프롬프트에서 CLIP_G는 0.08 이상에서 시작하세요. 그렇지 않으면 고복잡도 상호작용에서 왜곡이 발생할 수 있습니다.
요청에 따라, 모든 버전은 릴리스 시 빨간색 vs 파란색 검증을 통과하여 공개할 것입니다.
클립은 대체로 동일합니다. 학습률이 매우 낮았기 때문에 필요하시다면 추출하셔도 괜찮습니다. 이 버전은 주로 UNet 학습이며, CLIP은 이미 매우 고급입니다.
SDXL-Simulacrum Full V2 αβγδ 릴리스 2025년 1월 31일 오후 5시
이 모델을 "저지능 SDXL FLUX"라고 명명합니다.
α 버전은 약 5만 장의 이미지로 0-2백만 개의 샘플을 학습했습니다.
β 버전은 약 7만 5천 장의 이미지로 2-5백만 개의 샘플을 학습했습니다.
γ 버전은 약 15만 장의 이미지로 5-750만 개의 샘플을 학습했습니다.
δ 버전은 약 30만 장의 이미지로 750만-1,000만 개의 샘플을 학습했습니다.
아래에 사용된 훈련의 더 정확한 목록을 제공합니다.
결과는 낮은 해상도보다 훨씬 높은 해상도를 선호하므로, 해상도를 아끼지 마세요.
Full V2 버전은 매우 복잡하며 간단하게 설명하기 어렵습니다. 그러나 이 모델을 매우 간단하게 요약하겠습니다.
의미 있는 구조의 일반 영어를 사용하세요.
이 모델은 문장 순서와 반논리적 booru 흐름도를 기반으로 사용자가 원하는 것을 빌드합니다.
일반 영어 캡션은 sentencepiece**.** 에 기반합니다. T5를 포함한 대부분의 LLM은 sentencepiece를 사용하여 비지도 학습으로 훈련되었습니다. 캡션을 위한 기반과 방법론의 영감은 완전히 LLM 및 구조에서 유래했습니다. 이 구조들은 시각 분류기, bbox 식별자 및 깊이 분석을 이용한 다양한 식별자 간 보간과 결합되었습니다. 캡션이 sentencepiece 모델에 의해 생성되지 않았다면, 개념의 결과를 기반으로 생성되었습니다.
버전 3에서는 데이터셋을 2백만 장 이상의 이미지로 확장할 것입니다. 모든 이미지는 일반 영어 캡션과 표시 오프셋 기반 태깅으로 캡션 처리됩니다.
이 둘은 함께 훈련되지 않습니다. 대신 두 개의 별도 복제 데이터셋으로 훈련됩니다. 하나는 태그 파일, 다른 하나는 캡션 파일입니다.
하나는 Booru 기반 태그와 30개 이하의 짧은 캡션, 다른 하나는 일반 영어 캡션과 10개 이하의 Booru 태그로 구성된 대칭형 데이터셋입니다. 교차 타임스텝으로 학습됩니다.
Booru 태깅은 임의로 섞이고, 영어 캡션은 순차적으로 정렬됩니다.
이미지 생성
ComfyUI는 img2img와 txt2img 모두에 충분히 세밀한 타임스텝 제어를 제공하는 유일한 생성기입니다.
아이러니하게도, 타임스텝은 완벽하지 않지만 매우 가까운 수준입니다.
CLIP_L과 CLIP_G에 적합한 시작 타임스텝 사용 및 더블 프롬프트를 포함하는 두 개의 시작 타임스텝 컨텍스트 모버 ComfyUI 워크플로우를 공개했습니다.
이는 일반적인 SDXL이 아닙니다. 동일한 결과를 얻을 수 없으며, 특히 왜곡된 요청을 할 경우 타임스텝 지침에서 벗어나면 불쾌하거나 때로는 혐오스러운 출력이 나옵니다.
이 모델의 전체 경험을 원한다면, 반드시 ComfyUI를 사용하고 타임스텝을 조정해야 합니다.
- 아래는 학습된 타임스텝을 기반으로 한 반정확한 훈련 목록입니다. 이 타임스텝을 결정하는 데 사용한 수학은 Flux 훈련 시 CLIP_L이 원래 조정된 Flux Shift와 유사하지만 완전히 정확하지는 않습니다. 그러나 급하게 사용하기에는 충분합니다.
Forge는 작동하지만 잘 작동하지 않습니다.
Forge에서도 잘 보이도록 설계했습니다. 따라서 Forge를 사용할 수 있습니다. 그러나 컨텍스트가 손상됩니다. 왜냐하면 CLIP_L과 CLIP_G는 의도적으로 다른 동작을 하기 때문입니다.
TLDR 생성 설정:
DPM++SDE 2M -> Beta / Karras
CFG 6.5 - 7.5 -> 6.5가 제일 선호
스텝 -> 12-100 -> 대부분 50을 사용, 낮은 스텝도 작동함
크기 -> 너무 많음.
이 모델의 기초 원리는 '3의 법칙'입니다. 모든 캡션은 이 개념에 기반하므로, 이 법칙은 Flux와 유사하게 작동합니다. 3의 법칙을 따르면 문제가 없습니다. 너무 벗어나면 곤란해질 것입니다. 그리드, 영역, 표시, 크기 및 관련 식별자를 보완하여 이 법칙을 강화할 수 있습니다.
원하는 것을 일반 영어로 설명하고, 스타일, 아티스트, 캐릭터, 옷을 추가하고, 머신에 전달하세요. 결과로, 스타일이 결합되고 예술적 스타일이 중첩되며 캐릭터가 그 환경에 적용된 이미지가 나옵니다. 그리드, 오프셋, 각도 등을 제공할 수 있습니다. 모델은 아마도 원하는 것을 이해할 것입니다.
원하지 않는 모든 것을 가장 중요하지 않은 순서로 부정 프롬프트에 나열하세요.
특히 훈련되고 중요한 주의 전환 태그는 태그 문서를 참조하세요.
이 모델에 입력하는 내용을 주의하고 매우 조심하세요.
이것은 사실상 바보 같은 Flux입니다. 원하는 것을 주지만, 때로는 원하지 않는 결과도 함께 줍니다.
순차적으로 빌드합니다.
프롬프트에 입력한 모든 내용은 이후에 입력한 모든 내용보다 우선권을 가집니다. 일부 태그는 부담을 동반하고 일부는 그렇지 않습니다.
일반 영어를 사용하는 것은 접근성을 높이기 위해 특별히 설계된 매우 강력한 효과를 제공합니다.
아직 항상 작동하지는 않습니다. 이는 충족되지 못한 버전 3의 기준 중 하나였지만, 분명히 매우 강력한 효과를 발휘합니다.
타임스텝 4-8 사이에 매우 미세한 섞임 학습이 존재하며, 나머지는 완전히 순차적 접근 기반입니다. 다음 버전에서는 더 많은 이미지를 사용하여 순차적 학습으로 주의 전환을 위한 추가 타임스텝 학습을 포함할 예정입니다.
다음과 같은 타임스텝을 표시했습니다.
12-16
22-24
30-36
41-50
이것들은 다음 버전을 위해 주의 전환, 컨텍스트 미세 조정, 순차적 보조 세부 정보의 고선명 포함을 위해 특별히 할당되었습니다. 즉, 섞임 학습과 품질 향상 학습 단계입니다. 중복되는 내용은 모두 서로 보완되므로 중요하지 않습니다.
이 모델은 ComfyUI에서 타임스텝 제어를 사용할 때 매우 높은 강도의 효과를 발휘합니다. 특히 CLIP_L 및 CLIP_G 프롬프트를 사용할 때 그렇습니다.
이 케이크의 레시피는 단순하지 않았습니다. 실제로, 제가 지금까지 만들어온 모델 중 가장 복잡하고 세심하게 계획된 모델이라고 말할 수 있습니다. 이 모델은 성공적인 실험과 커뮤니티를 위한 새로운 증거와 같은 위대한 성취를 묘사할 뿐만 아니라, 제가 지금까지 본 가장 큰 실패들, 가장 고통스러운 잘못된 가정들, 그리고 가장 고통스러운 이미지들도 보여줍니다.
이 버전에 대해;
0-1000 전체 미세 조정 베이스라인 -> 전체 미세 조정, LoCoN 전체, LOHA 전체, Dreambooth 및 LORA 사용.
CLIP_L 학습, CLIP_G 동결.
5,000,000개의 샘플,
57,000장의 이미지; 1/3 애니메이션, 1/3 사실적, 1/3 3D
grid -> 적용하지 않음
hagrid -> 적용하지 않음
포즈 -> 매우 잘 적용됨
인체 형상 -> 매우 잘 적용됨
AI 생성 -> 매우 잘 적용됨
1-999 첫 번째 img2img 트레이닝 -> 어텐션 트레이닝 절반, Dreambooth 절반
CLIP_G 학습 활성화.
200,000개의 샘플,
51,000장의 이미지; 첫 번째 팩 정제, 많은 성향 및 나쁜 이미지 제거
손이 흐릿한 hagrid 이미지 다수 제거
- 많은 분류가 완전히 제거되어 재캡션 필요
AI 생성 이미지 중 매우 불쾌하다고 라벨링된 모든 이미지 제거
10-20 첫 번째 셔플 -> 어텐션 트레이닝만, LOKR 트레이닝만, 다른 설정의 5가지 버전
CLIP_L 및 CLIP_G의 학습률 증가
1,000,000개의 샘플, 영어 캡션 없음,
75,000장의 이미지 ->
안전/의심스러운/명시적인 3D 데이터셋 추가
- 전체 포즈 각도 세트, 전체 아티스트 배열, 전체 성향 세트
AI 생성 이미지 완전히 제거
10-990 두 번째 셔플 -> 전체 미세 조정, LOHA, LoCoN 사용.
CLIP_L 및 CLIP_G의 학습률 감소
150,000개의 샘플, 영어 캡션 없음
115,000장의 이미지
안전/의심스러운/명시적인/nsfw 애니메이션 데이터셋 추가
버전 3을 위한 재계획을 위해 hagrid 완전히 제거
2-8 두 번째 경로 영어 통일성 > 어텐션 트레이닝만, 목표로의 큰 전환
CLIP_L 및 CLIP_G의 높은 학습률
800,000개의 샘플
영어 설명 및 그리드/오프셋/심도에 특화된 8,000장의 이미지
버킷링 및 자르기 비활성화; 1024x1024, 768x768, 1216x1216, 832x1216, 1216x832, 512x512
그리드 트레이닝은 결합 인자 역할을 하도록 설계됨
8-992 세 번째 경로 영어 통일성 낮은 학습률 -> 전체 미세 조정
CLIP_L 및 CLIP_G의 일반 학습률 -> 정규화 완료
800,000개의 샘플
영어 설명 및 컨텍스트에 특화된 140,000장의 이미지
버킷링 재활성화
1-999 최종 경로 버닝 -> 전체 미세 조정, 매우 낮은 학습률(원래의 1/10)
CLIP_L 및 CLIP_G는 이제 서로 대립하지 않고 협력함
2백만 개의 샘플, 매우 낮은 학습률, 모든 캡션 및 태그
hagrid를 제외한 모든 이미지(생략된 이미지 포함) 포함
커리큘럼이 아닌 에폭 단위로 전체 데이터셋 학습
약 30만 장의 이미지를 사용한 것으로 추정됨
안전한 프롬프트로도 일부 nsfw 요소가 나타날 수 있습니다
의심스러운/명시적인/nsfw 부정적 프롬프트를 사용해도 현재는 비교적 드뭅니다. 이러한 요소를 보면 다음 버전에 부정적 영향을 줄 것이라고 우려하지 마세요. 다음 버전에는 1백만 장의 안전한 이미지를 확보해두었으며, 사용자가 반드시 원하지 않는 한 이런 일이 절대 일어나지 않게 할 예정입니다.
많은 여성 형상이 옷을 입지 않은 채로 특별히 학습되었으며, 이는 순차적 학습 패턴과 타임스텝에 따라 이후에 옷이 생성됩니다. 이로 인해 프리뷰 샘플러가 청정되기 전에 성적 노출, 왜곡, 기형 등을 보여줄 수 있습니다.
청정되지 않을 수도 있음을 유의하세요. 하지만 단일 패스 ComfyUI를 사용하면 빠르게 생성되므로, 결과가 마음에 들지 않으면 다음 시드를 시도해보세요. 적절한 시드를 아직 찾지 못했을 뿐이며, 가능성은 충분히 있습니다.
이미지 생성 과정을 관찰하면 슬라이드 쇼처럼 보입니다
이는 의도된 것입니다. 일부 이미지는 충격적일 수 있으며, 이 슬라이드 쇼에서 불쾌한 요소를 보게 된다면 사과드립니다. 최종 경로에서 일부 손상이 있었지만, 완전히 융합되지는 않아 nsfw 요소를 프롬프트할 때 매우 주의하십시오.
다음 버전에서는 "안전" 태그에 대한 전체 미세 조정을 수행하여 이 요소들이 프롬프트되지 않는 한 거의 겹쳐지지 않도록 할 예정입니다. 현재는 부정적 프롬프트에 따른 견딤을 부탁드립니다.
프롬프트에 대한 주의 깊은 nsfw 선택
종종 성기, 왜곡, 물체, 추가된 팔다리 등이 나타납니다. 이러한 요소들이 명확해지기 시작하면, 긍정적 프롬프트에 "censored"를 사용할 수 있습니다. 이는 이 목적을 위해 특별히 설계된 오프셋 태그입니다.
성기와 유두를 자동으로 가려냅니다. 계속 나타나면 정확히 가려내길 원하는 위치를 지정할 수 있습니다;
grid_a3 censored nipple. 이 명령을 긍정적 프롬프트에 넣으면 개념이 이미지에 스며들며, 크기 태그를 함께 사용하지 않으면 효과가 약해질 수 있습니다.
유두, 노출, 벌거벗음은 부정적 프롬프트에 포함
이 요소들은 확실히 사라집니다.
SDXL은 학습 과정에 많은 공포 영화 요소가 내장되어 있습니다. IMDB 데이터셋을 제공받았다는 것이 분명하며, 이는 많은 이미지에 해를 끼치거나 공포 요소를 도입합니다. 제가 가장 귀찮게 느낀 부분은 나이를 제거하는 것입니다. 어떤 태깅 방식을 사용했는지 모르겠지만, 아직 해결하지 못했습니다.
공포 또는 나이 관련 요소를 보게 되면, "futanari, femboy, loli, shota, horror, monster, gross, blood, gore, saw, ghost, paranormal"을 부정적 프롬프트에 추가하세요. SDXL 학습에 내재된 IMDB 공포 및 기타 아티팩트가 사라집니다.
이 버전에서는 이 문제를 해결할 수 없습니다. 몇 가지 방법으로 시도해 봤지만, 오히려 모든 것을 손상시켜 버렸기 때문에 다른 해결책이 필요합니다.
이 태그에 잘못된 이미지를 포함시켜 보았지만, 학습한 모든 내용이 공포 영역에 연결되어, 제가 절대 출시하지 않을 끔찍한 버전이 생성되었습니다.
- 그러나 이제는 더 멋진 할로윈 LoRA를 만드는 방법을 알게 되었으니, 그건 괜찮습니다.
이런 문제로 인해 사과드립니다. 저는 일반적으로 이런 반응을 매우 신중하게 선별하지만, 이번에는 SDXL 내 모든 요소를 통제할 수 없습니다. 더 많은 연구와 테스트가 필요합니다.
성기 부정적 프롬프트. 주로 나타나는 것은 남성 성기이며, 단순히 부정적으로 지정하면 사라집니다. 모델은 그것이 무엇인지 알고 있습니다. 콘돔, 성기구 등도 알고 있으므로, 부정적 프롬프트에 "questionable, explicit, nsfw"만으로 충분하지 않다면 모든 것을 부정적으로 지정해도 됩니다.
- "penis, vagina, penetration, sex toy, dildo" 등을 부정적 프롬프트에 넣으면 거의 확실하게 나타나지 않지만, 긍정적 프롬프트로 함께 사용하면 나타날 수 있으며, 관련 이미지가 많은 특정 아티스트나 스타일도 있습니다. 주의하세요.
nsfw 요소는 무서울 수 있습니다.
이 버전의 nsfw 프롬프팅은 아직 복잡한 영어 장면에 잘 대응하지 못하지만, 작동은 합니다.
영어 프롬프트는 간단하게 유지하고, Booru 및 Sim 태그를 사용하세요. 목표가 nsfw 컨텍스트라면 괜찮은 결과를 얻을 수 있으나, 현재로서는 일관성 있는 품질은 아닙니다.
스타일이나 아티스트를 하나 또는 둘 추가하면 더 나은 결과를 얻을 수 있습니다. 원하는 방향으로 약간 유도하는 것이죠. 해당 아티스트가 포함되어 있다면 대개 잘 작동합니다. 그렇지 않다면 리스트에서 더 강력한 아티스트를 시도해보세요.
쉬운 포르노 생성기를 원한다면 단순한 프롬프트로는 어느 정도 효과가 있지만, 복잡해지거나 영어로 더 많이 설명할수록 결과는 더 비정상적으로 보일 것입니다.
간단한 구성:
ComfyUI 가이드 및 워크플로우
전체 태그 목록 및 개수
과도하게 조리된 부분
덜 조리된 부분
캐시 손상 및 시간 소모
실수로 조기 공개되었습니다. 이를 얻으신 분들은 공유하지 말아주세요. 하지만 반드시 공유해야 한다면 그렇게 하세요.
공식 출시는 오후 5시입니다. -> 예상 시간: 11시간
이 버전이 V3의 기준에 도달하지 못했기 때문에, 이를 FULL 버전 2로 공식 명명하기로 결정했습니다. 이 데이터셋으로는 도달할 수 있는 모든 기준을 충족했으며, 필요한 정보를 채우기 위해 데이터셋을 거의 34배 확장해야 합니다. 즉, 약 150만300만 장의 이미지가 필요합니다. 이는 대형 booru의 약 1/3에 해당합니다.
이러한 수의 이미지를 분류하고 세그먼트화하기 위해서는 Fashion, IMDB 등 제가 찾을 수 있는 모든 데이터베이스를 샘플링해야 합니다. 이 모델을 스마트하게 만들려면 모든 것을 알고, 그것이 어디에 있는지도 알아야 하기 때문입니다. 아직도 많은 데이터가 필요합니다.
이제 저는 완전히 태그링된 준비된 데이터셋을 HuggingFace에 tar parquet 형식으로 호스팅할 예정이며, 원하시면 제 맞춤형 Cheesechaser가 이를 가져다 드릴 수 있습니다.
일반적인 사람들을 위해 제가 평소처럼 얼굴을 흐리게 만드는 작업을 할 것이며, 이것이 일부 이미지가 애니메이션 캐릭터로 변하는 이유입니다. SDXL에는 이미 많은 요소가 내장되어 있으며, IMDB 데이터셋을 학습했음을 명확히 알 수 있으므로, 어떤 것을 부정적으로 가르칠지 알고 있습니다.
SDXL-SimulacrumV25β
현재 에포크 65 ->
약 750만 개의 샘플
테이스터는 의도된 스타일과 세리즈 흐름을 보여주며, 완전히 의도된 대로입니다.
무엇이 다른 것을 압도하여 그 반대편이 방해가 되어 미세 조정이 어려웠던 모델이 얼마나 있었나요? 이 모델은 아닙니다. 설계상 모든 것이 매우 쉽게 미세 조정됩니다.
이제 100점 중 85점을 달성했습니다. 내일 또는 모레 완료될 것으로 예상됩니다.
생성 권장 사항:
DPM-2M-SDE
-> BETA / KARRAS
-> Steps 14-50 -> 50
-> CFG 4.5-8.5 -> 6.5
DPM-2S-Ancestral
-> BETA / KARRAS
-> Steps 32
-> CFG 5 - 8 -> 6
DPM-2M
-> BETA / KARRAS
-> Steps 20-40 -> 40
-> CFG 7 -> 7
Euler은 잘 작동하지 않습니다.
프롬프트 기본 구조:
<CAPTIONS HERE>
good aesthetic, very aesthetic, most aesthetic, masterpiece,
anime,
<CHARACTERS HERE>
<ACTION CAPTIONS HERE>
<OFFSETS AND GRID GO HERE>
<CHARACTER TRAITS HERE>
highres, absurdres, newest, 2010s
이 버전에서는 75 토큰을 넘지 않도록 주의하세요. CLIP_L은 225 토큰으로 학습되었지만, 아직 충분히 지능적이지 않습니다.
이것은 대부분의 이미지 품질을 향상시킵니다.
good aesthetic, very aesthetic, most aesthetic, masterpiece,
요약: 시작할 때 이 부정적 프롬프트를 사용하세요.
lowres,
nsfw, explicit, questionable,
displeasing, very displeasing, disgusting,
text, size_f text, size_h text, size_q text,
censored, censor bar,
monochrome, greyscale,
bad anatomy, ai-generated, ai generated, jewelry,
watermark,
hand,
blurry hand,
bad hands, missing digit, extra digit,
extra arm, missing arm,
convenient arm, convenient leg,
arm over shoulder,
synthetic_woman,
간단한 부정적 프롬프트: 사용은 본인 책임입니다.
lowres,
displeasing, very displeasing, disgusting,
text,
monochrome, greyscale, comic,
synthetic_woman,
감사 및 링크:
DeepGHS의 모든 구성원들에게 도구, AI 및 데이터셋 정리와 조직을 위한 헌신적인 노고에 진심으로 감사드립니다.
Flux1D / Flux1S 링크
SDXL 1.0 링크
OpenClip 트레이너 링크
Kohya SS GUI /// SD-Scripts
이미지 출처:
범위 외 사용 데이터셋:
부분적으로 출시를 위한 캡셔닝 소프트웨어에 사용:
ImgUtils 링크
이 패키지에 포함된 모든 AI와 추가 도구를 사용
경계 상자
BooruS11
BooruPP
People
Faces
Eyes
Heads
HalfBody
손
벌거벗은
텍스트
TextOCR
Hagrid
검열된
DepthMidas
SegmentAnything YoloV8
분류
미학적
AI 탐지
NSFW 탐지기
단색 체커
회색조 체커
실제 또는 애니메이션
애니메이션 스타일 또는 연령 -> 연도 기반
잘린
Hagrid 링크
MiDaS 링크
Wd14 링크
Wd14 Large 링크
MLBooru 링크
캡션 생성



















