SD3 - Anime Consistency Experiment - v0.3
세부 정보
파일 다운로드
모델 설명

V0.4:
사전 학습 단계:
우선 몇 가지 단계를 완료해야 합니다;
콜라보레이션 Jupyter 노트북 설정을 완료하고, 작은 반-SFW 훈련 데이터를 사용해 콜라보레이션 테스트를 실행합니다.
시스템이 옷과 벌거벗은 상태에서 정확히 자세를 취할 때까지 성적 행위나 성 관련 요소를 도입할 의도가 없습니다.
전체 자세 태그셋은 NUDE와 CLOTHED 이미지와 모두 연결되어 있으며, 데이터셋 구분은 이 모델 전용의 고유 태그로 이루어질 것입니다. 이번 콜라보레이션 기반 학습은 단지 반-SFW(옷 입은) 요소만을 포함합니다. 제 이미지 세트에 명백한 성적 NSFW 요소가 있어, 구글이 제 콜라보레이션 시스템을 사용해 컴퓨팅 환경과 시스템을 테스트하는 동안 계정 정지당하는 것을 원하지 않습니다.
주요 자세 이미지 선택: 약 1215개의 ~pose 이미지,
시점: 각 객체 편차에 대해 70개 이미지
목표 트렁크 각도: 3 * 5
정면에서
측면에서
뒤쪽에서
기준 각도: 3 * 5
정면 시점
위에서 본 시점
아래에서 본 시점
목표 머리 각도: 3 * 5
관찰자 방향, 정면
측면 방향
등 뒤 방향
눈 각도: 5 * 5
관찰자 바라보기
측면 바라보기
정면 바라보기
바라보지 않기
아래 바라보기
인간 형태 연결:
트렁크:
세운 자세(수직 상반신):
앉아 있음: <- 항상 엉덩이로 앉은 상태를 전제
표면 연결:
표면 위에 앉음
테이블 위에 앉음
의자 위에 앉음
소파 위에 앉음
바닥 위에 앉음
침대 위에 앉음
누워 있음(수평 상반신):
뱃속으로 누움, 복부로 누움
등을 대고 누움, 뒷부분으로 누움
옆으로 누움
표면 연결:
바닥에 누움
테이블 위에 누움
의자 위에 누움
침대 위에 누움
소파 위에 누움
잔디 위에 누움 <<<<<<<<
팔 연결:
상완
하완
손
손 연결:
손 흔들기
V 자 손동작
다리 연결(허벅지, 발목, 발):
다리 모음(전체 다리):
허벅지 모음
무릎 모음
발 모음
다리 벌림(전체 다리):
허벅지 벌림
무릎 벌림
발 벌림
발 모음:
다리 교차(부분적으로 가려진 허벅지):
발목 교차(부분적으로 가려진 발목):
다리 들기(전체 다리):
다리 내리기(전체 다리):
다리 벌리기(전체 다리):
형식 자세: 모든 자세에 도구와 필요성에 기반한 태그 객체 연결.
누워 있음
앉아 있음
앉은 자세
무릎 꿇기
네 발로 서기
결과는 다음과 같아야 합니다;
- 소파에 앉아 다리를 교차한 채 감자칩을 먹고 있는, 정면에서 본 세운 자세의 여성.
이 1,000개의 최고 품질 자세 이미지가 전체 출력 이미지의 기반이 됩니다. 각 자세는 5단계 품질의 그라디언트로 고정되어 고유한 비균일 배경 위에 중첩됩니다.
그라디언트, 다색, 다형태, 개별 형태, 패널, 그리고 몇 가지 danbooru 이미지 효과 배경.
각 배경은 NAI의 디렉터 도구를 사용한 재색상 및 디프리 기능 덕분에 무작위로 그림자 요소와 공간 형태를 도입합니다. 각 품질 수준마다 하나의 배경이 할당됩니다.
이는 배경을 구분하고, SD3 내부에 이미 존재하는 요소를 기초 모델이 더 잘 포착할 수 있도록 ‘잡는 지점’을 추가합니다. 이는 올바르게 태깅할 때 더 일관된 네거티브 프롬프팅을 가능하게 해야 합니다.
상황 및 맥락 앵커: ~1000개의 이미지, Euler 샘플러를 사용한 직접 원시 출력 추론
각 앵커는 모델이 알아야 할 내용과 이미 알고 있는 내용을 연결하는 방식으로 구성됩니다. 이는 대량의 이미지를 추가로 사용하지 않고도 ‘현재 존재하는 것’과 ‘원하는 것’을 연결합니다. 이 이미지 세트를 매 버전 생성 시 추가하지 않으면 결과가 열악해질 것입니다.
저는 작은 이미지 하위 집합을 형성할 예정입니다. 정확히 몇 개가 필요한지는 아직 모르지만, 추론 결과를 사용해 수동으로 생성해야 하므로 비교적 빠르게 생성할 수 있을 것입니다.
각 맥락당 약 10개의 이미지로 충분할 것입니다. 다중 맥락은 조금 더 복잡하지만 가능할 것입니다. 단일 태그 맥락 100개만으로도, 추가 정보 없이도 현재 SD3에 새로운 요소를 모두 연결하는 데 충분할 것입니다.
V0.3:
릴리즈:
요약: 스텝: 50, 해상도: 1024x1024, 샘플러: euler, cfg 재조정: 0.4-0.8, 구성 문자열: 9,
lora 강도: 0.5-0.8
서론:
결과는 V0.2에 비해 훨씬 정확하고 선명하며 강력했습니다. 학습 및 진보 성공이 저를 이 결정으로 밀어넣었습니다. 단지 약 150개의 애니메이션 일관성 이미지 세트만으로도, 제 4090 GPU를 사용해 SuperTuner에서 학습하는 것은 너무 느립니다. 더 큰 모델의 이미지 수를 제 PC에서 학습하면 시간이 기하급수적으로 증가할 것이므로, 어제 Jupyter 노트북을 설정하고 일련의 실험을 진행했습니다. 이제 A100 및 H100을 갖춘 더 강력한 클라우드 서비스에서 SuperTuner를 실행하여, 약 45,000개의 자세 학습 이미지와 핵심 고정 특성 1,500개의 이미지를 가능한 빠르게 완료할 계획입니다. 진정한 버전 1.0 릴리즈 시, 전체 이미지 데이터셋과 태깅을 공개할 것입니다. 올바른 결과를 얻기 위해 여러 차례 재학습이 필요할 것으로 예상되며, 비용이 상당할 수 있지만, 현재의 작은 결과를 보면 이 투자가 충분한 가치가 있을 것이라 생각합니다.
발견:
SD3는 매우 명확한 검열 포인트를 가지고 있습니다. 검열 포인트는 태그의 완전한 제거보다는 태그의 불안정성을 보여줍니다. 불안정한 태그는 일관성을 달성하려면 완전히 고정하고 재학습해야 합니다. 대형 모델 학습 시 이 태그들을 제거하세요. 제대로 고정하고 재학습해야 합니다. 이러한 행동을 완전히 잊으려면 해당 행동에 대한 완전한 재학습이 필요합니다. 저는 새끼새 LORA를 만드는 데 사용한 것과 유사한 LORA 가중치 시스템을 사용했고, 이는 이미지 학습과 디테일을 완전히 파괴했습니다. 제가 이 문제를 미리 경고했고, 여기에 SD3에서 명백한 증거가 있습니다.

태깅은 매우 매우 중요합니다. 자세, 각도, 오프셋, 특히 카메라가 매우 중요합니다. 카우보이 샷이 다른 태그들에 의해 손상되고, 초상화가 다른 태그와 혼합되는 등의 문제가 발생합니다. 여기에는 해결해야 할 많은 문제가 있지만, 약간의 노력으로 단시간 내에 충분히 해결 가능할 것입니다.

상당량의 더 많은 이미지 데이터, 더 많은 이미지 정보, 그리고 낮은 강도의 학습 시퀀스가 필요합니다. 학습 경로, 패턴, 특정 설정은 핵심 모델을 파괴하지 않고 이를 학습하는 데 필수적입니다.

이 모델은 벌거벗은 상태를 마치 옷처럼 취급하는 것 같습니다. 모든 것이 피부 위에 입히는 또 하나의 레이어인 것처럼, 따라서 피부가 무엇인지 학습해야 합니다.
손은 완전히 끔찍합니다. 기본적으로 왜 이렇게나 나쁜지 이해할 수 없지만, 끔찍합니다. LORA 미세 조정은 손 문제를 상당 부분 수정하지만, 새로운 손 문제도 도입합니다. 기초 모델로서는 매우 나쁜 모습입니다. 누군가 HAGRID를 사용하지 않았습니다.
SD3에서는 네거티브 프롬프팅이 때때로 거의 효과가 없거나 전혀 없습니다. LORA 유무와 관계없이 결과는 동일하며, 네거티브 프롬프팅을 완전히 무시하거나, 예상치 못하고 매우 해로운 방식으로 포지티브 프롬프팅과 상쇄합니다.
가중치가 제대로 가중되지 않았습니다. 기본 응답에 매우 많은 불일치하는 가중치가 학습되어, 이미지 중첩, 텍스처 파괴, 중첩 문제, 명백히 검열되고 파괴된 형태 등을 초래합니다. 이 문제를 해결하는 방법을 찾아야 합니다. 전체 핵심 모델이 어딘가 3~4배의 이동이 필요하기 때문에, 모델 가중치를 전체적으로 재조정해야 할 수도 있습니다. 현재 정확히 무엇을 의미하는지 확신이 서지 않지만, 이 주제를 연구하고 논문 및 후속 논문을 통해 더 많은 정보를 확인할 예정입니다.
성공:
스타일 적용. 정확한 자세 학습을 통해 애니메이션 스타일을 모든 개념 위에 중첩할 수 있을 것이라고 80% 확신합니다.
낮은 강도는 예상보다 훨씬 적은 손상을 줍니다. 이 LORA의 크기는 매우 작기 때문에, 이 작은 LORA 크기로 실험이 성공한 것은 제게 가장 흥미로운 측면 중 하나입니다. 더 큰 LORA들이 일반적인 시스템이었고, Kohya는 일반적으로 큰 LORA를 출시했습니다. 더 큰 LORA는 제가 학습한 것보다 훨씬 더 많은 이미지 정보가 있을 때 필요할 수 있지만, 제가 사용한 110개 하위 집합에는 필요하지 않습니다.
일부 NSFW 요소가 도입되었지만, 그들은 여전히 자극에 대해 통과하지 못했습니다. 여성 형태에 대한 전체 NSFW 하위 집합을 포함할 만큼 충분히 희망적이며, 이는 일관성 핵심 이미지 세트 요구량을 약 1800개 이상으로 끌어올릴 것입니다.
여러 개의 <<< 자세 요소가 태그 풀에 도입되어, 많은 이미지 데이터를 사용하지 않고도 자세를 단순하거나 때로는 깊이 있게 제어할 수 있게 되었습니다.
실패:
신체 왜곡. 몸은 거의 자극 없이도 비틀리고 왜곡되어 끔찍한 모습을 보입니다. 왜곡시키는 것이 약간 더 어려워졌지만, 현재는 완전한 자세 세트를 도입할 때까지 계속 발생합니다. 올바르게 설정된 토글은 적절한 출력을 생성하지만, 그렇지 않을 경우엔 스스로 시도해보세요.
색상 오류. 흰색 배경은 매우 고정되어 있지만, V0.2에서 공개한 ComfyUI를 사용해서는 부정할 수 없습니다. 그 ComfyUI는 실험적으로 흥미로웠지만, 목표에 부합하지 않았으므로 단일 프롬프트로 전환하여 좋은 결과를 얻었습니다.
얼룩 문제는 더 나은 기준을 확립할 때까지 해결되지 않을 것입니다. NovelAI는 SD3 학습 데이터 생성을 위해 이 문제를 완화할 새로운 색상 교체 시스템을 도입했습니다. 따라서 현재로서는 충분하다고 생각합니다. 현재 SD3에 대한 Latents는 항상 호환되지 않지만, 활용 가능합니다.
강도가 높을수록 모델은 더 큰 손상을 입습니다. 이는 더 낮은 학습 강도가 필요하고, 세부 요소 미세 조정에 더 많은 시간이 필요하며, 더 중요한 고정 마스킹 및 레이어링에는 더 높은 학습 강도가 필요함을 의미합니다.
결론:
80% 목표는 아직 달성되지 않았습니다.
일부 목표는 이 기본 시스템에서 달성되었지만, 80% 비율을 처리하려면 확장이 필요합니다.
테스트 및 결과는 많은 태그에서 일관성이 25% 미만으로 저하되었고, 일부 태그는 이전에 시스템에 없던 것들에 대해 100% 성공했습니다.
제대로 된 애니메이션 시스템을 만들기 위해서는 전체 자세 시스템, 비율 시스템, 화면 앵커 고정점 시스템, 깊이 시스템, 회전 시스템, 그리고 표준 danbooru/gelbooru/sankaku/e621 카메라 비율 태그를 사용한 연관 카메라 접근점을 적용해야 합니다.
명백히 손상되고 검열된 태그:
이 태그들 각각은 제가 미리 경고했던 동일한 LORA 검열 시스템에 의해 완전히 파괴되었습니다. 사람들은 제 의견을 무시하고 그대로 실행했고, 자신의 모델을 완전히 망쳤습니다. AI 학위가 없는 사람의 말은 결코 들어주지 않습니다.
누워 있음
- 등으로 누움, 옆으로 누움, 침대 위에 누움 등 모두 사후 검열된 것으로 보이며, 제가 지금까지 본 가장 잔혹한 방식입니다. 그들은 검열 LORA 시스템을 사용해 결과를 단순히 밀어넣었습니다. 마치 낮은 전선이 걸린 좁은 도로를 18톤 트럭이 질주하는 것처럼, 전체 시스템을 완전히 파괴하고, 그 길을 건너는 모든 하부 구조를 날려버렸습니다.
앉은 자세
- 다른 것들보다는 상대적으로 덜 손상되었지만, 여전히 상당한 손상이 있습니다. 이와 관련된 모든 것은 매우 불안정하며, 명백합니다.
다리
다리를 조정하려고 할 때 자주 나타나는 완전히 분리되고 불편한 다리. 다리의 위치는 포즈와 함께 훈련해야 합니다. 대부분 추가 다리, 분리된 다리, 과도한 다리, 누락된 다리가 발생합니다.
실제 다리보다는 옷을 정의하는 것이 더 자주 필요하므로, 다리 태그를 사용하면 불편하게 느껴집니다. 마치 풍자처럼 보이지만, 다리 태그는 모든 다리의 기준점이 되어야 합니다. 이건 그냥 즉흥적으로 만든 것 같네요.
팔
원하는 위치에 팔이 생기기보다는 오히려 추가 팔이 생기는 경우가 더 많습니다. 이 문제는 꽤 많은 데이터가 필요합니다.
가untlet, 장갑 등을 사용하면 더 일관된 결과를 얻을 수 있습니다.
이들은 명백히 팔 전체 제어를 막기 위해 팔을 검열했거나, 팔을 충분히 튜닝하지 못했을 가능성이 있습니다. 어쨌든, 다리보다 팔을 수정하는 것이 덜 힘들기 때문에 저는 별로 신경 쓰지 않습니다.
사전 출시 소식:
초기 시스템을 훨씬 낮은 학습률로 완전히 재학습 중입니다. 이로 인해 100 에포크에서 생성 품질이 향상될 것입니다. 몇 시간 내에 테스트용으로 준비될 예정입니다. ComfyUI의 결과가 마음에 들지 않아, 나중에 더 단순한 버전을 만들 계획입니다.
V0.2:
이걸 하루 밤 동안 익히고 난 후, 셰프의 선택은 나쁘지 않습니다. 이 버전의 신뢰성은 훨씬 높아졌지만, 아직 완전히 학습되진 않았습니다. 분명히 목표에 가까워지고 있습니다. 여기에는 마법이 없고, 단지 선택적 추출뿐입니다. 아직 완전히 준비되지 않았지만, 그 목표를 향해 분명한 가능성을 보여줍니다.
0.5–1.0 강도 권장. 0.6 이상 사용 시, 흰 배경을 무효화하고 캐릭터를 위한 더 자세한 장면을 프롬프트로 제공하세요.
프롬프트:
장면을 설명하세요,
여성용, danbooru 태그로, 특징을 기술하세요 (이 문장을 그대로 사용하지 말고, 일관성 있는 실제 태그를 사용하세요).
부정 프롬프트:
단순한 배경, 흰 배경, 흰색 아무것도
V0.1:
매우 낮은 강도로 실행하는 것을 권장합니다;
0.1–0.4가 가장 잘 작동했습니다.
LCM 샘플러가 이 버전에 매우 잘 맞습니다.
Euler, DPM2, HEUNPP2, UniPC 등을 시도해보세요.
EULER A, DPM2A, 또는 유전적 샘플러는 절대 사용하지 마세요.
ComfyUI는 테스트 환경이므로, LORA 로더를 준비해 두세요.
이것은 Consistency v1.1 LOHA SDXL과 동일한 학습 데이터 이미지를 사용합니다.
그러나/// 저는 태그를 매우 많이 재처리했습니다. (booru) 태그가 SD3과 관련이 없거나 매우 약하게 연결되어 있다고 판단했기 때문에, 단순한 태그만 사용하면 오히려 해로울 것이라 예측했습니다. 지금까지 태그 수를 늘리고 단순한 문장을 사용해도 효과가 크게 향상되지 않았습니다. 따라서 이 정보 부족을 해결하기 위해, 전체 1500장의 Consistency v2 기본 이미지와 약 45,000장의 자세 기반 정규 이미지 세트를 도입할 계획입니다.
이것은 제가 SD3 LORA를 시도한 첫 번째 시도이며, 처음으로 학습한 것입니다. 오후 시간을 대부분 할애해 SimpleTuner를 윈도우 Docker 환경에서 작동하게 만들었습니다. SimpleTuner의 문서가 부족하고 시스템이 복잡해 이 작업은 쉽지 않았지만, 덕분에 4090에서 학습할 수 있게 되어 만족합니다. 또한, 이 프로그램이 던지는 C++ 수준의 오류를 참아내기만 한다면, 더 유연한 학습 환경을 제공합니다.
발견 및 결과:
제 발견은… 별로 좋지 않았습니다. 오히려 작동했다는 게 놀라울 정도였고, 일관성 있는 결과를 만들어낸 것更是 충격이었습니다. 물론 조금 재미있게 사용할 수는 있고, 일부 NSFW 요소도 있지만, Autism 버전만큼 두드러지진 않습니다. 심지어 일부는 기본 SD3보다 덜 두드러져 흥미로운 결과였습니다.
LORA의 크기는 매우 작고, 텍스트 리파이너는 명백히 텍스트를 생성하려는 경우를 제외하고는 불필요합니다.
여기에는 상당한 결함이 있습니다. 신체가 종종 사지를 생성하지 못하고, 손이 항상 나타나지 않습니다. 일부 각도에서 다리가 왜곡되거나 비틀어집니다. 팔도 왜곡되거나 비틀리지만, 일반적으로는 덜 심합니다.
많은 신체 위치 오류를 수정하지만, 새로운 오류도 도입합니다! 내일 성공과 실패의 전체 목록을 정리하겠습니다.
성공:
현재까지 낮은 강도의 포즈 제어를 어느 정도 처리할 수 있는 것으로 보입니다. 부서진 사지, 찌그러진 트렁크를 수리하며, 심지어 새로운 형태의 부서진 사지와 찌그러진 트렁크를 도입하지만, 그 정도는 대체로 덜 심합니다.
실패:
이것이 80% 성공률을 넘을 것이라고는 진심으로 믿지 않습니다.
일관성의 목표는 이 수치에 도달하는 것이며, SD3 환경에서 이 목표를 최소한 달성하기 전까지 이 실험을 성공으로 간주하지 않을 계획입니다. 이는 NAI에 비해 훨씬 열등하며, PDXL이나 Consistency v1.1이 만들어내는 수준과 비교조차 되지 않습니다. 더 많은 스텝과 더 많은 학습이 필요합니다.











