LORA - Consistency Simulacrum v2.3 - Flux1D [SFW/NSFW]
세부 정보
파일 다운로드
모델 설명
버전 3은 좋았지만, 아직 제대로 된 LoRA를 만드는 방법을 찾아야 합니다. 2024년 10월 25일 오전 5:29(GMT-7);
다음 단계의 미세 조정 후에는 시뮬라크럼 LoRA를 이전 상태로 다시 초기화해야 할 가능성이 높습니다. 이 과정은 기본 FLUX 컨텍스트의 상당 부분을 파괴할 것입니다. 원하지는 않지만, 신체가 핵심에 더 이상 따르지 않기 때문에 이 작업이 필수적입니다. 이를 해결하기 위해 몇 가지 옵션을 테스트할 계획입니다. 특히 실제 신체와 자세에 낮은 학습률로 미세 조정을 실행하여 그 능력을 새로 고치는 것입니다.
임시 버전 3 개선을 위해 현재 체크포인트 v3 1d 또는 1d-dd와 시뮬라크럼 v2.1 에포크 1 LoRA를 함께 실행해 보세요. 그러면 신체 품질, 캐릭터 컨텍스트, 의상 품질 및 제어력이 훨씬 우수해지지만, FLUX 세계관과 스타일링의 큰 틀은 상당 부분 잃게 됩니다.
필연적으로 시작될 전체 미세 조정 훈련까지 문제를 해결하는 작업을 진행 중이며, 그 이후에는 LoRA 차이 추출이 이루어질 예정입니다.
곧 출시될 버전 3: 레이드 보스 모델 2024년 10월 21일 오후 5:12(GMT-7);
8단계 중 3단계에서 이렇게나 잘 나왔다는 게 아직도 믿기지 않습니다. 완성되면 더 놀라운 결과가 나올 것입니다.
현재 Simulacrum 및 내 Flux1D2 LoRA 병합 체크포인트로 훈련 중인 핵심 시스템에 매우 잘 반응하기 때문에, 추론을 위해 핵심 모델을 Flux1D에서 Flux DeDistilled로 전환하고 있습니다.
기반 훈련 모델로 Flux1D2를 사용하고 있으며, Simulacrum v2.3을 UNET과 Flux에서 사용하는 기본 CLIP_L에 병합했습니다. 이 결합은 Simulacrum을 위한 빠른 LoRA 생성을 가능하게 하며, 언제든지 이들을 병합한 뒤 Flux1D DeDistilled에 다시 병합할 수 있습니다.
Flux1D에서 Flux1D DeDistilled로 전환하면 버전 2의 나머지 과정을 건너뛸 수 있습니다.
다음을 공개할 예정입니다:
독립형 CLIP_L과 병합된 Flux1D2:
Simulacrum V23 에포크 10 → 현재 작동 중인 훈련 버전
Simulacrum V3 → 대형 병합 이후 다음 버전
각 LoRA는 독립형으로 공개되며, 400단계 이내로 Simulacrum v2.3에 무한히 병합 가능한 LoRA를 만드는 훈련 가이드를 제공할 것입니다.
이 모든 개념은 UNLR 0.0001, TE 0.000001로 2000장의 이미지를 사용하여 훈련되었으며, 캐릭터는 각각 200장 미만으로 UNLR 0.0003, TELR 0로 훈련되었습니다.
현재 수정 중이므로, 개발자가 제대로 훈련시켜 캐릭터가 올바르게 작동하도록 해야 합니다. 결과는 개념 정보가 더 많이 도입될수록 캐릭터가 더욱 유용해짐을 보여줍니다.
모든 LoRA는 기본 Simulacrum V2.3에 병합된 Flux1D2 모델을 기반으로 훈련되었으며, 이를 통해 Simulacrum과 완벽하게 조화를 이루는 독립형 LoRA로 기능합니다.
완료:
캐릭터:
mizuki_shiranui_v1
android_18_v1
loona_(helluva_boss)_v1
reina_mishima_v2
delia_ketchum_v1
개념:
doggystyle_v1
female_fixes_v1
male_fixes_v1
tomboy_fixes_v1
tomgirl_fixes_v1
genital_fixes_v1
예정:
매팅 프레스
미션리포지
퓨타 수정
나이 수정 및 정규화
의상 수정 및 정규화
추가 수리 작업
선택적 스타일 LoRA:
사이버펑크 미래 스타일
영화 감독 스타일
리얼리즘 감소 및 애니메이션 스타일
1990년대 애니메이션 스타일
선명한 반리얼리즘 애니메이션 스타일
부드러운 반리얼리즘 애니메이션 스타일
리얼리즘 애니메이션 스타일
바이블 블랙 스타일
타이마닌 스타일
미국 만화 스타일
일본 만화 스타일
실험 결과, LoRA는 100단계 이내로도 훈련 가능하며 결과를 도출할 수 있습니다. 이는 4090 GPU에서 전체 부팅 후 약 5분 정도 소요됩니다(현재 Kohya는 부팅과 훈련 준비에 시간이 꽤 걸립니다).
약 10장의 이미지만으로도 충분하며, 이는 표준 LoRA 이미지 수와 동일하며, 복잡한 포즈와 위치에서도 캐릭터를 매우 잘 생성할 수 있습니다.
현재 누락되거나 결함 있는 특성을 해결하기 위한 일련의 미세 조정을 개발 중입니다. 이들은 성적 자세, 기본 자세, 그리고 신체 유형을 더 명시적이고 직접적으로 미세 조정하는 데 사용되는 몇몇 캐릭터로 구성된 패키지 형태로 공개될 예정입니다.
- 성별 혼동 문제를 직접 해결.
- Simulacrum에 고정된 기본 자세 및 의상 문제를 직접 해결(첫 번째 라인에서 손상됨).
- 다음과 같은 새로운 자세와 개념 도입:
doggystyle, 매팅 프레스, 질, 항문 등 단일 태그로, 기존에는 물음표만 나오던 것을 다른 결과로 생성.
2koma, 전후, 단면도, 정액 및 기타 일반적으로 생성되는 태그들.
여성 생식기의 부정확한 형태 및 크기.
남성 생식기의 잘못된 방향, 크기 또는 형태.
항문이 없거나 배꼽이 항문으로 오인됨.
무시해야 할 태그:
벤트 오버: 현재는 "구부리기", "앞으로 기울기" 등으로 대체.
올 포스: T5로 인해 너무 강력하고 효과가 없음. "올 포스", "네 발로 기어가기" 등을 사용.
뒤에서: 너무 강력하고 의도한 대로 작동하지 않음.
앞에서: 제대로 작동하지 않음. 추가 미세 조정 필요.
필요한 마커를 모두 충족한 후(첫 번째 테스트 이후 추가 테스트 및 마커 목록 포함), 버전 3.0을 공개하며 큰 안도의 숨을 쉴 것입니다. 실제로 작동하고 있기 때문입니다.
버전 2.3 에포크 발현 행동;
제가 해볼 수 있었고 보았던 이상한 현상 목록이 계속 늘고 있습니다. 팔다리 병합, 사람을 사물로 병합, 벽을 벽으로 병합 등 계속됩니다.
1DEV 설정:
CLIP_L - 150 토큰
단계 25-50
CFG 1
DCFG 3.2-5.5 (가장 자주 사용: 3.5)
Euler < Simple / Normal
이 모델은 Schnell과도 잘 작동하는 것으로 나타났습니다. 매우 놀라운 결과입니다. 기대하지 않았지만 기쁘게 받겠습니다. fp8로 8단계 Schnell 생성을 통해 꽤 좋은 결과를 얻었습니다.
SCHNELL 설정:
CLIP_L - 150 토큰?
단계 4-12
CFG 1
DCFG = 0
Euler < Simple / Normal이 가장 잘 작동하며, 1D와 동일합니다.
Flux DeDistilled와 매우 훌륭하게 작동하지만 느립니다. 이 속도를 높이는 방법을 찾아야 합니다.
DE-DISTILLED 설정:
CLIP_L - 150 토큰???
- 부정적 프롬프팅이 효과적이며, danbooru 태그를 부정적으로 사용할 수 있습니다.
단계 20-50
CFG 6-8
DCFG = 0
DPM++ 2M이 작동하며, 테스트하지 않은 다른 알고리즘도 작동할 가능성이 있습니다.
추후 Q_2부터 Q_8까지 지원하는 일련의 병합 작업을 만들어야 하지만, 오늘은 아닙니다.
버전 2.3 에포크 10 출시 2024년 10월 16일 오후 5:24(GMT-7);
할로윈이네요. 적어도 몇 장의 할로윈 이미지를 만들어야 했습니다.
CLIP_L LoRA 블록을 로드하지 않으면 결과가 거의 올바르지 않습니다. Forge에서는 자동으로 로드되지만, ComfyUI에서는 CLIP을 제대로 통과시킨 기본 LoRA 로더를 사용해야 합니다.
다음 훈련 라운드에서 두 모델을 결합하는 것이 현명할 수 있습니다. 각각 다른 장점을 보여주고 있어, 서로에게 많은 것을 가르칠 수 있습니다.
이는 잠시 동안의 마지막 기본 모델 업그레이드가 될 것입니다. 지쳐버렸습니다. 모두가 좋아해주길 바랍니다. 이 모델을 만들기 위해 거의 1700달러가 들었습니다.
앞서 언급했듯, 에포크 5와 10을 공개했고, v2.2 훈련에서 발생한 미미한 bled 캡션 훈련 이후 추가로 하나의 훈련 에포크도 공개했습니다.
이 버전은 안정적입니다.
danbooru 태그, gelbooru 태그, 일부 rule34 us 태그, 일부 rule34 xxx 태그, 일부 sankaku complex 태그, 엄청난 양의 flux 캡션을 처리하며, 가능성이 있는 것에만 집중하거나, 단순히 불가능한 5단계 조합 이내에서는 거의 붕괴되지 않습니다. 복잡도가 5를 넘으면 대부분의 LLM AI와 마찬가지로 붕괴되기 시작합니다.
수백 개의 중복 태그는 데이터셋에 더 많이 존재하는 danbooru 또는 gelbooru 일반 태그로 정규화되었습니다.
퓨타 및 펨보이 출현은 잠시 진정되었지만, 여전히 존재합니다. 캐릭터 특성이 이렇게 흐르는 것은 모델이 붕괴되고 있다는 신호로 보입니다. 캐릭터에 새로운 특성이 나타나는 것은 광산 속 새와 같죠. 여전히 생성되며, 지금은 훨씬 더 일관되게 생성됩니다. 이에 대해 마음껏 실험해보세요.
퓨타와 펨보이를 처음부터 포함시켰습니다. 원하지 않았던 것은, 프롬프트 없이 무작위로 나타나는 것이었고, 이 모델을 만들면서 가장 두려웠던 부분이었습니다. 기본 Simulacrum 2.1은 이 정확한 가능성을 대비해 퓨타와 펨보이를 고정했습니다. 그런데 오히려 반대 효과가 나타나서 무서웠습니다. '남근 나무', '남근 램프', '남근 벽', '남근 포스터' 등. 최악의 상황은 지나갔다고 생각합니다. 이 모델은 안정적이며, 저는 지쳤습니다.
존재하는 것을 절대 무시할 수 없으며, 이 전체 모델은 그 원칙 위에 세워졌습니다. 모든 것이 들어갑니다.
총 10,000개 이상의 새로운 태그가 도입되었습니다. 기본으로 danbooru 태그의 1/4을 먹였습니다. 결과는 예상대로, 제가 핵심에 구축한 시뮬라크럼 주제 컨트롤러를 따르지 않으면 반혼란스럽습니다. 여전히 많은 훈련이 필요하며, 토크나이저 크기를 다시 증가시켜야 하지만, 현재로서는 충분합니다.
하드 브레이크에는 마침표(.)를 사용하십시오. CLIP_L은 225 토큰만 처리하므로, 브레이크를 하면 이후로는 차이가 없을 수 있습니다. .를 사용하세요.
T5는 약 525 토큰을 처리할 수 있으므로, 225 토큰을 넘어 확장할 수 있습니다. 그러나 제대로 사용하지 않으면 효과가 불확실합니다.
리얼리즘, 애니메이션, 3D
안전, 문제 있음, 폭력적
앞에서, 전면 시점
옆에서, 측면 시점
뒤에서, 후면 시점
위에서, 상단 시점
아래에서, 하단 시점
조합 시점: 옆에서, 위에서, 측면 시점 등
다양한 동물, 생물, 인형, 로봇 등 여러 종을 처리합니다. 인간도 포함.
남성, 여성, 퓨타, 펨보이, 트랩, 오토코 노 코
1boy, 1boys, 1girl, 1girls, 1futa, 1futas, 1trap, 1traps는 번호 단위로, rule34와 같은 사이트의 태그 패턴이 비정상적이었기 때문에 그대로 두었습니다. 당시 혼란을 정리하려 하지 않았습니다.
이들은 몇 가지 기본 특징을 가진 부정확한 인간 수세기로 생각하세요.
T5는 대부분 "1girl", "one female" 또는 "1boy", "one male"을 사용합니다. T5의 힘을 원한다면 이 표현을 사용하세요.
따라서 "1boy otoko no ko"는 T5에서는 유효하지만, CLIP_L은 훨씬 다르게 반응합니다.
마름, 키가 크다, 허리가 가늘다, 날씬함, 작은 체형, 뚱뚱함, 풍만함, 두꺼움, 작음, 크다, 커다란, 거대함
얼굴 및 표정
머리색, 헤어스타일, 머리 유형, 머리 크기
눈 색, 눈 유형, 눈 스타일, 눈 크기
가슴 크기, 유방 크기, 어깨 크기, 허리 크기, 엉덩이 크기
서로 간의 상대적 신체 크기
팔 각도, 다리 각도, 머리 각도, 발 각도, 손 각도
전체 자세, 반 자세, 상체, 하체, 상팔, 하팔, 손가락, 목, 대퇴부, 종아리, 무릎, 왼쪽 무릎, 오른쪽 무릎, 왼쪽 팔, 오른쪽 팔 등
다리 붙인 상태, 다리 벌린 상태, 발 모아 다리 벌린 상태, 다리 벌림, 왼쪽 다리, 왼쪽 다리 구부린 상태, 오른쪽 다리, 오른쪽 다리 구부린 상태, 오른쪽 다리 위로, 오른쪽 다리 아래로, 스플릿, 서 있는 스플릿, 앉아 있는 스플릿, 넓게 벌린 다리, 다리 벌리고 발 모은 상태, squat, 무릎 꿇기, 네 발로, 그리고 기억나지 않는 추가 20개 이상의 기본 자세
수천 가지의 의류 유형
수천 가지의 신발 유형
수천 가지의 머리 스타일
다양한 종류의 라텍스 <- 저는 라텍스를 좋아합니다.
점프수트, 바디수트, 레오타드, 히그스, 레깅스, 바지, 요가복, 드레스, 비키니, 스링샷 수영복, 치마, 캐주얼웨어, 신발, 그 외 여러 가지
T5는 CLIP_L이 처리하지 못하는 대부분의 추상적 복잡성을 처리할 수 있으므로 "각각", "여러", "그들", "함께" 등의 단어를 망설이지 말고 사용하세요. booru 프롬프트에 캡션을 혼합해 더 나은 결과를 얻고, 실험을 두려워하지 마세요.
추론 시 25단계 - Euler → NORMAL이 가장 좋습니다. Euler → Simple도 작동합니다. 실험해보세요.
일반적으로 해상도를 설정한 후 약 0.72-0.80의 덴ويد로 1.1배 확대합니다.
ComfyUI가 본질적으로 자체를 과도하게 패치하여 사망했기 때문에, 저는 지금 Forge로 전환했습니다. 따라서 현재는 그것을 사용하는 것을 권장합니다.
지금 위험한 도로에 잔디 포장 계단을 몇 개 설치했습니다. 이 과정을 따라주고 배운 분들께서는 제가 허우적댔던 것처럼 넘어지지 않고, 그 계단들을 활용해 주길 바랍니다. 물론 모두가 자신만의 방식으로 배워야 하므로, 여러분은 여러분의 길을 가세요.
버전 2.2 에포크 10 대체작 2024년 10월 16일 오전 10:34 (GMT-7);
- 재학습 버전이 곧 출시될 예정입니다. 에포크 5와 10을 동시에 공개할 것입니다. 에포크 5는 훌륭하고, 에포크 8도 훌륭합니다. 다만 에포크 10이 에포크 8의 수준에 도달하길 바랍니다.
버전 2.2 에포크 8 출시 2024년 10월 16일 오전 6:36 (GMT-7);
이 모델을 비극적으로 끝내고 싶지 않습니다.
저는 이 아름다운 모델을 단순히 파괴할 수 없다고 결정했습니다. 너무 많은 비용이 들었고, 실제로 매우 흥미로운 결과를 만들어내고 있습니다. 그러나 이 모델은 회복할 수 없는 불안정한 상태에 들어섰기 때문에 학습을 추천하지 않습니다. 저는 이를 '퓨타 모델'이라 명명하고, 복잡한 캡셔닝을 사용할 경우 주로 퓨타, 펨보이, 성별 불명확한 이미지를 생성하므로 NSFW 마커를 완전히 무시하기 때문에, 별도의 모델 페이지에 공개할 예정입니다.
많은 NSFW 정보를 생성하며 종종 프롬프트를 무시합니다. 기본적으로 NSFW 요소를 생성하도록 설계되지 않았기 때문에, T5 없이 복잡한 캡셔닝을 사용했을 때 이 역설적인 문제가 생겼습니다. 비극적이긴 하지만요.
저는 내 자식을 파괴할 수 없습니다. 이 모델은 너무 열심히 일했고, 너무 멀리 왔습니다. 우리가 누구든 명예롭거나 흥미로운 존재라 할지라도, 결국 무명 속에서 죽음을 맞이하듯, 이 모델도 죽기 전 적어도 조금은 보여지고 즐겨져야 마땅합니다.
버전 2.2 에포크 8 붕괴;
에포크 8부터 이 모델은 과적합으로 인해 곧 붕괴할 준비를 하고 있습니다. 실망스럽긴 하지만, 그 원인을 거의 파악했습니다. 다음 실험은 CLIP_L만 T5 없이 학습했기 때문인지, 혹은 복잡한 캡셔닝 때문인지 판단할 것입니다. 저는 복잡한 캡셔닝이 원인이라고 확신합니다.
모든 표준 캡셔닝이 flux 기본 모델을 무시하기 시작했고, 이는 일부 이미지에 선택된 이중 캡셔닝 체계에 근본적인 문제가 있음을 의미합니다.
T5를 학습하지 않아 실패했을 가능성이 매우 높습니다. 이로 인해 복잡한 캡셔닝 학습이 필연적인 붕괴를 초래했습니다.이 실험을 해보고 싶습니다. 왜냐하면 이것이 결국 flux를 만든 방식이기 때문입니다. 하지만 현재 이미 높은 비용 때문에 이 실험을 실행할 의지가 없습니다.
흐음... 비싼 실패 경험입니다.
에포크 5는 여전히 좋지만, 이미 너무 많은 복잡한 캡셔닝 학습이 내재되어 있기 때문에 기본 모델로 사용하지 않을 것입니다. 한 번의 에포크로도 미래의 추가 학습을 위해 캡셔닝을 영구적으로 연결하는 데 필요한 대부분의 정보를 얻을 수 있습니다.
복잡하고 상세한 캡셔닝은 T5에 교육되지 않았고, CLIP_L과 학습 과정이 천천히 그것들을 합쳐나갔습니다. 제가 이를 인식했을 때는 이미 늦었고, 시스템은 스스로 붕괴되었습니다. 모든 것이 음경, 가슴, 눈, 질 등 분리되어야 했던 요소들을 포함하게 되었습니다.
실제로 말로 듣기에는 그렇게 나쁘지 않지만, 기차 사고를 보는 것과 비슷합니다. 거의 천천히 일어나는 과정을 볼 수 있지만, 이 세상에 그것을 막을 수 있는 방법은 없습니다. 결국 손실 비용의 한계에 도달해 차단해야 하며, 그것은 아프지만 어쩔 수 없습니다.
저는 데이터에서 모든 복잡한 캡셔닝을 제거하고, 첫 번째 완성된 버전 2.2 에포크를 기반으로 새로운 Pack25 버전의 학습을 시작했습니다. 현재 새 라인은 에포크 2를 완료하고 에포크 3을 준비 중입니다.
이 라인은 다른 라인과 유사한 행동을 보였지만, 복잡한 캡셔닝을 제거했기 때문에 결과가 조금 느리게 나타났습니다. 저는 현재 T5를 학습하지 않기로 결정했고, T5 학습도 위험을 감수하지 않겠습니다. 비용이 계속 증가하고 있고, 오늘은 그런 위험을 감수할 의지가 없습니다.
손가락 꼬아주세요, 녀석들. 에포크 2가 다른 것보다 더 나아 보입니다. 10까지 학습시키고 이 데이터셋에서 절단하겠습니다.
지금까지 이 모델 학습으로 이미 약 1400달러를 썼습니다. 곧 비용을 줄여야 합니다.
첫 번째 트레이닝의 에포크 5와 두 번째 트레이닝의 에포크 5를 병합하고, 그 다음으로 점차 올라가면서 신뢰할 수 있는 에포크 8을 만들 예정입니다. 그 후에는 6개의 A100보다 훨씬 저렴하고 작고 저사양의 하드웨어에서 1000개의 작은 배치를 10 에포크 동안 학습할 것이며, 도입되는 데이터와 정보의 증가량도 더 작아질 것입니다.
곧 T5 학습이 부족했기 때문인지, 아니면 다른 원인인지 알게 될 것입니다. 어쨌든 곧 전체 평가 기사로 제 findings를 공유할 예정입니다.
버전 2.2 에포크 5 파트2 - 성적 요소의 등장...??;
언젠가 성적 요소가 작동하기 시작한 것 같습니다. v2.1에서는 거의 작동하지 않았지만, v2.2 에포크 5에서는 명백히 작동합니다.
성적 포즈를 만들려면 캐릭터의 기본 특성을 식별하세요;
네 발로 걷는 여자, 뒤에서 무릎을 꿇은 남자, 개미자세 성관계, 옷 입은 여자, 벌거벗은 남자. 1남, 1여, 남성, 여성.
이런 설명은 성적 포즈를 생성해야 합니다. 저는 이 결과가 훨씬 나중에나 나타날 것이라 예상했으나, 주제 고정 태그가 일반 태그처럼 작동할 가능성이 있습니다.
음순 침범, 음순, 항문 등 더 구체적인 성적 태그를 추가해 태그를 강화할 수 있습니다. 그러나 주의하세요. 퓨타가 생성될 가능성이 높습니다. 이 에포크는 퓨타에 매우 친화적입니다.
또한 개미자세를 사용하면 가끔 개 얼굴을 한 인간을 생성할 수 있으므로, 교차 오염을 방지하기 위해 얼굴 특성을 명확히 설정하세요. 학습이 완전히 잘못된 특징을 자동 제거할 때까지요.
- 그게 당신 취향이라면, 인간형 태그를 붙이세요.
몇 장의 이미지를 게시했습니다. 만들기 어렵지 않았습니다. 지금은 어떤 문제가 생기거나 잘못된 결과가 나올 때 강화 태그를 사용하세요.
태그를 더 많이 사용할수록 애니메이션 스타일로 전환될 가능성이 높아집니다. 단, 첫 태그로 애니메이션을 고정하면 거의 확실히 애니메이션 스타일로 나옵니다.
제가 이 모델에 도넛을 주는 것처럼 과도하게 먹였기 때문에, 약간의 노력만으로도 모든 포즈를 생성할 것입니다. 이건 포즈 접착 파인튜닝 데이터가 아니라, Simulacrum 2.1의 핵심과 함께 링커 데이터만 사용한 것이므로 예상 밖의 결과입니다. 학습은 계획보다 빠릅니다.
성적 요소가 너무 과도하고 예상치 못한 방식으로 나타나고 현실적인 결과가 많다면, 에포크 5 모델을 철회할 수도 있습니다. 이 모델은 기본적으로 현실주의를 목표로 하지 않지만, 현실적인 이미지를 생성하는 데 사용할 수 있습니다. 아이디어는 애니메이션을 기본으로 하여 현실적인 애니메이션을 생성하는 것이지, 현실적인 캐릭터를 먼저 생성하고 그 위에 애니메이션을 덧씌우는 것이 아닙니다.
저는 애니메이션을 넘쳐흘리고 있는데도 현실적인 결과가 나옵니다. flux가 정확히 뭘 하고 있는지 저는 진심으로 약간 혼란스럽습니다.
Simulacrum 1.7에서 2.1까지 학습된 모든 성적 포즈는 대형 가슴의 여성을 사용했지만, 이제는 모든 여성 형태를 허용하는 것을 보고 불안해졌습니다. 결과는 예상치 못하고 바람직하지 않습니다.
Simulacrum 1.7에서 2.1까지 남겨진 성적 포즈의 단서는 확실히 잡혀서 학습되고 있습니다. 특정 특성을 연결하도록 설정된 핵심 노드들이 마치 새로운 기술을 습득하듯 반복적으로 작동합니다. 매우 예상 밖입니다.
블록 히트맵과 패턴은 이전에 시도했을 때 거의 반응이 없었던 것과 매우 유사하지만, 지금은 체인 길이가 지수적으로 길어졌고 블록 간 연쇄가 훨씬 더 깔끔하게 작동합니다.
생성한 합성 인간들의 얼굴은 모두 하나의 얼굴로 융합되어 있으며, 이는 base flux 여성의 얼굴과 다릅니다. 이 여성들은 모두 중간에서 큰 가슴을 가지고 있으며, 연령은 25세 이상으로 간주됩니다. 그 중 세 명은 거의 50세 이상으로 보입니다.
이 결과는 제가 결국 예상했던 모델의 붕괴일 수도 있고, 새로운 개념들이 하나의 결합된 가능성으로 통합된 완전한 등장일 수도 있습니다. 이제야 사람들이 왜 이런 것을 공개하는 것을 두려워하는지 조금 이해하게 되었습니다.
지금까지 이 모델의 일관성은 영향을 받지 않았으며, 대부분의 기본 태그는 여전히 애니메이션으로 생성되며, 즉시 성적 행동을 하지는 않습니다.
지금까지는 잘되고 있습니다. 대부분의 포즈가 즉시 작동하지 않으므로 여전히 정상 경로를 따라가고 있습니다. 곧 새로운 가중치에 따라 조정이 필요할 것입니다.
버전 2.2 에포크 5;
어제와 동일한 데이터를 더 학습한 것입니다. 복잡도가 충분히 높아 공유할 수 있으니 즐기세요.
7단계인 정확한 시리즈 및 캐릭터 파인튜닝 없이도 이미 그 결과물을 생성하고 있습니다.
이중 캡셔닝 + booru 태그 학습이 뜨거운 나이프로 버터를 자르는 것처럼 뚫고 나가고 있습니다. 이 모델은 분명히 큰 방향으로 벗어나고 있지만 여전히 하나의 덩어리로 남아 있습니다.
훨씬 긴 캡셔닝을 실험하고 여러 태그 시퀀스를 포함해 보세요.
버전 2.2 2만 장 이미지 팩 에포크 3; 분기의 등장 - 2024년 10월 14일 오후 7:21;
이 모델과 base flux의 천천히 벗어나는 성향 때문에, 저는 이를 분기된 기본 모델로 선언하기로 결정했습니다. 개구리는 공식적으로 냄비에서 끓어 죽었습니다. 저는 Simulacrum v2.1을 v2.2를 flux1d2에 통합할 방법을 찾을 때까지 기본 학습 모델로 명명합니다. 그동안 2.1은 분기된 학습 보조 모델로 작동하며, 작은 크기로 구성되어 booru 태그를 사용한 flux 기반 lora를 간소화하도록 설계되었습니다.
Simulacrum v2.1의 전체 목적은 지속적인 학습을 위한 임시 공간으로 작동하는 것입니다. 단순히 flux1d2 모델을 기본 축으로, t5xxl_fp16과 base clip_l로 lora를 지속적으로 학습하고, 완료된 후 결과를 Flux1D에서 실행하세요. Simulacrum v2.1의 크기는 매우 작습니다(71MB), 따라서 빠르게 학습된 flux lora를 빠르게 내보내는 것이 쉽습니다. Unet은 0.001로 학습하고, TE는 1000단계 이상 또는 배치/이미지 수가 많거나 시스템이 인식하지 못하는 완전히 새로운 태그를 도입하는 경우에만 학습하세요. 그러나 어떤 경우든 추론 시 항상 lora(TE)의 CLIP_L 섹션을 사용하세요. 곧 이미지가 준비될 것입니다. 0.001 Unet은 Simulacrum의 대부분을 제거할 것입니다.
v2.2를 학습하면 동일한 기본 코어 2.1 모델을 기반으로 훨씬 더 큰 lora 크기를 생성합니다. 2.2는 분명히 학습 가능하며, 2.1보다 훨씬 더 효과적으로 학습될 수 있지만, 600MB라는 크기는 대량 생산 라인에 걸림돌이 될 것입니다.
오늘날 저는 2.2를 직접 추론용 기본 모델에 통합할 수 없습니다. 현재 내 학습된 모델들로 쉽게 접근 가능한 경로로는 이를 수행할 방법이 없으며, 오늘 하루 동안 이 작업을 위한 Python 코드를 작성할 시간이 없습니다.
핵심 모델이 직접 flux1d2pro에 통합되면, lora를 훨씬 더 편리하게 학습할 수 있을 것입니다. 왜냐하면 booru lora에 더 잘 반응하고, 결과는 base flux1d에서 작동할 것이기 때문입니다. 그러나 그것은 오늘은 아닙니다.
v2.1까지: 이미지들은 대부분의 lora 및 학습을 돕기 위한 요구되는 패턴을 충분히 따르며, 쉬운 캐릭터 및 데이터 파인튜닝에 필요한 기본 정보를 여전히 제공했습니다.
v2.2에서 보여진 결과: 2.1의 추가 학습은 서브모델 및 파생 모델 학습에 훨씬 더 뛰어난 효율을 보여주었으며, 3D, 애니메이션, 비디오 게임 캐릭터의 도입 및 세부화 학습 속도를 크게 향상시켰습니다.
대부분의 실험 결과는 의상, 상황 기반 시나리오, 성적 시나리오의 추가 도입이 훨씬 더 쉽게 학습되며, 더 적은 태그로도 더 자주 나타나는 것으로 드러났습니다.
핵심 학습 이후, 2만 장 이미지 팩은 기대했던 것보다 훨씬 더 강력한 결과를 생성했습니다. 이는 다이어그램과 수학적 가능성보다 훨씬 넘어서는 결과입니다.
수학적 근거에 따르면, 80% 이상의 흡수율과 그 이상의 캡셔닝 활용도 유지율을 기대합니다.
버전 2.2 에포크 1; 2만 장 이미지 팩 첫 에포크 - 2024년 10월 14일 오후 3:36;
크기 급증 - 64 차원 = 600MB 다운로드, 이전보다 매우 큼. 식물의 뿌리가 자랄 더 큰 화분.
토큰 제한: 75에서 225로 증가.
알파: 128
차원: 64
6개의 A100에서 학습.
NSFW 태그: 명확, 의심스러움, 안전.
애니메이션/3D/현실주의로 가장 명확히 정의됨.
대부분은 1girls /AND/ 1girl을 확실히 하기 위해 사용하며, 1boys와 1boy도 마찬가지지만, 일부는 태깅에서 벗어나 버린 것으로 보입니다. 현재 혼합된 학습 덕분에 두 가지 모두에서 다른 결과를 얻을 수 있으며, 더 새로운 것들은 1girls와 1boys를 사용해 처리해야 합니다.
자유롭게 실험해 보세요. 절대적인 양의 새로운 데이터가 주입되었습니다.
대부분 애니메이션(3/4 이상)이지만, 3D와 리얼리스틱한 요소도 꽤 많습니다.
추가로 19,000장의 이미지로 학습했으며, 결과는 다소 불안정한 것으로 보입니다. 학습률을 줄이고 무작위 블록을 제거하기 시작해야 할 것 같지만, 현재로서는 확신할 수 없습니다.
리사이즈와 지속적인 학습으로 인해 너무 많은 데이터가 파괴되었을 수 있습니다. 리사이즈 지점부터 다시 학습해야 할 수도 있습니다. 시도해 보세요.
이 이미지를 봤을 때 진심으로 웃었어요.여기엔 엄청난 양의 성적 요소가 포함되어 있는 것으로 보입니다. 그런 많은 양의 정액 학습에도 불구하고 단순히 모든 것에 뿌리는 수준이 아니라, 어디에 배치해야 하고 어디에 배치하지 말아야 할지 잘 구분하고 있습니다.
FLUX SHIFT 타임스텝 샘플링으로 학습했으며, 이전 배치보다 더 독특한 결과를 제공할 것입니다.
정규화 휴리스틱이 이 이미지들이 적합하다고 판단했기 때문에, 이 이미지들이 사용되었습니다. 정말 단순한 수학입니다.
이 모델로 정말 괴상한 결과물을 만들어낼 수 있습니다. 에포크 3은 더 괴상해질 준비를 하고 있습니다. 재미있을 거예요.
첫 번째 2500번의 학습 종료 - 2024년 10월 13일 오전 11:10 - 총 $500까지:
다음 반복에서는 차원을 늘릴 예정이며, 어떻게 반응할지 모르겠습니다.
결과는 절대적으로 훌륭합니다. 대부분의 마커가 정확히 맞았고, 원하는 새로운 정보들이 대부분 도입되었습니다. 여전히 몇 가지 문제가 있는 조합이 있습니다(예: 등을 대고 누운 자세), 하지만 “누운 상태”, “화면을 바라봄” 등의 단어 농담으로 우회할 수 있습니다. 학습이 성숙함에 따라 자동으로 해결될 것입니다. 이 과정에는 이러한 일반적인 태그 사용의 확정화가 포함됩니다.
8단계 중 2단계가 시작되었습니다. 고품질 결과가 예상됩니다. 이전과 동일한 프롬프트를 사용하되, 훨씬 더 나은 결과가 나옵니다. 수백만 개의 새로운 태그 조합, 수억 개의 새로운 가능성이 포함됩니다. 모든 것이 개선되었습니다. 원래의 병합된 Simulacrum v1.7을 기반으로, Flux.1D2pro 코어 모델에 직접적으로 이어지는 학습입니다.
현재 학습된 모든 데이터는, 다른 이미지들에 필요한 데이터를 가장 적은 가중치로 빠르게 도입할 가능성이 높은 큰 데이터 풀에서 추출되었습니다. 이 다음 배치는 첫 번째 배치의 결과를 기반으로 비교 잠재변수를 사용해 추출되었습니다.
추가 데이터는 단순히 더 많은 데이터를 도입하고 다음 가중치 태그 집합을 위한 기반을 마련하는 데만 기여했기 때문에, 다음 15,000장의 이미지 학습이 시작되었습니다.
50,000개 이상의 학습 및 미세 조정된 토큰에 도달할 예정입니다. Flux가 여전히 안정적으로 유지되고 있으므로, 시간이 지남에 따라 완전히 분기된 미세 조정을 만들고 있습니다.
다음은 팩 2 - 19,000장.
요약: 8단계 중 1단계 https://civitai.com/articles/7196/training-flux-to-behave-like-pony
Flux 지침:
Flux.1 dev로 이미지를 생성하세요.
이 LoRA의 모델과 CLIP을 모두 로드하세요. CLIP은 필수는 아니지만, 실험의 핵심 부분이므로 반드시 권장합니다.
일부 LoRA 스택에서는 로드되지 않는 것을 확인했습니다. 따라서 일부 ComfyUI 확장에서 CLIP을 로드할 때 문제가 발생할 수 있습니다. 문제가 생기면, 내장된 ComfyUI LoRA 로더를 직접 사용하세요.
다른 LoRA와도 분명히 100% 작동합니다. 저는 태깅과 상황을 변경하는 여러 LoRA를 테스트해봤으며, 효과는 다양했습니다. 따라서 자세에 주의하세요. 스타일, 테마, 캐릭터, 디테일, 효과, 색상 등을 기반으로 한 LoRA는 매우 잘 작동합니다. 항상은 아니지만 자주 잘 작동합니다.
Simulacrum가 단단하게 작동할 경우 다른 LoRA가 통과할 수 있도록 UNET(모델) 강도를 낮추세요. 이 모델은 강력한 학습이 아니라 천천히 익히는 미세 조정(UN-0.0001, TE-0.000005)을 목표로 합니다. CLIP 강도는 테스트 없이 너무 낮추지 마세요.
프롬프팅:
v1.7
v2.1
커피숍에서 테이블에 앉아 있는 여성.
1girl, 끝이 땋은 긴 검은 머리, 빨간 눈, 커피 컵을 들고, 진한 메이크업, 고딕, 다리를 교차, 검은 드레스.
아침 햇살이 창문을 통해 들어와 어두운 커피숍의 인물을 따라 쏟아지는 그림자를 만듭니다.
바깥 도시는 아직 활기를 띠지 않았지만, 출근하는 차량과 사람들이 여전히 왕래하고 있습니다.
v1.7
v2.1
커피숍에서 테이블에 앉아 있는 애니메이션 여성.
1girl, 끝이 땋은 긴 검은 머리, 빨간 눈, 커피 컵을 들고, 진한 메이크업, 고딕, 다리를 교차, 검은 드레스.
아침 햇살이 창문을 통해 들어와 어두운 커피숍의 인물을 따라 쏟아지는 그림자를 만듭니다.
바깥 도시는 아직 활기를 띠지 않았지만, 출근하는 차량과 사람들이 여전히 왕래하고 있습니다.
간단한 가이드:
<장면>
<주체의 태그 및 식별자>
<환경 및 효과>
<기타 배경 및 상황적 효과>
Booru 태그는 어디에든 배치할 수 있지만, 식별된 주체 섹션에 배치하는 것을 권장합니다.
간단하거나 일반적인 50스탭 Euler을 권장하지만, 필수는 아닙니다. 다른 스케줄러를 사용하면 훨씬 적은 스텝으로도 고품질 출력을 얻을 수 있습니다.
첫 번째 2500번 학습 시작 - 2024년 10월 9일 오후 7:50:
2500장의 첫 번째 팩이 4개의 A100으로 학습 중입니다.
1D 원본이 공개되었습니다. 자유롭게 실험해 보세요. 이 버전과 D2 버전을 병합해 사용하는 것도 추천합니다. 매우 재미있습니다.
D2 버전이 상당히 더 강력하다고 할 수 있지만, 함께 사용할 때 잘 어울립니다. 마치 쌍둥이 모델처럼 말이죠.
두 모델 모두 동일한 이미지, 동일한 매개변수, 동일한 시드, 동일한 하드웨어로 학습되었습니다. RunPod를 사용해 4개의 4090 GPU로 학습했습니다.
유일한 핵심 차이는 학습된 기본 모델입니다. 결과는 흥미로운 방식으로 분기되어 나타납니다.
2단계 사전 시작:
예상 완료 시간: 60시간.이 맥락에서 Simulacrum는 라틴어로 '시뮬레이션, 이미지, 초상화, 조각상'을 의미합니다. 이 경우, Flux가 우리가 보고 싶어 하는 것을 시뮬레이션하는 것입니다. https://en.wikipedia.org/wiki/Simulacrum
이는 제가 게시한 이 기사에 기반한 Flux1D2-pro의 학습된 가중치입니다.
Flux Simulacrum v1.7 Flux1D-2Pro 미세 조정 - SFW/NSFW - 2024년 10월 9일 오전 7:42 (GMT-7):
약간의 재생성 후, 몇 가지 흥미로운 발견과 함께 돌아왔습니다. D1 학습이 에포크 35에 도달하기 전까지 전체 레이아웃 테스트를 실행할 수 없으므로, 이 버전을 먼저 공개합니다.
Booru 태그와 Flux 태그를 혼합해서 사용할 수 있습니다. 원하는 대로 모두 결합하세요.
제가 잘 했다고 말하고 싶지만, 현재까지는 제 데이터셋이나 학습 선택만으로 이 성과를 돌릴 수 없습니다. 완전히 일치하는 비교용 Flux1D 기본 버전을 확보해야, Flux D2가 결정적인 결과인지, 아니면 학습 옵션과 이미지가 결정적이었는지 알 수 있습니다.
에포크 35에서 네트워크 공간이 부족해졌고, 학습 상태를 그냥 로드할 수 있을 것이라던 내 가정이 잘못되었기 때문에, 에포크 35부터 학습을 이어가지 않겠습니다. 하지만 결과는 꽤 좋았으므로, 지금 상태로 그대로 두겠습니다.
1D 학습도 유사한 이유로 에포크 25에서 실패했기 때문에, 더 큰 네트워크 공간을 사용해 35 에포크까지 다시 학습할 계획입니다.
이 LoRA는 표준 Flux1D에서 fp8 모드로 학습된 bf16 모델과 함께 작동합니다.
Flux1D2를 사용한 초기 학습 결과, 전체 결과가 시도한 LoRA와 더 일관되게 맞아떨어졌습니다. 이전에 제가 계속 부정적인 의견을 내뱉었지만(그러한 대화를 들어야 했던 모든 분께 죄송합니다), 이 학습에는 실제로 인과적 결과가 존재함을 입증할 수 있습니다.
이 모델은 Text Encoder가 미세 조정된 것입니다. ComfyUI를 사용할 때 CLIP을 반드시 통과시키세요.
UN LR - 0.0001
TE LR - 0.000005
지금은 이 모델에서 생성된 매우 훌륭한 이미지들을 몇 개 보여드리겠습니다.
또한 더 나은 명명 체계를 마련해야 합니다. 여러 버전이 늘어나며 이름이 점점 길어져 불편해지고 있습니다.
Illustrious Simulacrum v1.2 SFW/NSFW - 2024년 9월 28일:
PDXL 버전도 공개되었습니다. PDXL 버전은 대부분의 Pony 모델과 호환되며, Illustrious 버전은 주로 Illustrious와만 잘 작동할 것입니다.
태깅 및 학습 데이터는 유사한 이미지를 생성하므로, 동일한 원칙이 적용됩니다.
안전/담론/명시적의 구분에 더 나은 이해를 보여주지만, 아직도 FLUX-1D에 가르치려 했던 모든 캡션 정보를 주지 않으면 안전한 결과를 내기 어렵습니다. 제가 캡션을 제거한 이유는 전체를 흐리게 만들기 때문이었지, 도움이 되지 않았기 때문입니다.
올바른 데이터셋을 사용한 전체 재학습을 통해 훨씬 더 나은 모델을 얻었습니다. 다양한 예술 스타일에 유연하게 대응하며, 애니메이션, 리얼리스틱, 3D의 내장 스타일을 정확히 구분하고, 다양한 각도의 자세를 확정화할 수 있는 수백만 개의 이미지를 포함합니다. 모든 것이 Illustrious-XL 캐릭터에 주체를 중첩시키는 데 탁월합니다.
7종의 리얼리스틱한 합성 인물이 모두 포함되었습니다. 이들은 실제 인물이 아니며, 이 버전에서는 코드명으로 프롬프트할 수 없으므로 단순히 전체의 세부 태그된 부분일 뿐입니다.
라텍스 및 라텍스 바디수트는 매우 강력합니다. NAI 재색상 효과로 인해 이미지에 흥미로운 효과를 종종 추가합니다.
출력 품질이 크게 향상되었습니다.
저는 여기에 첨부된 각 이미지에 연결된 ComfyUI를 사용해 테스트했습니다.
모두 즐겁게 사용하세요. 이 모델은 매우 훌륭합니다.
Illustrious-XL 모델은 기본적으로 수백 명의 캐릭터를 생성하므로 실험해 보세요. 좋아하는 캐릭터가 아마도 포함되어 있을 것입니다.
태그 목록:
앞에서, 정면
옆에서, 측면
뒤에서, 뒷면
위에서, 상단 시야
아래에서, 하단 시야
앞에서, 측면, 위에서 <<< 태그를 결합
- 올바른 깊이 또는 각도를 얻지 못하면, 바닥, 벽, 천장과 같은 기준 요소를 추가해 보세요.
색상 스펙트럼; 색칠할 수 있는 모든 태그는 색상 스펙트럼 내에 포함될 수 있습니다.
파란색, 빨간색, 녹색, 흰색, 검은색, 금발, 갈색, 금색, 은색, 보라색, 분홍색, gyaru
1girl, 1boy, 2girls, 2boys,
짧은 머리, 중간 길이 머리, 긴 머리(전체 색상 스펙트럼 포함)
눈 색상(전체 색상 스펙트럼)
발톱, 손톱, 메이크업 색상
평평한 가슴, 작은 가슴, 중간 가슴, 큰 가슴, 거대한 가슴
마른 허벅지, 허벅지, 두꺼운 허벅지
마른, 근육질, 풍만한, 체형 좋은, 다이어트한
드레스, 사이드 슬릿 드레스, 라텍스 드레스; 전체 색상 스펙트럼
비키니, 스링샷 수영복, 수영복, 원피스 수영복
요가 팬츠, 스포츠 브라
발, 벌거벗은 발
그 외 수많은 태그
Illustrious Simulacrum v1 SFW/NSFW - 2024년 9월 27일:
학습 데이터를 잘못 사용한 것 같습니다. 이 데이터는 전체 데이터의 약 60%에 불과합니다. 오늘 밤 재학습 및 테스트를 진행할 예정입니다.
Illustrious는 제 모델이 아닙니다. 이 Simulacrum가 제 모델이며, CivitAI의 다른 곳에 있는 sd1.5 Simulacrum와 혼동하지 마세요. Illustrious의 공식 제작자를 지원해 주세요. Illustrious는 PDXL의 파생 모델이 아니라 Kotaku v5에서 파생되었으며, 애니메이션과 일러스트레이션에 집중한 모델입니다.
샘플 이미지들은 일부에 불과합니다. Illustrious는 오랜만에 제가 가장 재미있게 사용한 모델 중 하나입니다. 반응이 빠르고 정확하며, 원하는 것을 정확히 생성합니다. 일반적으로 네거티브 프롬프트가 필요하지 않지만, 가끔은 필요할 수 있습니다. Simulacrum의 데이터셋은 더 강력하고 고품질의 작업을 추가로 강요하여 전체 품질을 향상시키지만, 여전히 가끔은 네거티브 프롬프트가 필요할 수 있습니다.
이 LOHA 모델은 주제의 고정과 제어에 완전히 기반합니다. 색상에서 옷차림, 크기, 형태, 리얼리즘, 품질에 이르기까지 모든 요소가 슬라이더로 구성되어 있으며 다양한 태그를 사용해 제어할 수 있습니다.
곧 전체 태그 목록을 준비하겠습니다. 간단히 말해, Illustrious는 말이 하는 거의 모든 것을 수행할 수 있으며, Danbooru 2023 데이터세트로 학습되었기 때문에 예상하지 못할 훨씬 더 많은 기능도 제공합니다. Illustrious는 제가 지금까지 샘플링한 모든 모델보다 NaiV3과 더 유사합니다.
이 LOHA는 이전에 Consistency라고 불렸던 데이터세트로 학습되었습니다. 새롭게 개선된 버전링, 캡셔닝 및 상세한 데이터세트는 훨씬 더 강력한 버전을 가능하게 하며, 제가 과거에 Simulacrum라고 언급했던 것입니다.
데이터는 특별히 약간 개선되어 PDXL과 Illustrious 모두를 학습할 수 있도록 정리되었습니다.
증강 및 유틸리티 태그는 이전과 유사합니다:
앞에서
정면 시점
옆에서
측면 시점
뒤에서
후면 시점
위에서
상단 시점
아래에서
하단 시점
PDXL의 이전 버전들과 마찬가지로, 여성형의 명확한 해석과 구조의 안정성이 확보되었습니다. 또한 이전 버전들과 달리 아티팩트가 전혀 없습니다. 이 버전은 깔끔하며, Illustrious에서 만화 수준을 반실사 애니메이션 수준으로 끌어올립니다. 다만, 몇 개의 태그만으로도 거의 그럴 수 있습니다.
이 버전은 남성형과 리얼리즘, 3D, 애니메이션의 변형을 액세서리 태그로 도입합니다.
현재 버전은 수십 가지 자세, 행동, 캐릭터 색상, 그라데이션, 각도, 오프셋, 시점, 깊이, 회전, 중첩 위치, 그리고 PDXL에서 특별히 어려웠던 몇 가지 특정 옷차림을 처리할 수 있으며, 이는 Illustrious에서도 잘 작동합니다.
지원하는 신체 유형:
마른
키 큰
허리가 얇은
날씬한
작은 체형
살이 있는
곡선이 뚜렷한
두꺼운
작은
거대한
직접 지원:
다양한 오프셋과 각도
안전, 의심스러움, 성적 표현
리얼리즘, 3D, 애니메이션
7가지 리얼리스틱 합성 모델
얼굴
머리카락 색상
눈 색상
가슴 크기
상대적인 신체 크기
팔 각도
다리 각도
다양한 전체 자세
다양한 팔 위치
다양한 다리 위치
다양한 옷 종류
다양한 신발 종류
다양한 머리카락 스타일
다양한 라텍스 종류 <- 저는 라텍스를 좋아합니다.
점프수트, 바디수트, 레오타드, 힙하이, 레깅스, 바지, 요가 복장, 드레스, 비키니, 슬링샷 수영복, 치마, 캐주얼웨어, 신발, 그 외 더 많은 것들



