Old Consistency V32 Lora [FLUX1.D/PDXL]
세부 정보
파일 다운로드
모델 설명

PDXL + ILLUSTRIOUS TRAIN V3.34:
Illustrious는 PDXL의 파생 모델이 아니라 별개이며 매우 훌륭합니다. 기회가 되면 사용해보세요.
저는 이 모델 전용으로 Simulacrum의 버전을 학습했습니다.
V3.2 대신 V3-2 사용:
v3.22의 목표가 점차 변했고, 저는 플럭스 테스트와 새로운 메커니즘을 이해하는 데 빠져들었습니다. 충분히 배우고, 어떻게 고정 대상을 다루고, 태그를 붙이며, 플럭스 자체가 태그를 어떻게 이해하는지 파악한 후, 비로소 제대로 된 버전 3을 만들 수 있게 되었습니다.
제 학습과 실험 주기를 참아주신 모든 분들께 감사드립니다. 이 과정은 실제로 수많은 테스트, 실패, 그리고 진정한 성공들의 롤러코스터였습니다. 이제 무엇을 할 수 있고, 어떻게 해야 하는지 알고 있으며, 제가 배운 것을 바탕으로 원하는 결과를 창출하기 위한 방법론을 확립했습니다. 이 과정은 완벽하지 않으며, 앞으로도 지속적으로 개선될 것입니다. 어떤 모델을 만들든 학습과 반복 개발이 핵심이 될 것입니다. 저는 이제 첫 번째 큰 드닝크루거 단계를 넘었음을 확신하며, 실험 끝에 유용한 정보를 학습하고 가르칠 수 있게 되었고, 초보자와 고급 사용자 모두에게 유용한 방식으로 정보를 처리하고 이해하려는 노력을 기울이고 있습니다.
원래 V4로 향하던 접근 방식은 유효함을 확인했지만, 처음에 제가 알고 있다고 생각했던 학습 방식은 사실 유효하지 않았습니다. 더 많은 학습과 실패를 통해 성공을 위한 토양을 다져왔습니다.
지시 기반 버전 관리:
각 버전마다 세 가지 핵심 지시 학습과 하나의 베일라나 버전을 도입할 계획입니다.
핵심 시스템뿐 아니라 특정 주제의 이미지 자체에도 매우 일반적인 지시 기반 학습을 사용하여 의도한 주제적 요소를 전 시스템에 확산시킬 것입니다.
태깅 프로세스의 기술적 측면은 시스템에 대해 제가 왜 특정 조치를 취하는지 이해하지 못한다면 매우 어렵고 혼란스러울 수 있습니다. 따라서 상세한 정보를 원하신다면 이미지와 태깅이 매우 혼란스러울 수 있습니다.
단순한 태깅 시스템은 그대로 유지되며, 필요할 때 충분한 결과를 생성할 수 있습니다.
각 버전의 "nd" 또는 "지시 없음" 버전은 테스트 차이와 결과를 유사하게 유지합니다. 마치 광산 속 새처럼, 새가 울음을 멈출 때가 떠날 때입니다. 이러한 자매 모델들은 지시에 따라 성공했건 실패했건, 개념을 통합하고 재사용할 수 있도록 병합 및 정규화될 수 있을 것입니다.
이 모델의 최우선 목표는 이제 개별 캐릭터 고정입니다. 하나의 고정된 캐릭터만을 사용하며, 해당 캐릭터의 해상도는 올바른 FLUX 학습 포맷 매개변수에 따라 수직 및 수평 비율로 조정됩니다.
V3.2의 문제는 제가 생각한 것보다 덜 두드러졌습니다:
우려되는 결과의 대부분은 시간이 지나면서 보완할 계획인 정보 누락에서 비롯되었습니다. 단순히 반복적 개발의 문제일 뿐입니다.
그런 의미에서, 현재 3.21 학습 버전이 테스트 중이며 곧 출시될 예정입니다. 이 버전은 포즈 제어 능력이 향상되었고, 비교적 긴 카메라 기반 지시를 사용하는 모델에 초점을 맞추었습니다.
테스트한 대부분의 LoRA와의 호환성이 우수하며, 현재 v32에서는 움직이거나 회전시키기 어려운 매우 딱딱한 LoRA까지도 작동합니다.
Flux Unchained, 다양한 캐릭터 모델, 얼굴 기반 모델, 인간 모델 등과도 우수한 호환성을 보였습니다. 현재까지 시스템 간 상호작용이나 충돌 없이 잘 작동하고 있어 긍정적입니다.
V3.2에서 해결할 문제들:
일부 포즈와 각도에서 일관성 문제가 있습니다. 또한 '옆에서', '뒤에서', '위에서', '아래에서' 태그를 사용하는 다양한 LoRA와의 교차 오염도 발생합니다. 향후 카메라 제어 정확도를 보장하기 위해 새로운 태그를 검증 단위로 사용하고 별도의 LORA를 학습할 계획입니다.
애니메이션 스타일에는 대체로 잘 작동하지만, LoRA가 개입하면 문제가 생깁니다.
V3.21용 복합 태그:
카메라 위치에 따라 제대로 작동하는지 확인하기 위해 다음 태그를 테스트할 예정입니다:
전면에서 위로 본 주체
전면에서 옆으로, 위에서 본 주체
뒤에서 위로 본 주체, 앞에 있는 상태
측면에서 위로 본 주체, 뒤에 있는 상태
그리고 base flux_dev에 유사한 태그들을 추가하여, 제가 구축한 시스템이 카메라를 올바른 위치에 정확히 배치하고, 이미지 품질이 손상되지 않도록 보장할 것입니다.
제가 파악한 바에 따르면, 이러한 일반적인 옵션을 사용하면 시스템이 엄청난 깊이를 학습합니다. 확신하려면 더 많은 테스트가 필요합니다.
'뒤에서 잡기', '뒤에서 성적 행위' 등과 같은 태그는 'behind' 태그와 혼동될 수 있으므로, 'rear' 태그를 사용할 예정입니다.
'side에서', 'behind에서', 'straight-on', '보는 사람을 바라보는', 그리고 특정 캐릭터에 연결된 safebooru, danbooru, gelbooru의 위치 회전과 관련된 모든 태그는 학습하지 않을 것입니다. 이는 캐릭터와 상호작용하는 것이 아니라, 캐릭터를 시청하는 시점에만 기반합니다.
또한 대부분의 경우 POV 팔이 나타나지 않도록 해야 하므로, 태그가 실수로 팔, 다리, 몸통을 생성하거나 주어진 개별 대상에만 고정되도록 하기 위해 많은 테스트가 필요합니다.
어떤 포즈는 사실상 작동하지 않았습니다:
여기서 작동하지 않는 복합 태그 시스템이 존재했으며, 캐릭터 제어를 제대로 수행하려면 새로운 태그 조합이 필요합니다.
다리가 왜곡되거나 존재하지 않습니다.
팔이 왜곡되거나 잘못 배치됩니다.
발이 없습니다.
상체가 너무 자주 과도하게 강조됩니다. <<< 과적합
하체가 옷을 제대로 표현하지 못합니다.
목이 스카프, 수건, 목걸이, 칼라 등에 대해 올바른 복장 표현을 하지 못합니다.
젖꼭지와 성기 상태가 극도로 불안정합니다. 이 경우 적절한 NSFW 컨트롤러를 만들기 위해 다양한 변형을 정리해야 합니다.
NAI는 스타일로 구체적으로 정의되고 세분화되어야 합니다.
옷 선택사항이 때때로 너무 자주 신체 유형을 생성합니다.
명시적 레이팅은 때로는 전혀 접근 불가능하고, 때로는 화물열차처럼 강하게 나타납니다.
판단이 필요한 이미지가 충분하지 않으며, 명시적 태그 시스템도 판단 태그와 함께 태그되어야 판단 정보도 정확히 접근됩니다.
일부 애니메이션 캐릭터가 잘못된 원근법으로 생성되며, 이는 정확한 연관적 원근법을 목표로 하는 데 매우 나쁜 일입니다.
네 발로 서 있는 자세는 대체로 안정적이지만, 원근법 문제는 여전히 존재합니다. 애니메이션 캐릭터를 충분히 3D로 인식하지 못하는 경향이 있으므로, 이미지 주변 환경의 품질이 조금 더 향상되어야 합니다.
네 발 자세는 많은 조정 없이 라인업으로 사용할 수 없습니다.
무릎을 꿇은 자세도 라인업으로 사용하려면 많은 조정이 필요합니다.
라인업 및 그룹은 플럭스에 대해 특별한 방식으로 구성되어 있는 것으로 보이며, 이는 추가 조사가 필요합니다. 마치 각 반복 루프에 내부 기능을 활성화하는 것처럼 보입니다.
일부 성공 사례:
대부분의 이미지에서 기본 품질은 손상되지 않았습니다.
많은 새로운 포즈가 실제로 작동합니다. 때때로 부자연스럽긴 하지만요.
애니메이션 스타일은 NAI 고유의 방식으로 변화되었고, 일부 사실적 요소가 추가되었습니다.
여러 캐릭터를 포즈를 잡을 수 있지만, 때로는 매우 이상한 방식으로입니다.
어떤 각도에서든 서 있는 자세는 NAI 스타일로 탁월한 품질과 세부 표현을 보여줍니다.
V3.3은 기다려야 합니다.
V3.3 로드맵:
이 문서 하단의 리소스를 업데이트하고, 더 이전 문서는 보존 목적으로 별도의 문서로 분리했습니다.
이제 결과가 제 비전을 조금 더 잘 반영하고 있으므로, 다음 단계인 오버레이에 집중할 수 있게 되었습니다.
V3.3은 제가 “고 알파 버닝 오프셋 태그”라고 부르는 기능을 도입할 예정이며, 만화, 게임 UI, 오버레이, 체력 막대, 디스플레이 등 제작을 단순화할 것입니다.
이론적으로, 올바른 버닝을 사용한 오버레이를 만들면 일관성 있게 당신만의 가상 게임을 만들 수 있습니다.
이것은 장면의 어느 깊이에서든 캐릭터를 배치하는 기반을 마련할 것이며, 이는 향후에 이루어질 것입니다.
이미 꽤 잘 스프라이트 시트를 생성할 수 있으므로, 앞으로 몇 일간 내장 태그 시스템을 활용하여 다양한 하위 시스템을 테스트할 계획입니다. 이는 약간의 프롬프트 노동과 컴퓨팅 파워로 이루어질 것이며, 이 기능이 이미 존재하고 단지 발견만 되어 있지 않을 가능성이 높습니다.
V4 목표:
위 모든 것이 잘 진행된다면, 전체 시스템은 이미지 수정, 비디오 편집, 3D 편집, 그리고 아직 이해하지 못하는 더 많은 기능을 포함한 완전한 생산 능력을 갖추게 될 것입니다.
v33 오버레이
이는 다소 오해의 소지가 있으며, 사실 다음 구조를 위한 장면 정의 프레임워크입니다.
이 기능은 가장 적게, 동시에 가장 많이 시간이 걸릴 것입니다. 작동시키기 위해 알파를 사용한 몇 가지 실험이 필요하지만, 오버레이가 단순히 메시지를 표시하는 것뿐만 아니라, 깊이의 방식으로 장면 제어를 위한 선택적 기능이 될 것임을 확신합니다.
v34 캐릭터 배치, 회전 값 계획, 정밀한 시점 오프셋:
특정 캐릭터가 존재하고 지시에 따라 행동하는 것을 보장하는 것이 핵심 목표입니다. 때로는 캐릭터가 전혀 나타나지 않기 때문입니다.
피치/요우/롤을 기반으로한 완전한 숫자 기반 회전 값을 구현할 예정입니다. 수학 능력, 이미지 세트, 3D 소프트웨어 기술이 부족하여 완벽하지는 않겠지만, 좋은 출발점이 될 것이며, FLUX가 이미 가지고 있는 기능과 결합되기를 바랍니다.
v35 장면 컨트롤러
장면 내의 복잡한 상호작용 지점, 카메라 제어, 초점, 깊이 등을 통해 캐릭터를 배치하고 전체 장면을 구축할 수 있게 합니다.
오버레이 컨트롤러의 3D 버전이지만, 원한다면 콘트롤러를 극대화한 버전이라 생각하면 됩니다.
v36 조명 컨트롤러
장면 내 모든 캐릭터, 오브젝트, 생성물에 영향을 주는 분리된 장면 제어 조명 변화.
각 조명은 Unreal에서 정의된 다양한 조명 유형, 소스, 색상 등 특정 규칙에 따라 배치되고 생성됩니다.
이론적으로 FLUX가 빈 공간을 채워줄 것입니다.
v37 신체 유형 및 신체 맞춤화
기본 신체 유형 도입에 따라, 다음을 포함하는 더 복잡한 신체 유형 생성을 도입하고자 합니다:
제대로 작동하지 않는 포즈 수정
다양한 추가 포즈 추가
더 복잡한 머리카락:
- 물체와의 상호작용, 잘린 머리, 손상된 머리, 변색된 머리, 다색 머리, 묶인 머리, 가발 등
더 복잡한 눈:
- 다양한 유형의 눈: 열린 눈, 닫힌 눈, 혼자 눈, 등
다양한 얼굴 표정:
- 행복, 슬픔, :o, 눈 없음, 단순한 얼굴, 무표정 얼굴 등
귀 유형:
- 뾰족한, 둥근, 귀 없음 등
다양한 피부 색:
밝은, 빨강, 파랑, 초록, 흰색, 회색, 은색, 검정, 진검정, 밝은 갈색, 갈색, 어두운 갈색 등
사람들이 피부색에 대해 매우 민감하므로, 여기서는 민감한 주제를 피하고자 합니다. 하지만 단순히 옷처럼 다양한 색을 원할 뿐입니다.
팔, 다리, 상체, 허리, 엉덩이, 목, 머리 크기 컨트롤러:
이두근, 어깨, 팔꿈치, 손목, 손, 손가락 등 길이, 너비, 두께 조절기
견갑골 및 기타 상체 태그
허리 및 허리 태그
보통의 boorus가 사용하는 사전 정의된 시스템이 아닌, 1에서 10까지의 기울기 기반 신체 크기 일반화
v38 복장 및 복장 맞춤화
- 약 200개의 복장, 각각 고유한 매개변수를 가짐
v39 고해상도 데이터에서 샘플링한 500개의 비디오 게임, 애니메이션, 만화 캐릭터
500개의 담배- 아닙니다... 말하자면 많은 캐릭터들. 네, 확실히 캐릭터 디자인이나 유형과 합리적인 연결이 없는 망각 기반 캐릭터가 절대 많지 않습니다.
그 후로는 원하는 어떤 캐릭터든 만들거나 학습할 수 있습니다.
거대한 품질 및 정밀도 향상:
- 다양한 출처에서 수집한 수만 장의 고해상도 애니메이션, 3D 모델, 사진적 반실재성 이미지를 포함하여, 이 특별히 세분화된 FLUX 버전을 스타일리시한 제출물로 훈련시키기 위한 자료를 확보합니다.
각 이미지는 평가 점수를 1에서 10까지의 비율로 부여받고, 포니와 유사한 방식으로 태그되지만, 결과에 따라 시스템에 나만의 고유한 변형을 적용할 것입니다.
V3.2 릴리즈 - 4k 스텝:
이건 어린이용이 절대 아닙니다. 이 모델은 SFW/의심스러움/NSFW 기반 모델로, 원하는 어떤 형태로든 트레이닝될 수 있습니다.
또한 단순한 성적 콘텐츠 생성기를 위한 것이 아닙니다. 단지 프롬프트에 따라 가능할 뿐입니다. 특정 행위를 AI에 가르칠 때 그에 따른 부수적인 결과가 따라오는 것은 당연한 일입니다. 현재 이미지 비율은 대략 33%씩 SFW, 의심스러움, NSFW로 분포되어 있으며, 약간의 변동이 있을 수 있습니다. NAI와 유사하게 안전한 콘텐츠 쪽으로 가중치가 설정되어 있습니다.
저는 정보를 제공하고 교육함으로써 개인이 어떻게 사용할지를 스스로 결정할 수 있도록 하는 데 확고한 입장을 취합니다. 비교적 통제되고 주의 깊은 방식으로 무제한의 콘텐츠를 무제한 AI에 가르치는 것이, AI의 전방위 이해도 향상과 더불어, AI가 생성하는 이미지에 대해 24시간 내내 악몽 같은 콘텐츠를 보지 않아도 되는 사용자들에게도 건강한 방식이라고 믿습니다.
이 모델은 제가 지금까지 본 어떤 모델보다도 훨씬 더 큰 잠재력을 보여줍니다.
아래 모든 이미지에 첨부된 ComfyUI 워크로드를 사용하세요.
기본적으로 안전 모드가 활성화되어 있습니다:
questionable < 더 다양한 의심스러운 특성들을 언락합니다
explicit < 랜덤으로 재미있는 요소들을 활성화합니다
시점 활성화 태그: 혼합해서 사용해 보세요; 정면, 측면 등
from front, front view,
from side, side view,
from behind, rear view,
from above, above view,
from below, below view,
주요 추가 및 강화된 포즈:
네 발로 서기
무릎 꿇기
쪼그리고 앉기
서 있기
앞으로 굽히기
기울기
누워 있기
뒤집혀 있음
복부로 누워 있음
등으로 누워 있음
팔 위치
다리 위치
머리 기울기
머리 방향
눈 방향
눈 위치
눈 색상의 고체성
머리카락 색상의 고체성
가슴 크기
엉덩이 크기
허리 크기
다양한 옷 선택지
다양한 캐릭터 선택지
다양한 표정 선택지
성적 포즈는 여전히 WIP이며, 제대로 정제될 때까지 시도하지 않는 것을 강력히 권장합니다. 이는 저의 범위를 훨씬 초월한 수준이며, 현재 제가 어떤 방향으로 나아가야 할지 판단할 정신적 에너지가 부족합니다.
포즈 생성기, 각도 생성기, 상황 설정기, 개념 강제기 및 보간 구조는 이미 구축되어 있으며, 더 많은 버전을 트레이닝할 예정입니다.
즐거운 사용 되시길 바랍니다.
V3.2 로드맵:
2024년 8월 25일 5:16 - 프로세스가 성공했고, 시스템이 기대를 훨씬 뛰어넘는 수준으로 기능하고 있음을 확인했습니다. AI는 예상보다 훨씬 더 강력한 방식으로 캐릭터를 포즈화하는 임상적 행동을 보여주고 있습니다. 테스트가 시작되었으며, 결과는 완전히 훌륭해 보입니다.
- 최종 해상도: 512, 640, 768, 832, 1024, 1216
2024년 8월 25일 오후 3시 - 모든 것이 제대로 태그되었고, 포즈도 준비되었습니다. 이제 실제 트레이닝이 시작되며, 여러 차원 테스트, 학습률 테스트, 스텝 체크 및 V3.2 릴리즈용 최적 후보를 평가하기 위한 추가적인 방법들이 포함될 것입니다.
2024년 8월 25일 오전 4시 - V3.2의 첫 버전은 약 1400스텝에서 최소한의 왜곡을 보였으나, 2200스텝에서 고급 왜곡이 나타났습니다. 이는 WD14 자동 태깅이 제대로 작동하지 않았음을 의미합니다. 수동 태깅을 진행할 예정입니다. 재미있는 아침이 될 것 같습니다.
2024년 8월 24일 저녁 - 지금 작동 중입니다.
이건 잘 안 될 것 같네요. 모든 것을 자동 태그하고 현재는 포즈 각도를 제거했습니다. WD14가 혼자서 어떻게 반응하는지 확인해 볼 예정입니다. 성공 또는 실패 후, 원래 포즈 각도와 태그 순서를 복원할 것입니다. 모든 의도된 데이터가 집중되고 사용 사례가 밀집된 상태에서 어떻게 작동하는지 봅시다.4000장의 이미지로는 latent 캐싱에 시간이 오래 걸릴 것 같지만, 특정 "사용 사례" 인형과 바디에 집중한 덕분에 최소한 좋은 결과가 나올 것입니다.
2024년 8월 24일 정오 -
열심히 하고 있습니다.
모든 이미지는 그림자 효과를 내는 배경으로 구성되어 있으며, 이는 표면과 위치 기반으로 flux가 이미지를 생성하는 데 도움이 됩니다. 모든 것은 flux가 처리하지 못하는 부족한 포즈를 기반으로 구성되었습니다. 다양한 위치에 중첩 가능한 주제에 집중하도록 설계되었습니다.저는 올바른 팔 위치 설정에 집중하며, 겹치는 팔 태그가 A에서 B까지 팔을 생성하도록 했습니다.
2024년 8월 24일 아침 - 팔 관련 문제가 또 있네요. 괜찮습니다, 이건 목록에 추가하겠습니다. 이 문제를 지적해 주셔서 감사합니다. 여기에는 분명히 교차 오염이 발생하고 있으며, 해결이 필요합니다. 웹사이트 시스템에는 없는 특정 ComfyUI 루프백 시스템을 사용하고 있기 때문에, 이 버전에서는 사이트 내 생성 기능을 비활성화해야 할 수도 있습니다.
2024년 8월 23일 - 거의 균일한 포즈, 피치/요우/롤 식별자를 가진 340장의 신규 고해상도 애니메이션 이미지를 확보했습니다. 가슴, 머리카락, 엉덩이의 크기, 색상 변화를 정확히 구분할 수 있도록 구성했습니다. 아직 554장이 남았습니다. V3.2는 애니메이션에 집중할 것이며, 그 후에는 포니에서 데이터를 가져와 충분한 합성 사실성을 구축할 예정입니다. 만약 flux가 트레이닝 후 가능하다면, 그냥 flux만 사용할 수도 있습니다!
이들은 포즈별로 품질과 등급을 분리하는 데 도움이 될 것입니다. 특히 "from"과 "view" 키워드를 사용하는 새로운 방법론 덕분입니다. 완성되면 NovelAI의 포즈 제어와 거의 동일하게 작동할 것으로 기대하며, 이것이 제 목표입니다. 물론 캐릭터 및 캐릭터 차별화는 또 다른 이야기입니다.모든 것이 완벽하게 정리되고 정렬되어야만, 필요한 비율로 충분한 컨텍스트를 제공하여 기본 모델에 효과적으로 영향을 줄 수 있습니다.
기본적으로 SAFE 모드로 설계되어 있으며, 시스템 전체는 안전한 콘텐츠에 가중치를 두고, NSFW는 선택적으로 활성화할 수 있도록 구성됩니다.
이 특정 LORA에 대해 여러 번 반복 트레이닝하여, 두 가지 버전(안전/NSFW) 간의 차이를 명확히 유지하면서, NSFW 사용자들에게도 만족스러운 결과를 제공할 수 있도록 할 것입니다.
이 모델이 트레이닝을 마친 후, 5만 장의 선택된 데이터셋을 시스템에 입력하면, 마법과 같은 결과를 만들어낼 수 있기를 바랍니다. 포니처럼 마음이 원하는 모든 것을 만들어낼 수 있는 강력한 모델이 될 것이며, 그렇게 되면 제가 안심할 수 있을 것입니다. 그 이후에는 여러분이 원하는 모든 것을 이 시스템에 넣기만 해도, 일관성의 골격과 flux의 내재적 힘 덕분에 원하는 대로 변경될 것입니다.
전체 일관성의 초기 V3.2 이미지 세트에 대한 트레이닝 데이터는 정리, 트레이닝, 테스트가 완료되면 공개할 예정입니다. 이번 주말에 시간이 나면 V3 데이터도 공개하겠습니다.
누워 있는(kicking) 키워드와 각도 키워드 간의 포즈 불일치를 확인했습니다. 각 조합을 테스트하고, 다음 단계(기본 의상 선택, 의상 변경, 작동/비작동 포즈에 따른 파생형)로 넘어가기 전에 하한선 일관성을 확보할 예정입니다. 그 후에는 의심스러운 요소와 NSFW 요소에 대한 더 자세한 정보도 추가해야 합니다. 다음 버전에서 그 내용을 유추해 보세요.
그 전까지, 포즈가 의도한 대로 작동하는지 확인해야 하므로, 의도된 조합 키워드를 새로 만들고, 각 포즈당, 각각의 각도당, 각 시나리오당 더 많은 이미지를 확보하고, 더 많은 각도를 추가할 예정입니다. 또한, 플럭스는 복잡한 상황과 이미지를 생성하는 데 거의 필요하지 않기 때문에, 점차 추가해 나갈 예정인 플레이스홀더 데이터 세트도 만들 것입니다. 또한, 실패 지점에서 다른 요소로 전환할 수 있도록 기본 태그 시리즈도 추가할 예정입니다. 이는 일관성을 약간 개선하는 데 도움이 될 것입니다.
V3 문서:
주로 FLUX.1 Dev e4m3fn (fp8)에서 테스트되었습니다. 따라서 준비된 체크포인트 병합 결과는 업로드 완료 시 이 값을 반영할 것입니다. /model/670244/consistency-v3-flux1d-fp8t5vae
이 모델은 기본 FLUX.1 Dev 모델에서 작동하지만, 다른 모델, 병합 버전 및 다른 LORA와도 호환됩니다. 결과는 혼합될 수 있습니다. 모델 값이 순차적으로 다른 정도로 변화하므로, 로드 순서를 실험해 보세요.
이는 FLUX의 골격입니다. danbooru와 유사하게 유용한 태그를 통해 카메라 제어 및 지원을 제공하여, FLUX가 기본적으로 수행할 수 있지만 많은 노력이 필요한 다양한 상황에서 매우 사용자 정의 가능한 캐릭터를 만드는 데 큰 도움이 됩니다.
이미지 품질을 보장하기 위해 여러 루프백 시스템을 실행하는 것을 강력히 권장합니다. 일관성은 여러 반복을 통해 품질과 품질을 향상시킵니다.
이 모델은 개인 지향적이지만, 해상도 구조 덕분에 유사한 상황에서 많은 사람을 처리할 수 있습니다. 컨텍스트 없이 화면에 즉각적인 변화를 주는 LORA들은 보통 무용지물입니다. 왜냐하면 그것들은 컨텍스트에 거의 기여하지 않기 때문입니다. 사람에게 특정 특징을 추가하거나 사람들 간의 컨텍스트적 상호작용을 만드는 LORA는 잘 작동합니다. 의상, 머리카락 종류, 성별 제어는 모두 잘 작동합니다. 제가 테스트한 대부분의 LORA는 잘 작동하지만, 아무런 효과도 없는 것들도 있습니다.
이는 병합이 아닙니다. 여러 LORA의 조합도 아닙니다. 이 LORA는 1년 동안 NAI 및 AutismPDXL에서 생성된 합성 데이터를 사용하여 제작되었습니다. 이미지 세트는 매우 복잡하며, 이 LORA를 만들기 위해 선택된 이미지들은 추출하기가 매우 어려웠습니다. 많은 시행착오를 겪었습니다. 정말 엄청난 양의 시행착오였습니다.
이 LORA와 함께 일련의 핵심 태그가 도입되었습니다. 이는 FLUX에 기본적으로 없던 전반적인 골격을 추가합니다. 활성화 패턴은 복잡하지만, NAI와 유사하게 캐릭터를 구성하면, NAI가 캐릭터를 만드는 방식과 유사하게 나타납니다.
이 모델이 가진 잠재력과 힘은 과소평가할 수 없습니다. 이는 절대적인 파워하우스 LORA이며, 그 잠재력은 제 범위를 훨씬 초월합니다.
조심하지 않으면 여전히 끔찍한 결과를 만들어낼 수 있습니다. 표준 프롬프트를 사용하고 논리적인 순서를 지키면, 곧 아름다운 작품을 만들어낼 수 있을 것입니다.
해상도: 512, 768, 816, 1024, 1216
권장 스텝: 16
FLUX 가이던스: 4 또는 인내가 부족하면 3-5, 매우 인내가 부족하면 15+
CFG: 1
저는 2번의 루프백을 실행했습니다. 첫 번째는 1.05배 업스케일과 0.72-0.88의 디노이즈, 두 번째는 0.8의 디노이즈였으며, 도입 또는 제거하고자 하는 특징의 수에 따라 거의 변하지 않았습니다.
핵심 태그 풀:
anime - 포즈, 캐릭터, 의상, 얼굴 등의 스타일을 애니메이션 스타일로 변환합니다
realistic - 스타일을 사실적으로 변환합니다
from front - 사람의 정면에서 바라보는 시점, 어깨가 수직으로 정렬되어 관찰자에게 직시하는 상황이며, 몸통의 중심이 관찰자를 향합니다.
from side - 사람의 측면에서 바라보는 시점, 어깨가 수직으로 관찰자를 향하는 상황이며, 캐릭터가 측면에 있는 것을 의미합니다.
from behind - 사람의 바로 뒤쪽에서 바라보는 시점
straight-on - 수직으로 직진된 시점으로, 수평면 각도를 위한 것입니다
from above - 개인을 향해 45도에서 90도까지 내려다보는 시점
from below - 개인을 향해 45도에서 90도까지 올려다보는 시점
face - 얼굴 세부 사항에 집중한 이미지로, 얼굴 세부사항이 어려울 경우 사용하기 좋습니다
full body - 개인의 전체 신체를 보여주는 이미지로, 더 복잡한 포즈에 적합합니다
cowboy shot - 표준 카우보이샷 태그이며, 애니메이션에는 잘 작동하지만 사실성에는 잘 작동하지 않습니다
looking at viewer, looking to the side, looking ahead
facing to the side, facing the viewer, facing away
looking back, looking forward
혼합 태그는 의도한 혼합 결과를 생성하지만, 결과는 혼합됩니다.
옆에서, 정면 - 개별 대상 또는 여러 대상의 측면을 향해 수평으로 설정된 카메라
앞에서, 위에서 - 위에서 전면을 향해 45도 기울어진 카메라
옆에서, 위에서 - 위에서 측면을 향해 45도 기울어진 카메라
뒤에서, 위에서 - 위에서 뒤쪽을 향해 45도 기울어진 카메라
앞에서, 아래에서
앞에서, 위에서
앞에서, 정면
앞에서, 옆에서, 위에서
앞에서, 옆에서, 아래에서
앞에서, 옆에서, 정면
뒤에서, 옆에서, 위에서
뒤에서, 옆에서, 아래에서
뒤에서, 옆에서, 정면
옆에서, 뒤에서, 위에서
옆에서, 뒤에서, 아래에서
옆에서, 뒤에서, 정면
이 태그들은 유사해 보일 수 있지만, 순서에 따라 매우 다른 결과가 생성됩니다. 예를 들어, "뒤에서" 태그를 "옆에서" 태그보다 먼저 사용하면 시스템이 뒤쪽을 중심으로 가중치를 두게 되며, 일반적으로 상체가 비틀리고 신체가 양쪽으로 45도 각도로 기울어집니다.
결과는 혼합적이지만 분명히 사용 가능합니다.
특징, 색상, 옷 등도 작동합니다.
빨간 머리, 파란 머리, 초록 머리, 흰 머리, 검은 머리, 금색 머리, 은색 머리, 금발, 갈색 머리, 보라색 머리, 분홍 머리, 하늘색 머리
빨간 눈, 파란 눈, 초록 눈, 하얀 눈, 검은 눈, 금색 눈, 은색 눈, 노란 눈, 갈색 눈, 보라색 눈, 분홍 눈, 하늘색 눈
빨간 라텍스 바디수트, 파란 라텍스 바디수트, 초록 라텍스 바디수트, 검은 라텍스 바디수트, 하얀 라텍스 바디수트, 금색 라텍스 바디수트, 은색 라텍스 바디수트, 노란 라텍스 바디수트, 갈색 라텍스 바디수트, 보라색 라텍스 바디수트
빨간 비키니, 파란 비키니, 초록 비키니, 검은 비키니, 하얀 비키니, 노란 비키니, 갈색 비키니, 보라색 비키니, 분홍 비키니
빨간 드레스, 파란 드레스, 초록 드레스, 검은 드레스, 하얀 드레스, 노란 드레스, 갈색 드레스, 분홍 드레스, 보라색 드레스
치마, 셔츠, 드레스, 목걸이, 전체 옷차림
여러 재질; 라텍스, 금속, 청바지, 면 등
포즈는 카메라 각도와 함께 작동할 수도 있고, 조정이 필요할 수도 있습니다.
네 발로 서기
무릎 꿇기
누워 있음
누워 있음, 등으로
누워 있음, 옆으로
누워 있음, 거꾸로
무릎 꿇기, 뒤에서
무릎 꿇기, 앞에서
무릎 꿇기, 옆에서
앉아서 다리 굽히기
앉아서 다리 굽히기, 뒤에서
앉아서 다리 굽히기, 앞에서
앉아서 다리 굽히기, 옆에서
다리 등 제어는 매우 까다로우니 약간 실험해 보세요.
다리
다리 붙임
다리 벌림
다리 넓게 벌림
발 붙임
발 벌림
수백 개의 기타 태그 사용 및 포함, 수백만 가지의 잠재적 조합
개인의 특징 설명자 앞에 이 태그들을 함께 사용하되, FLUX 자체 프롬프트 뒤에 사용하세요.
프롬프팅:
그냥 해보세요. 아무거나 입력하고 결과를 확인하세요. FLUX는 이미 방대한 정보를 가지고 있으므로, 포즈 등을 사용하여 이미지를 보강하세요.
예시:
주방의 의자에 앉아 있는 여성, 옆에서, 위에서, 카우보이 샷, 1girl, 앉아 있음, 옆에서, 파란 머리, 녹색 눈

하늘을 날며 돌을 던지는 슈퍼히어로 여성, 그녀 주변에는 심각하게 강력하고 빛나는 위협적인 오라가 감싸고 있음, 리얼리즘, 1girl, 아래에서, 파란 라텍스 바디수트, 검은 목걸이, 검은 손톱, 검은 입술, 검은 눈, 보라색 머리

레스토랑에서 식사하는 여성, 위에서, 뒤에서, 네 발로 서기, 엉덩이, 스트랩 팬티
예, 작동했습니다. 보통은 잘 됩니다.
정말로, 이 시스템은 대부분의 이상한 요청도 처리할 수 있지만, 제 포괄적인 범위를 넘어설 가능성도 있습니다. 혼란을 줄이고 충분한 포즈 태그를 포함하여 작동하도록 시도했습니다. 따라서 더 핵심적이고 유용한 태그에 집중하세요.
이 모델을 만들기 위해 430번 이상 실패한 후, 마침내 성공적인 이론의 연쇄를 발견했습니다. 필요한 정보를 완전히 정리하고, 사용한 학습 데이터를 이번 주말에 공개할 예정입니다. 이 과정은 길고 힘들었습니다. 모두가 즐기길 바랍니다.
V2 문서:
어제 밤 매우 피곤했기 때문에 전체 보고서와 발견 사항을 마무리하지 못했습니다. 빠른 시일 내에, 아마도 제가 일할 때인 낮 동안 테스트를 실행하고 값을 기록하며 완성할 예정입니다.
Flux 학습 소개:
과거, PDXL은 danbooru 태그가 달린 소수의 이미지만으로 NAI와 비교할 수 있는 미세 조정 결과를 생성했습니다. 이 경우 적은 이미지가 강점이었는데, 여기서는 적은 이미지가 작동하지 않았습니다. 더 많은 것이 필요했습니다. 힘과 강렬함이 필요했습니다.
이 모델은 많은 데이터를 가지고 있지만, 학습된 데이터 간의 차이가 처음 예상보다 훨씬 더 큽니다. 더 큰 분산은 더 많은 가능성의 의미이며, 왜 고분산으로 작동하는지 이해하지 못했습니다.
약간의 조사 끝에, 이 모델이 바로 이 때문에 강력하다는 것을 알게 되었습니다. 이 모델은 깊이를 기반으로 "지시된" 이미지를 생성할 수 있으며, 이미지를 분할하고 다른 이미지의 노이즈를 사용하여 겹쳐서 가이드 역할을 수행합니다. 이 점이 저에게 생각하게 했습니다. 이 모델의 핵심 세부 정보를 파괴하지 않고 이걸 어떻게 학습할 수 있을까? 처음에는 리사이징으로 어떻게 할지 고민했지만, 그제야 버킷링을 떠올렸습니다. 이것이 여기서 첫 번째 단서입니다.
저는 완전히 맹목적으로, 제안된 설정을 적용하고 결과를 관찰하며 진행했습니다. 느린 과정이었기 때문에, 이를 빠르게 하기 위해 관련 논문을 연구하고 읽었습니다. 만약 여력이 있었다면 모든 것을 한 번에 했겠지만, 저는 한 사람일 뿐이고 일도 해야 합니다. 저는 모든 가능성을 시도했습니다. 시간이 더 있었다면 50개를 동시에 실행했겠지만, 실제로 그런 설정을 할 시간이 없었습니다. 비용을 지불할 수는 있지만, 설정은 할 수 없습니다.
SD1.5, SDXL, PDXL LoRA 학습 경험을 바탕으로 가장 적합한 형식을 선택했습니다. 결과는 괜찮았지만, 분명히 뭔가 잘못된 점이 있었고, 점차 자세히 설명하겠습니다.
학습 형식:
몇 가지 테스트를 수행했습니다.
테스트 1 - danbooru 샘플에서 무작위로 선택한 750개 이미지:
UNET LR - 4e-4
- 다른 요소들은 거의 중요하지 않아 기본값을 유지해도 됐지만, 해상도 버킷링에만 주의를 기울였습니다.
1024x1024만 사용, 중앙 자르기
2k-12k 스텝 사이
danbooru 태그 풀 중 하나에서 무작위로 750개 이미지를 선택하고 태그를 균일하게 유지했습니다.
모트 태거를 사용하여 태그를 태그 파일에 추가하고 태그가 덮어쓰지 않도록 했습니다.
결과는 기대에 못 미쳤습니다. 혼란은 예상대로였습니다. 생식기와 같은 새로운 인간 요소가 생성되거나 그렇지 않거나, 대부분 존재하지 않았습니다. 이는 제가 본 다른 사람들의 결과와 거의 일치합니다.
그러나 전체 모델이 손상될 것이라고는 예상하지 못했습니다. 태그가 겹치지 않는다고 생각했기 때문입니다.
이 테스트를 두 번 반복했고, 각각 12k 스텝에서 무용한 두 개의 LoRA를 생성했습니다. 1k에서 8k 스텝을 테스트해도 원하는 방향으로의 차이점은 거의 없었고, 태그 풀의 정점과 곡선에 주의를 기울여도 마찬가지였습니다.
여기에 뭔가 또 있습니다. 놓친 무언가가 있고, 인간적 또는 CLIP 설명이 아닐 것 같습니다. 더 큰 무언가... 있습니다.
이 실패 지점 근처에서 발견한 것이 있습니다. 이 깊이 시스템은 두 개의 완전히 다른 및 차이 나는 프롬프트를 기반으로 보간됩니다. 이 두 프롬프트는 사실 보간적이고 협력적입니다. 이 시스템이 어떻게 이를 결정하는지는 저에게 불명확하지만, 오늘 논문을 읽어 수학적 원리를 이해하려 합니다.
테스트 2 - 10개 이미지:
UNET LR - 0.001 <<< 매우 강력한 LR
256x256, 512x512, 768x768, 1024x1024
초기 스텝에서는 SD3 테스트에서 보았던 것과 유사한 편차가 나타났습니다. 그러나 좋지 않았습니다. 약 500스텝부터 흐릿해지기 시작했고, 1000스텝에서는 거의 무용지물이었습니다. 반복을 사용하고 있긴 하지만, 실험으로서는 괜찮았습니다.
여기서 편차는 매우 해로웠습니다. 새로운 문맥 요소를 도입하고, 이를 단순한 스크랩 머신으로 바꿔버립니다. 사람들의 요소를 거의 무용한 것이나 심각하게 손상된 아티팩트로 대체합니다. 마치 잘못 설정된 inpaint처럼 말이죠. FLUX가 얼마나 견디고도 작동할 수 있는지 흥미로웠습니다. 이 테스트는 FLUX의 견고성을 보여주었고, 제 시도에 대해 매우 저항적이었습니다.
이는 실패였고, 다른 설정으로 추가 테스트가 필요했습니다.
테스트 3 - 500개 포즈 이미지:
UNET LR - 4e-4 <<< 이 값은 4로 나누고 스텝 수를 두 배로 주는 것이 적절합니다.
전체 버킷링 - 256x256, 256x316 등등. 다양한 크기의 이미지를 많이 주고, 모든 것을 버킷링하도록 했습니다. 예상치 못한 결과였습니다.
결과는 이 일관성 모델의 핵심 자체였습니다. 예상보다 더 큰 손상이 있었지만, 실제로 매우 훌륭한 결과였습니다.
참고할 점: 애니메이션은 일반적으로 심도를 사용하지 않습니다. 이 모델은 심도를 구분하기 위해 심도와 흐림을 매우 잘 활용합니다. 이러한 이미지에 심도 컨트롤넷을 적용해 심도 분산을 보장해야 하지만, 현재로선 정확히 어떻게 해야 할지 확신이 없습니다. 심도 맵과 정규 맵을 함께 학습시키는 것이 효과가 있을 수 있지만, 모델이 부정적 프롬프팅을 지원하지 않기 때문에 모델을 완전히 파괴할 수도 있습니다.
추가 테스트 필요. 추가 학습 데이터 필요. 추가 정보 필요.
테스트 4 - 5000개 일관성 뭉치:
UNET LR - 4e-4 <<< 이 값은 40으로 나누고 스텝 수를 20배로 증가시켜야 합니다. 이와 같은 것을 모델 핵심에 학습시키는 것은 간단하지 않으며, 빠르게 할 수 있는 일이 아닙니다. 현재 방법으로 핵심 모델을 손상시키지 않기 위한 수학적 조건이 좋지 않아, 이 테스트를 실행하고 초기 결과를 공개했습니다.
여기에 전체 섹션과 후속 섹션을 작성했었고, 제 발견 섹션으로 이어질 예정이었으나 마우스 버튼을 잘못 클릭하여 전체 내용이 사라졌습니다. 나중에 다시 써야 합니다.
큰 실패들:
초기 12k 스텝 LoRA의 학습률이 너무 높았습니다. 전체 시스템은 기울기 학습에 기반하지만, 제가 학습시킨 속도가 너무 빨라서 정보를 유지하지 못하고 모델을 파괴했습니다. 즉, 모델을 태우지 않고 제가 원하는 방향으로 다시 학습시켰습니다. 문제는 제가 정확히 무엇을 원하는지 몰랐다는 것입니다. 그래서 전체 시스템은 방향이 없고 기울기 심도도 없는 일련의 요소들에 기반했습니다. 따라서 실패할 수밖에 없었습니다. 스텝 수를 더 늘리더라도요.
FLUX의 스타일은 사람들이 PDXL과 SD1.5를 기준으로 생각하는 스타일과 다릅니다. 기울기 시스템은 스타일을 적용할 수 있지만, 너무 많은 정보를 너무 빠르게 적용하면 전체 구조가 심하게 손상됩니다. 이것은 PDXL LoRA와 비교해서 매우 파괴적입니다. PDXL LoRA는 기존 요소를 보완하는 형태였던 반면, 이건 완전히 새로운 정보를 학습시키는 것이었습니다.
중요 발견:
알파, 알파, 그리고 더 많은 알파 <<< 이 시스템은 알파 기울기에 매우 의존합니다. 사진 기반의 세부사항, 거리, 깊이, 비율, 회전, 오프셋 등은 모두 이 모델의 구성에 핵심적인 요소이며, 적절한 구성 스타일라이저를 만들기 위해서는 단일 프롬프트 이상의 세부 정보가 필요합니다.
모든 요소를 제대로 설명해야 합니다. 단순한 danbooru 태깅은 사실상 스타일일 뿐입니다. 원하는 시스템의 스타일을 인식하도록 시스템을 강제하는 것이며, 필요한 개념 할당 태그를 포함하지 않고 새로운 개념을 강제로 도입할 수 없습니다. 그렇지 않으면 스타일과 개념 연결자가 실패하여 완전한 쓰레기 출력이 나옵니다. 쓰레기 입력, 쓰레기 출력.
대량의 포즈 정보를 사용할 때 포즈 학습은 매우 강력합니다. 시스템은 이미 대부분의 태그를 인식하고 있지만, 어떤 태그를 인식하는지는 아직 모릅니다. 특정 태그를 사용하여 존재하는 것을 원하는 것과 연결하는 포즈 학습은 태그 정리 및 미세 조정에 매우 강력할 것입니다.
단계 문서;
v2 - 5572개 이미지 -> 92개 포즈 -> 4000스텝 FLUX
NAI를 SDXL로 가져오려는 원래 목표는 이제 FLUX에도 적용되었습니다. 향후 버전에 주목하세요.
안정성 테스트가 필요하며, 지금까지 PDXL이 처리할 수 있는 어떤 것보다도 뚜렷한 능력을 보여주고 있습니다. 추가 학습이 필요하지만, 이렇게 낮은 스텝 수에서 기대보다 훨씬 강력합니다.
제 생각에 포즈 학습의 첫 번째 레이어는 약 500장의 이미지 정도로 구성되어 있을 것이며, 이것이 주로 효과를 발휘하는 원인일 것입니다. 전체 학습 데이터는 정리된 이미지 세트를 구성하고 개수를 확인한 후 HuggingFace에 공개할 예정입니다. 제가 선정한 잘못된 이미지나 쓰레기를 혼합해 놓지 않기 위해서입니다.
여기서 계속 읽어보세요:
https://civitai.com/articles/6983/consistency-v1-2-pdxl-references-and-documentation-archive
중요 참고 자료:
나는 담배를 피우지 않지만, FLUX는 가끔 필요합니다.
- 워크플로우 및 이미지 생성 보조 도구입니다. 주로 ComfyUI 핵심 노드를 사용했지만, 실험 및 저장을 위해 다른 노드도 지속적으로 활용합니다.
- 매우 강력하고 이해하기 어려운 AI 모델로, 엄청난 잠재력을 지니고 있습니다.
- 그들이 없었다면, 저는 절대 이 프로젝트를 만들고 싶지 않았을 것입니다. NAI의 모든 직원들에게 그들의 헌신적인 노동과 강력한 이미지 생성기, 그리고 압도적인 글쓰기 조수에게 큰 박수를 보냅니다. 그들에게 돈을 쏟아부으세요.
- 그들이 Flux를 만들었으며, 이 모델의 유연성에 대한 대부분, 아니 전부의 공로를 가져야 합니다. 저는 단지 이 거대한 존재를 원하는 방향으로 미세 조정하고 이끌고 있을 뿐입니다.
- 매우 강력한 태그 보조 도구입니다. 이 훌륭한 도구를 발견하기 전까지 저는 스스로 만들려고 했습니다.
- 저의 Flux 버전 학습에 사용한 도구입니다. 약간 민감하고 까다롭지만, 다양한 시스템에서 매우 잘 작동하며 목적을 충분히 달성합니다.
- 전장에서의 경쟁자를 잊지 마세요. 이 거대한 존재는 다양한 색조의 이미지를 생성하는 데 뛰어나며, 귀중한 연구 및 이해 도구이며, 이 방향과 진전에 대한 큰 영감의 원천입니다.




















