Flux Regularization images and txt captions generator with Dynamic and Wildcard - ComfyUI
세부 정보
파일 다운로드
이 버전에 대해
모델 설명
이는 상체와 셔츠에 초점을 맞춘 다양한 나이의 남녀를 포함한 무작위로 다채로운 실사 이미지를 생성합니다. 동적 프롬프트는 원하는 대로 수정할 수 있습니다.
50%의 이미지에 셔츠 위에 무작위 텍스트와 무작위 숫자를 추가하여 Flux의 텍스트 기능을 유지하려고 시도합니다.
무작위로 이미지 비율도 생성합니다. 이것이 바람직한지는 모르지만, 모든 트레이너에 버킷이 있다는 점을 고려할 때 1x1만으로 학습하는 것은 나쁜 생각이라고 생각합니다. 이는 다른 비율보다 10배 더 많은 1x1 이미지를 생성합니다.
또한 제 동적 프롬프트와 함께 사용할 와일드카드 폴더도 업로드하겠습니다.
이 워크플로우를 사용해 이미 180장의 이미지를 생성한 폴더가 있습니다. 원하시는 분은 저에게 연락해 주세요. 이 폴더에는 옷을 입은 미성년자의 이미지가 포함되어 있어 Civitai 정책에 위배되므로 업로드하지 않겠습니다. 더 많은 작업을 진행할 예정이지만, 지금까지는 이 정도입니다.
ComfyUI의 영구 대기열을 사용하세요.
이를 사용하려면 모든 노드 업데이트 및 누락된 노드 설치 등 모든 과정을 기억하세요.
이 작업은 @TheGreatOne321의 워크플로우를 기반으로 확장되었습니다: /model/646449/regularization-image-workflow-and-collection-for-flux
현재 동적 프롬프트는 다음과 같습니다. 저는 지속적으로 이를 수정하고 있습니다:
High definition {8::color-graded|black and white|vintage} professional __collections/devilkkw/composition/image_composition_angle_perspective_depth__ photo, __collections/devilkkw/composition/image_composition_framing_body__ view of a {0.5::plumpy|0.5::muscular|0.5::skinny|0.2::fat|} __yetanotherwildcardcollection-main/states/age__ {0.05::Prince Harry|0.05::Bill Gates|0.1::Elon Musk|__collections/jumbo/people/nationalities/*__} {man|woman} wearing a {long sleeves|tank top|button|vneck|high crewneck} {light|dark}-__YetAnotherWildcardCollection-main/Colors/Basic__ shirt. {sitting on the floor|running|lying resting on the ground}, {arms are fully extended {to the sides|in front of the body|up}|the arms are on the hips|the arms are pointing to {0.2::the mouth|0.2::the nose|the camera|to the ground}|the arms are behind the head}{|, {printed|scribbled|painted|draw} on the shirt is in {light|dark}-__YetAnotherWildcardCollection-main/Colors/Basic__ the words "{__collections/artists/*__|__common_animals__|__collections/nsp/nsp/fruit__}" and the number "xxx" in style}. The background is a __yetanotherwildcardcollection-main/background/*__
이제 마침내 정규화 이미지 실험을 시작하고 있습니다. 왜냐하면 저는 Flux "아래쪽 땀 자국 셔츠"의 네 번째 학습을 진행 중인데, 충분히 좋은 결과를 얻지 못하고 있기 때문입니다. 괜찮긴 하지만, 충분하지 않습니다. 그래서 마침내 이 방법을 시도해보기로 했습니다.
정규화 이미지는 저에게 매우 복잡하고 혼란스러운 주제입니다.
아직도 10~20장의 고품질 이미지로 학습된 대부분의 LoRA는 이 방법이 필요하지 않다고 생각합니다. 하지만 저는 유연성을 확보하고 개념의 모든 측면을 실제로 학습시키기 위해 항상 데이터셋에 최소 60장 이상의 이미지를 포함합니다.
따라서 여기서 제 아이디어는, 모델이 이미 가지고 있는 고유한 장점과 단점(카메라 각도, 이미지 품질, 신체 해부학적 특성, 기존 편향 등)을 보존하도록 도와주는 것입니다. 이를 통해 LoRA가 실제로 원하는 부분에 영향을 줄 수 있게 됩니다.
정규화를 단순히 감쇠 수단으로 사용하는 이유를 전혀 느끼지 못합니다. 따라서 데이터셋과 동일한 캡션으로 학습하는 것은 저에게 의미가 없습니다. “셔츠”와 “땀이 묻은 셔츠”가 다르다는 것을 모델이 인식하도록 만드는 것이 제가 이 방식을 사용하는 목표입니다.
또한 이 방법을 블리딩 방지 수단으로 사용하는 것은 완전히 비논리적이라고 생각합니다. 블리딩을 원하지 않는다면 LoRA를 끄면 됩니다. LoRA는 체크포인트가 아닙니다.
저는 또한 Loïc Barcourt LoRA에 이 아이디어를 적용해, 모델 품질을 되찾아보려 합니다. 제가 사용한 약 200장의 스크린캡처 및 일부 저해상도 이미지 때문에 LoRA가 너무나도 저품질 특성을 학습해버렸습니다. 심지어 이 모든 이미지에 “저품질 이미지”라는 캡션이 붙어 있었음에도 불구하고, LoRA 가중치로 그 품질이 학습되었습니다. LoRA는 캡션과 상관없이 반복을 통해 학습하기 때문입니다. 그러므로 이는 예상된 결과였습니다. 이 때문에 정규화가 저품질, JPEG 아티팩트, 이상한 각도 등을 학습하는 LoRA를 구원할 수 있다고 생각합니다.





