SDXL / Flux.1 D - Matte (Vanta)Black - Experiment

세부 정보

파일 다운로드

모델 설명

Flux.1 D - V2.0

플럭스에서 작동하게 만드는 마지막 시도... 여기서 '작동하게 만들다'라는 말은 가능한 한 많이 뒤집어놓는다는 뜻이다. 이 모델은 SDXL 버전과 똑같은 결과를 내는 일은 거의 절대 없을 것이다. 6000스텝을 거친 후 단지 관찰만으로도 그 차이는 분명했다. SDXL은 마치 "알겠어, 배우긴 할 거야, 하지만 나만의 스타일을 더할 거야"처럼 행동하는 반면, 플럭스는 자신이 무엇을 해야 할지, 혹은 정확히 무엇을 배워야 할지 모르는 것에 대해 미친 듯이 저항하거나 보완하려 한다. 반면, 긴 학습 후에는 그림을 완전히 복사해내며, 훈련 데이터를 1:1로 모방해 거의 순수한 검은색을 만들어낸다. 플럭스는 사진과 같은 이미지를 몇 스텝만으로도 완벽하게 복사할 수 있다.

지난 플럭스 버전에서도 말했듯, 대부분 다른 더 색다르거나 특정 스타일을 가진 LoRA들과 혼합해서 쓰고 싶은 것이다.

SDXL v.3.0과 동일한 이미지들에 플럭스 버전을 위해 몇 개를 더 추가했다(일부는 풍경 형식). 하지만... 내가 혹은 다른 사람들이 올린 이미지의 최소 80%를 담당했을 가능성이 높은 3장의 이미지를 제거했다. 이건 SDXL 버전에서도 하려 했던 일인데, 당시에는 그만두기로 결정했다. 이유는 그 이미지들이 너무 지배적이어서 이상한 행동과 특정 이미지를 생성하려는 편향을 유발했기 때문이다. 플럭스 v.1.0 버전에서 그 현상을 봤고, 이제는 그 이미지들을 제거했다. 인기도 아마 떨어질 테지만, 나는 상관없다.

많은 사람들이 단지 그 LoRA가 자신의 "파이프라인"에 있기 때문에 사용하는 것 같다는 느낌을 받는다. 어떤 경우엔 LoRA 없이 만든 이미지가 더 나아 보이는데, 그런 사실은 절대 알 수 없다. 스타일 LoRA는 다르다. 그들은 생성 과정에서 분명한 스타일을 추가하기 때문이다. 그러나 이 LoRA는 모든 것을 더 나쁘게 만들 가능성이 매우 높아서, 내가 말하려는 바를 보여주기 위해 이미지를 골라내지 않았다. 예를 들어, 강한 빛이나 촛불 같은 광원을 추가하면, 플럭스(및 일부 SDXL 모델)는 빛이 눈에 띄기 위해 어두운 배경이 필요하다는 것을 스스로 학습해 어두운 환경을 자동으로 생성한다(태양이 뜬 날 자동차 헤드라이트는 별 효과가 없다).

NF4나 QQUFUF 버전 5.64.3255 K4 2 같은 걸로 작동하는지 묻지 마라. 파일 크기가 그렇게 크지 않으니 직접 테스트해보면 된다. 일반적인 FP8/16 Dev 버전보다 메모리 사용량 감소나 미미한 속도 향상(혹은 더 나쁜 속도 저하) 이외에 더 큰 이점을 주지 않는 한, 나는 이런 모델들과 거리를 둘 것이다.

누군가가 짧은 시간 안에 모델의 새로운 버전을 내놓으면 얼마나 귀찮은지 나는 잘 안다. 나는 이 버전을 더 이상 추구하지 않겠다. 단지 나 또는 다른 누군가가 유용한 것을 얻을 수 있을지 지켜볼 뿐이다.

또한, Photoshop에서 이미지를 준비하는 데 드는 노동은 가치가 없다. 특히 그것이 아무런 변화도 주지 않는다는 걸 알고 있다면 말이다. 대신 새로운, 혹은 더 자주 어리석은 것을 시도해보는 게 낫다. 흥미로운 효과나 무작위 결과를 만들어내는 것이 좋다... 아니면 오래된 모델들을 플럭시파이(fluxify)해서 무슨 일이 일어나는지 보는 것도 좋다.


Flux.1 D - V1.0

Kohya와 다른 도구로 약간 실험을 해보았고, 플럭스용으로 매우 이상한 개념의 LoRA를 성공적으로 테스트한 뒤, 이번 것도 시도해보기로 했다. 사실 플럭스 버전을 만들려는 게 내 주된 목표는 아니었다. 플럭스는 대체로 대비를 잘 처리하기 때문이다. 내 진짜 목표는 그 끔찍한 인공적/가짜 느낌을 없애는 것이었고, 이 정도로 "정의되지 않은" 데이터셋이 도움이 될 것이라 생각했다. 어쨌든, 가끔은 그게 효과가 있었고, 가끔은 더 나빠졌다.

SDXL 버전과 마찬가지로, 이건 특히 색을 많이 추가하는 다른 LoRA들과 함께 사용하는 것이 좋다.

프롬프트와 이미지 준비에 조금 게으른 점 사과한다. V.3.0에서 사용한 것과 거의 동일한 자료를 사용했지만, 현재는 시연용으로 충분할 것이다. 가끔은 세부사항을 파괴하고 특별히 흥미로운 요소를 추가하지도 않는다(예: 해파리 이미지나 앵무새).

  • 대응하는 이미지들은 동일한 시드 사용
  • 처음 두 이미지는 LoRA 사용/미사용이며, 그 뒤는 반대로 LoRA 미사용 → LoRA 사용(가끔 다른 강도로)
  • 일부는 트리거 단어를 처음에 포함했지만, 플럭스에서는 필요 없을 것 같음
  • V1.0 데이터셋 기반(새 데이터셋은 너무 많은 이미지를 쓰고 싶지 않아서 사용하지 않음)

플럭스를 위한 더 많은 LoRA를 만들지 않을지도 모르겠다. 하지만 꽤 많은 실험을 해볼 것이다. 지금은 너무 다양한 버전이 혼재해서 혼란스럽고, 10시간 후에는 이미 오래된 것이 될 수 있는 것에 많은 시간을 쓰는 게 가치가 있을지 의문이다.

한 가지 부연: 이 모델은 4060 TI(16GB)로 학습했고, 최대 VRAM 사용량은 14.415.2GB, 1스텝당 3.95초5.15초, 512x, Rank 4. ... 그래서 4090이 필요하지 않다. 물론 더 빠를 수는 있지만, '시작하고 잊어버리고' 그 사이 다른 일을 할 수 있다면 큰 문제가 되지 않는다. 단, 테스트를 하고 싶다면 예외다.

언제나처럼, 이걸 가끔 사용해 의미 있는 결과를 얻을 수 있는지 살펴볼 것이다. 대부분은 그냥 내 호기심을 채우기 위한 것이겠지만.


V.3.0

v2.0에서의 작은 실수 이후, 이번에는 병합이나 다른 조작 없이 진짜로 만들었다고 확신한다. 처음에는 이미지 수가 너무 많아 첫 버전에서 너무 벗어날까 걱정했지만, 다행히 그렇지 않았다.

많은 사람들이 이 LoRA를 유용하게 사용하고, 이렇게 많은 이미지를 만들어낸 것에 정말 기쁘다. 이 LoRA가 지금처럼 사용되도록 의도된 것은 아니었지만, 다른 목적(또는 다른 용도)로 쓰일 수 있다는 점이 기분 좋다(모든 LoRA가 그렇듯).

이제相当한 시간 동안 마지막 버전이 될 가능성이 높다. 단순히 이미지를 더 추가한다고 해서 핵심 효과가 바뀌지 않기 때문이다. 대부분은 다른 모델, LoRA 조합, 프롬프트로 결정되기 때문이다.

더 많은 이미지를 직접 만들어 조합을 찾아보는 데 집중할 것이고(그리고 조금은 휴식도 취하며), 새로운 이상한 LoRA를 만들거나, 오래된 LoRA를 고치는 등에 더 신경 쓸 것이다. 또한 다른 사람들이 올린 자료를 많이 다운로드했지만, 그중 대부분을 제대로 사용해보지 못했다.

지금까지 올려준 모든 이미지에 다시 한 번 감사드리며, 앞으로도 더 많은 이미지를 기대한다. 비록 이 빠르게 움직이는 AI 분야에서 모든 LoRA는 수명이 있고, 유행은 결국 끝나게 되겠지만 말이다. :)


V2.0


V2.0에 대한 작은 공지 (국가에 따라 02.04 또는 04.02)

정말로 나는 바보가 되었다.

2000스텝이 지나도 샘플 이미지에 아무런 변화가 없어서, 다른 LoRA를 훈련시키기 시작했는데, 이건 불가능하다고 느꼈다. 그래서 원인을 찾아보니, 내가 바꾸지 않았던(또는 올바른 값으로 설정하지 않았던) 설정이 있었다. 바로 LR 웜업이다. 나는 일반적으로 웜업 스텝을 사용하지 않는데, 이전에 그것이 실제로 어떤 영향을 주는지 테스트해보려 했다. 그때 사용한 데이터셋은 약 4장의 이미지였고, 항상 100 에포크로 설정해두었지만, 모델은 에포크마다가 아니라 500스텝마다 저장되도록 설정해두었다. 웜업은 32%로 설정되어 있었고, 4장 × 10반복 × 100에포크 = 4000스텝(32% 웜업 = 1280스텝, 이 동안 거의 변화 없음)

이 LoRA도 같은 설정을 사용했고, 단지 이미지가 60장이었을 뿐이었다(60 × 10 × 100 = 60000 - 32% 웜업 = 19,200스텝)... 그래서 12,000스텝이 지나도 전혀 시작조차 되지 않았다. 즉, 나는 거의 공기만 훈련시킨 셈이었다. 그 이유가 이제야 이해되었다. 내가 잠들었기 때문에 눈치채지 못했고, 처음에 효과가 너무 늦게 나타나는 게 이미지 자체의 문제라고 생각했기 때문이다.

그래서 이건 실패작이며, 그 결과의 대부분은 V1.0과 병합한 결과다.

이번 주말에 일에서 돌아오면 올바른 설정으로 다시 훈련할 예정이다.

정말로 사과드린다. 어쩌면 의도치 않은 4월 1일 장난이었을지도 모르겠다 :) .... :(


최근에 자주 사용하고 있어서, 최근에 새로운 LoRA를 업로드하지 않아서 이미지를 몇 장 더 추가했다. 이건 내가 일에서 너무 바빠서, 복잡하고 신경 쓰이는 주제만 선택하고, 그것도 가장 복잡한 방식으로 만들어야 한다고 느끼기 때문인데, 그 외의 건 지루하다고 생각했기 때문이다.

또한, Pony를 분해하는 데 꽤 많은 시간이 들었는데, 이건 나에게 놀라운 일이었다. 페어리, 애니메이션, 일반적인 포르노 콘텐츠를 모두 제외하면, 이 모델은 Base XL 모델보다 오히려 더 기본적인 수준이다. LoRA 훈련을 통해 개념과 스타일을 추가하기에는 좋지만, 위치, 감정, 기묘한 각도 등 훨씬 더 복잡한 것을 잘 알고 있다... 하지만 이건 또 다른 이야기다.

올해 얼마나 더 훈련을 할 수 있을지 모르겠다. 어쩌면 중간에 좀 더 쉬운 것을 해볼 수도 있겠지만, 누구도 알 수 없다. AI는 빠르게 움직이고, 한 달 안에, 아니 일주일 안에 새로운 것이 나올지도 모른다.

  • 이전에 생성된 이미지와 동일한 시드, 동일한 모델로 테스트했다. 일부 경우는 미세한 변화였고, 일부는 극심했다 (이제 왜 그런지 알겠다: 공지사항 참고)

  • 또한 시연 이미지에서 더 많은 변형을 만들지 못해 사과드린다. 때로는 LoRA 훈련보다 이미지 준비에 더 오랜 시간이 걸리기도 하지만, 이 경우는 크게 중요하지 않다. 더 많은 것이 자연스럽게 따라올 것이다.


V1.0

훈련 이미지가 거의 완전히 검은색이고, 약간의 형상만 있는 경우에 AI가 무엇을 학습할지 살펴보려 했다.

Photoshop에서 데이터셋을 준비하는 건 거의 불가능했다. 왜냐하면 나는 거의 아무것도 보이지 않았기 때문이다. 물론 각자의 모니터 설정이 다르기 때문에, 그 이미지들이 정말로 그렇게 어두웠는지는 알 수 없지만, 내 눈에는 큰 부담이었다. 지금도 생성된 이미지를 보는 게 힘들다. 비록 훈련 이미지만큼 어두운 건 아니지만.

모델이 실제로 뭔가를 학습했다는 게 놀라웠다. 지금은 내가 이걸 어떻게 써야 할지 결정할 때까지 옆에 두겠다. 분명히 이상한 결과를 만들어낸다. 어쩌면 생성된 이미지를 ControlNet IP-Adapter에 넣으면 모든 것이 강화되고 무작위 결과를 만들어낸다.

생성 팁:

  • 나는 전혀 모르겠다. 행운을 빈다.

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.