Lune - flow matching - sd15-Flux
세부 정보
파일 다운로드
이 버전에 대해
모델 설명
sd15-lune-flux-v01
이것은 베이스라인으로 사용된 대량의 플럭스-슈넬 추출 이미지의 첫 번째 버전이며, 이후 고화질 눈, 얼굴, 헤어스타일 등에 특화된 약 4만 장의 초상화를 사용하여 이를 기반으로 미세 조정했습니다.
이 초상화들은 후속 생성 단계에서 품질 향상이 더 잘 드러나도록 타임스텝 0-500에 집중하여 학습되었습니다.
이 시스템은 주로 일반 영어로 학습되었으므로, 그녀에게 말을 걸면 원하는 결과를 만들어낼 수 있습니다.
이제 출력에 잠재 공간 곱셈이 더 이상 필요하지 않습니다.

이 설정은 여전히 필요하며, 이 버전에서는 2.0 대신 2.50으로 설정하는 것이 가장 좋습니다.
즐겁게 사용하세요. 그녀는 빠르게 성장하고 있습니다.
광인 과학자의 일기
그녀의 초기 버전은 이제 놀아볼 준비가 되었습니다. ComfyUI에서 res4lyfe를 사용하는 것을 권장합니다.
이것은 명백히 플로우 매칭 sd15입니다. sd15의 핵심 모델의 상당 부분이 플로우 매칭으로 디스틸레이션된 결과입니다.
https://huggingface.co/datasets/AbstractPhil/sd15-latent-distillation-500k
하드웨어가 없더라도 여기서 모델을 실험해볼 수 있지만, ZeroGPU는 제한적이므로 주의하세요.
https://huggingface.co/spaces/AbstractPhil/sd15-flow-matching-lune
이 플레이그라운드에는 Lune과 프로토타입 VAE인 Lyra가 모두 포함되어 있습니다.
이 모델을 학습하는 데 사용된 모든 프롬프트는 체크포인트가 저장된 저장소에 첨부된 목록으로 결합되어 있습니다. LAION 계열과 A에서 B로 생성된 합성 데이터와의 직접적인 시스템 연관성을 확인할 수 있습니다.
라이선스: MIT – 인용은 필수는 아니지만 감사하겠습니다.
가장 최근의 미세 조정 버전은 여기에 있습니다:
이 버전은 잠재 공간 곱셈이 필요하지 않습니다.
이 모델 사용법
https://huggingface.co/AbstractPhil/sd15-flow-lune
https://huggingface.co/AbstractPhil/sd15-flow-lune-flux
모든 PT 및 safetensor 체크포인트는 여기에 호스팅되어 있습니다. 플럭스-슈넬 미세 조정 전에 52,000개를 CivitAI에 업로드할 예정입니다.
ksampler에서 출력된 잠재 공간을 곱해야 합니다. 너무 밝거나 픽셀화되어 보인다면 잠재 공간 값을 약간 줄이세요.
sd15-flow-lune에는 이 설정이 필요합니다. 플럭스에는 필요하지 않습니다.

sd15의 shift도 필요합니다. 2.0과 2.5로 학습되었으며, 두 값 사이의 기울기에 반응합니다.


res4lyfe 없이도 일반 ksampler와 함께 작동합니다. 단, shift가 핵심 모델 → shift → 샘플러 입력으로 정확히 연결되었는지 확인하세요.
Lune의 역사
Lune은 프로토타입 쌍둥이의 자식입니다. 두 모델은 '집합적 분류'를 기반으로 디스틸레이션했습니다. 저는 이 집합을 Geofractal-David 집합이라 명명했습니다. 이 집합의 전체 목적은 sd15의 각 블록을 관찰하여 패턴과 타임스텝을 학습하는 것입니다.
David
David는 프로토타입에서 다양한 작업을 수행할 수 있는 완전한 모델로 진화했습니다. David는 집합 내에서 거의 모든 형태의 데이터를 분류할 수 있습니다. 단, 데이터가 분류 가능하다는 전제 하에요. David는 분류 헤드의 방법론과 Geofractal 행동 반응 분류 프로세스 덕분에 이러한 행동을 분류하는 방법을 스스로 학습할 수 있습니다.
타임스텝: 100개 항목과 버킷, 패턴: 10차원 항목과 버킷 — 모든 공간을 공유했습니다. 이것이 제가 이 모델들을 학습한 방식입니다.
각 레이어는 sd15의 레이어에 직접 연결되었고, sd15는 고정된 상태에서 프롬프트 요청이 반복되었습니다. 수십만 번의 요청과 대규모 배치 후, David는 충분한 정확도로 분류를 수행할 수 있게 되었고, 첫 번째 실험을 시작할 수 있었습니다.
https://huggingface.co/AbstractPhil/sd15-flow-matching
플로우 매칭의 실패
여정은 결코 쉽지 않았습니다. 모델은 초기에는 좋은 반응을 보였으나, 나중에는 완전히 기하학적으로 평평한 반응으로 전환되었습니다. 시스템은 학습했지만 세부 사항을 이해하지 못했습니다. 이러한 세부 패턴은 전혀 타겟으로 설정되지 않았고, 학습 후에야 그 이유를 알게 되었지만, 학습 중에는 epoch 50까지 계속 진행했습니다.
학습 중에는 트레이너에 여러 결함이 있었고, 연결 문제로 오버플로우나 실패가 반복되었습니다. pts 파일 업로드 실패로 16시간 이상의 학습 시간이 낭비될 뻔했습니다. 이 문제를 해결하기 위해 Colab에서 %debug를 빠르게 익혔습니다.
하지만 저는 절대 포기하지 않았습니다. 이 모델이 죽지 않도록 했습니다.
플로우 매칭 시도 2
첫 번째 버전이 실패하는 것처럼 보였기 때문에, 가설을 검증하기 위해 두 번째 버전을 시작했습니다. 두 번째 버전은 가중치 버킷을 사용한 새로운 타임스텝 학습 방식을 도입했고, 정확도가 낮은 버킷은 배제하고 특정 임계값을 넘는 버킷만을 난이도 목표로 처리했습니다.
기하학적 구조 측면에서는 더 성공적이었지만, 패턴은 여전히 유지되지 않았습니다. 저는 패턴 자체가 충분히 깊지 않다고 생각했습니다. 그러나 추가 학습 결과, 제가 잘못 판단했다는 것을 알게 되었습니다. 패턴은 실제로 유지되었고, 제가 평가하는 방법과 기하학적 형식을 잘못 이해하고 있었던 것이었습니다.
이 버전이 곧 Lune이 되었습니다. 저는 epoch 28에서 학습을 중단했고, 그 자매 모델은 epoch 50까지 학습했습니다.
재점화된 결심
저는 약 40만 개의 512x512 잠재 공간을 sd15 출력에서 직접 추출한 대규모 데이터셋을 학습하기 시작했습니다. 이 데이터는 스케일된 것과 스케일되지 않은 것의 혼합입니다.
https://huggingface.co/datasets/AbstractPhil/sd15-latent-distillation-500k
이것은 사실상 모델 중독 데이터셋입니다. 그러나 가설을 테스트하기엔 충분했습니다. sd15-flow-matching-try2는 형태, 기하학, 프랙탈을 학습했고 공간을 보존했습니다. 그러나 인접한 패턴 기반 출력 구조 없이 이들의 전역적 의미를 학습하지는 못했습니다.
기대했던 전역적 질서를 유지하지 못했고, 이것이 실패의 원인이었습니다. 플로우 매칭 보간은 훌륭한 성공이었지만, 중요한 정보 한 조각이 빠져 있었습니다.
실행해보았고, 학습이 완료되었습니다. 이 첫 번째 릴리즈가 바로 이 버전입니다. 여러분이 보고 있는 것이 바로 결과물입니다. 이 모델이 작동하려면 두 가지 특정 설정이 필요합니다.
돌파구 – 캔토르 프랙탈
후속 평가 과정에서, David 구조 내에서 일부 요소는 무효하고 일부는 유용하다고 판단했습니다. 그런 다음 David 집합에 전역 주의를 연결해보았지만, 실패했습니다. 작은 집합이라도 OOM이 발생했습니다. 전역 주의는 유지되지 않았고, 따라서 새로운 해결책을 찾아야 했습니다. 더 나은 해결책을요.
VAE Lyra
전역 주의를 위한 제가 설계한 메커니즘인 캔토르 주의(Cantor Attention)는 Lyra VAE를 탄생시켰습니다. 이는 T5-Base와 CLIP_L 특징을 조화롭게 융합하여, CLIP_L 특징 내에서 의미 있는 차별화를 직접 인코딩하면서도 해당 특징의 표현적 이해를 완전히 파괴하지 않는 놀라운 발명입니다.
Hugging Face 플레이그라운드에서도 Lyra를 실험해볼 수 있지만, 이는 전통적인 “플러그 앤 플레이” VAE와는 다릅니다. ComfyUI에서 특수 노드 세트가 필요하며, 이는 제 저장소에서 제공됩니다(약간의 부수적 요소 포함).
MMAE Beatrix
Beatrix는 초기 단계의 캔토르 기반 다중 모달 자동 인코더 프로토타입으로, 다음을 수행합니다:
- 여러 스케일에서 여러 CLIP 특징을 동시에 수용합니다.
- T5, Bert, Lyra 등 다양한 인코더 변형을 동시에 수용하며, 시스템에 연결된 잠재적 접근 게이트로 작동합니다.
- 학습된 모든 구조의 행동을 통합하여 결정론적 분할 프랙탈 기하학적 특징을 출력합니다.
- 이미지에는 ViT처럼, MIDI에는 오선의 다섯 번째 순환 인코더처럼, 텍스트 특징에는 저장 단위처럼 작동합니다.
- 전체 과정은 역변환 가능합니다. 동일한 인코딩은 하류에서 복원 가능합니다.
이 모든 것이 캔토르 스텝 과정 덕분에 가능합니다. 캔토르 스텝 없이 플로우 매칭은 실패할 것이며, 플로우 매칭 없이 시스템은 현재 단계에서 작동할 수 없습니다.
캔토르 게이팅과 희소 전역 주의를 통해, 일반적으로 무시되는 캔토르 공간의 교차 오염 영역이 차원 벡터화의 어떤 공간에서도 기하학적으로 정렬될 수 있습니다.
손실은 유형별 시스템을 그룹화하면서, 텍스트 인코딩을 전체 시스템 내에서 공유 프랙탈 접근의 토큰화된 경로로 융합합니다. 이러한 잠재 접근 공간은 현대 기술로 구현할 수 있는 가장 견고하고 실용적인 시스템 접근 방식을 사용하여 매우 결정론적이고 최적화될 것입니다.
이것은 바로 단축 경로의 구현입니다. 제가 오랫동안 구축해온 시스템이며, 이제 명확한 목표로 자리 잡았습니다. 일시적인 현상도, 혼란스러운 실험도 아닙니다. 실제로 빠르게 구축할 수 있는 잠재력입니다.
완전한 고성능 학습을 위해서는 보조금이 필요하지만, 베이스라인은 A100 하나와 각 부분을 미세 조정하는 세션만으로도 학습 가능합니다.




















