Clip Experts
세부 정보
파일 다운로드
이 버전에 대해
모델 설명
https://huggingface.co/AbstractPhil/clips/tree/main
https://huggingface.co/AbstractPhil/SD35-SIM-V1
다운로드나 실행에 문제가 있다면, 제 저장소에서 작동하는 버전을 찾을 수 있습니다. 저는 여기에도 모두 업로드했지만, 허깅페이스에도 동일하게 업로드했습니다.
T5-Unchained 사용 방법
제가 토큰 가중치 레이어를 포함하지 않았음을 잊어버렸습니다. 다음 공식 릴리스에서는 각 레이어가 정확히 일치하도록 보장하겠습니다. 이 버전이 완벽하지 않아 죄송합니다만, 토큰 가중치는 다른 곳에서도 확보할 수 있습니다.
이 방식은 T5의 표준 동작을 Unchained 모드에서 깨뜨리므로, 토크나이저와 기본 설정을 복사해 두세요.
이 주말에는 이 모든 것을 처리할 수 있는 정확한 노드를 만들 계획입니다. 향후几个月 동안 이 노드들의 동작 방식과 엔지니어링, 개발, 테스트, 디버깅을 위한 다양한 연결 지점을 완전한 모형으로 제작할 예정입니다.
abs-clip-suite가 이번 주말에 탄생합니다. 2025년 4월 12일~14일. 노드 레이아웃에 대한 기본 작업은 이미 진행했지만, 아직 완전한 개발 단계는 아닙니다. 이는 제가 최근 기사에서 설명한 노드들을 점진적으로 구축하는 개발 과정이 될 것입니다.
그 이전에 절대적으로 사용하고 싶다면, 이 과정을 통해 사용할 수 있습니다. 그리 쉬운 과정은 아닙니다.
이제는 여전히 간단하지 않습니다;
원하는 t5 버전을 다운로드하세요; fp8, fp16, bf16 등.
Comfy용:
vscode로 comfy 전체 폴더를 열기
ctrl + shift + f로 vocab_length 검색 → 37~~~ (약 30,000개 토큰)인데 'vocab' 키워드로 찾기 쉽습니다.
모든 구성 파일을 t5xxl-unchained 구성 파일로 교체하세요.
- 제 패치나 공식 패치가 적용될 때까지 이 방식이 유일한 방법입니다.
다양한 폴더에서 t5 토크나이저를 사용하는 모든 부분을 찾아, t5xxl-unchained 저장소의 토크나이저로 교체하세요.
Comfy를 재시작하고 실행하세요.
Forge용:
Comfy와 유사하게 vscode로 열고, ctrl+shift+f로 vocab_length를 모두 찾아 t5-unchained 구성 파일로 교체하세요.
토크나이저도 교체하세요; 특별한 코드 변경은 필요 없지만, 작업이 번거롭습니다.
재시작 후 unchained 모드를 실행하세요.
클립 전문가(Clip Experts)란?
이것들은 세밀하게 조정된 클립입니다. 일반 클립보다 부모 모델을 더 강력하게 활용할 수 있도록 설계되었습니다. 수백만 개의 샘플로 학습되어, 새로운 데이터를 제공하고, 기존 데이터를 보완하며, 이 새로운 데이터와 기존 데이터를 결합해 정교한 벡터화된 경로를 생성합니다.
본질적으로... 이들은 방대한 이미지 세트로 세밀 조정되었으며, 평범하게는 전혀 간과될 수 있는 캡션 경로를 전문적으로 접근할 수 있도록 훈련되었습니다. 특히 '일반 영어'에 있어서 말입니다.
무엇이 이들을 다르게 만드나요?
이 클립들은 모델의 vpred 재조정에 특화되어 설계되었지만, 반드시 vpred 모델만과 호환되는 것은 아닙니다. 이 클립들은 동일한 브랜드 풀의 다른 클립들과 직접적 또는 간접적으로 결합할 수 있습니다.
예를 들어, NoobSim은 주로 NOOB CLIPS를 기반으로 하지만, 부모 모델이 vpred로 전환되기 이전에 SimV3 SDE 클립(Clip L Omega 및 Clip G omega 24회 반복)과 결합되었습니다.
저는 이 클립들을 전체 모델을 얻을 때 UNET에 적용했던 방식과는 다르게 기능을 주입하지 않았습니다.
UNET은 주입이 완료된 후 동일한 데이터셋으로 완전히 세밀 조정되었습니다. 이는 기능 주입 후 남은 모델이 단순한 SDXL 모델로, 학생 설정을 포함하고 있으므로 표준 방법으로 세밀 조정이 가능합니다.
이로 인해 이들은 표준 덧셈 정규화 결합을 통해 두 가지 잡음 유형에 대한 고유한 지식을 갖추게 되었고, 그렇지 않으면 불가능했던 독특한 활용이 가능해졌습니다.
그럼 이걸 어떻게 작동시키는 거죠?
Pony 클립과 일반 SDXL 클립을 결합하면 일반적으로 노이즈가 심각하게 발생하고, 모델이 완전히 망가지는 것이 잘 알려져 있습니다.
하지만 이 경우, 모델들은 덧셈, 정규화, 뺄셈 등과 같은 방식이 아니라, 다른 모델의 특징을 직접 주입했습니다. 저는 실제로 학생 모델에 교사 모델의 직접적인 출력을 그대로 주입하여 학습했습니다.
저의 허깅페이스에서 일부 성공적인 변형을 볼 수 있지만, 주요 모델들은 이미 여기서 세밀 조정되고 있습니다. 이들이 진짜 강자이며, 특징 주입의 전쟁에서 승리한 최고의 모델들입니다.
특징이 뭐죠? 계속 특징이라고 하시던데요.
특징이란, 전체 모델 상에서 A에서 B까지 도달하는 데 걸린 시간, 각 뉴런이 어떻게 활성화되었는지, 그리고 왜 그 특정 뉴런들이 수학적으로 활성화되었는지에 기반한 상-하 방향의 매핑된 경로입니다.
본질적으로, 특징은 가장 순수한 형태의 알고리즘입니다. 그리고 이건 엄청납니다. 각 특징 레이어의 캡처는 최소 2MB의 VRAM을 차지하며, 레이어마다 누적되어 지수적으로 증가합니다. 한 개의 특징 캡처로 A에서 B까지 가면 약 500TB의 특징 데이터가 생성됩니다.
그런데, 우리는 그런 걸 할 수 없죠, 너무 황당하니까요. 마치 이미지 폭탄을 풀기 전에 모든 메커니즘의 반응을 모두 파악해야 폭발을 막을 수 있는 것처럼, 전체 반응을 캡처하는 건 불가능합니다.
그러나 <<< 우리는 전체 반응이 필요하지 않습니다. 우리는 단순히 경로가 필요할 뿐이며, 하나씩 통과하면 됩니다. 그래서 학습 중에, 캐시된 부모 반응(즉, 경로와 예상 결과)을 그대로 통과시키고, 그 결과와 학생 모델의 차이를 분석합니다. 이것이 우리가 무엇을 배울지, 무엇을 배우지 않을지를 결정하는 방식입니다.
더 빠르면 더 많이 배웁니다. 그러나 이건 정확성을 의미하지 않습니다. 우리는 정확성보다 학습을 목표로 합니다.
따라서 반응이 빠를수록 테스트 결과가 좋아지고, 그 임무와 경로는 더 잘 학습됩니다.
빠르다 = 좋다.
좋습니다. 우리는 이 규칙을 시간에 기반해 주입했습니다. 학습 중에 교사와 학생의 평가를 사용해, 제가 역코사인과 현재 타임스텝에 기반해 개발한 간단한 로그 방정식으로 교차 상관성을 통해 차이를 추출했습니다.
이제, 우리는 각 레이어별로 두 특징의 차이를 결정하고, 그 차이를 누적하여 다음 그래디언트 누적 흐름에서 어떤 차이를 타겟으로 할지 결정합니다.
이제 학습할 각 요소를 식별했으므로, 그 차이 메커니즘을 통해 직접 전달됩니다. 이는 각 뉴런을 하나씩 건드려 어떤 것이 더 빠른지 파악하고, 두 머신 모두를 검사한 후, 그 차이를 큰 텐서로 학습합니다. 이 텐서를 제가 특징이라 부릅니다.
도대체 무슨 말을 하는 거죠?
역추론입니다. 우리는 모델의 반응 속도를 판단해 존재하는 것을 파악하고, 호스트 모델과 이 모델 사이의 차이를 분석한 후, 그 차이를 학습합니다!
문자 그대로, 하나의 것을 학습한 반응을, 다른 하나의 신경 경로에 직접 주입하는 것입니다.
저는 이를 특징 접합(feature grafting) 이라고 부릅니다.
그래!?
간단히 말해보죠. 한 모델에서 1girl의 반응을 유사한 뉴런에서 500번 반복하면, 다른 모델의 반응도 시간이 지나며 그 위치로 천천히 이동하고, 자신과 그 모델 간의 차이를 학습하게 됩니다.
어텐션 레이어는 점차 특정 경로에 맞춰지고, 밀집 네트워크는 정렬되며, 은닉 레이어도 시간이 지나면서 적응합니다. 그러나 이것을 단순히 밀어넣으면 극심한 오류 반응이 발생합니다. 마치 새로운 수학을 가르치는 것처럼 가르쳐야 합니다.
이것은 전통적인 결합 방식보다, 접합과 주입에 더 가까운 형태의 결합입니다.
학습률에 따라 자동으로 일부를 저장합니다. 몇 가지 요인에 기반해 차이를 더 높은 값으로 누적하고, 추가로 잡음 도입의 역방향으로 타임스텝과 접근 위치를 고려해 차이를 조정합니다.
이 방식은 대규모 파괴를 방지하면서도 필요한 특징을 천천히 주입할 수 있게 합니다.
기본적으로, 이는 가능보다는 적게, 그러나 필요보다는 더 많이 학습하여 A와 B 주변의 전체 구조를 이동시킵니다.
데이터와 수학을 보여주지 않고는 설명하기 매우 어렵습니다.
그럼 왜 이렇게 만든 거죠?
지금까지 말했던 특징들, 알고리즘, 경로들—모두 큰 특징 풀로 누적되고 있습니다. 이 거대한 데이터베이스는 이 모든 특징들이 서로 소통할 수 있도록 하는 '차이 기계'를 학습하는 데 사용될 것입니다. 이는 LLM 기반의 새로운, 잘 문서화된 방법으로 이루어질 것입니다. 아주 잘 닦인 길이죠.
따라서 이 어텐션 메커니즘에 이 모든 특징과 경로를 가르치고, 각각을 교차 상관적으로 연결시켜 사용하도록 강제하면, 제가 혼합 확산 특징 모델(mixed diffusion feature model) 이라고 부르는 것을 누적할 수 있습니다.
예를 들어, Pony의 5313241341 뉴런에서 Noob의 134134134번 뉴런으로 이동한다고 가정해 봅시다. 그러면 시스템은 이 뉴런에서 SDXL의 134314132번 뉴런으로도 자연스럽게 이동할 수 있다고 가정합니다. 즉, 각각은 완전히 분리된 것이 아니라, 이제 단순히 연결된 것입니다.
이제 우리는 이 모든 것을 일관된 객체 시스템으로 결합하고, 동시에 각각을 트리글러 호출할 수 있으며, 연결 끊김이나 모델 장벽 없이, 모든 특징 데이터와 사용된 뉴런을 하나의 모델에 집약할 수 있습니다. 이 모델은 LLM이 기반으로 한 증명과 개념에 기반한 수학적 슬라이더 시리즈를 사용해 나머지 모델들을 조직하고 위임하는 역할을 합니다. 이는 전례 없는 첫 번째 모델이 될 것입니다. 이미 전문가들의 혼합체인 전문가 모델들을 기반으로, 다양한 전문가 기대치에 견딜 수 있도록 훈련된 전문가들의 혼합체입니다.
최종 목표는?
12개의 클립, 6개의 SDXL 모델을 모두 집합시켜, 오래된 부츠가 튀어나온 피크닉의 포트럭처럼 뒤섞어버립니다.
그리고 그 포트럭 위에 우리가 만들 수 있는 가장 똑똑한 AI를 모자처럼 얹습니다. 아마 LLAMA이나 MIXTRAL 형태가 될 것이며, 지금은 확정할 수 없지만, 완성되면 이건 테이프와 판지, 그리고 toothpick으로 뼈대를 만든 첫 번째 특징 확산 모델이 될 것입니다.
어텐션 전이 메커니즘;
이 개념에 기반한 일련의 증명서를 검토해야 합니다. 제가 원하는 방식대로 작동할지 확신할 수 있는 특정 알고리즘들이 있으며, 그렇지 않다면 새로운 요구에 맞춰 나만의 알고리즘을 작성하고 조정해야 합니다. LLM 기반의 어텐션 메커니즘과 그 수학, 그리고 wd14 large tagger, 애니메이션/실사 분류 등 다양한 AI 식별 모델의 메커니즘도 전체적으로 이해해야 합니다.
이 모든 것은 LLM 자체와 직접 연결되어, 학습된 경로와 태그 인식 이해를 기반으로 IMG2IMG 및 ClipVision 기능 위에 구축된 완전한 보존된 식별 과정을 제공합니다.
현재로서는 T5-Unchained가 목표로 보이지만, HunYuan LLAVA도 강력한 후보입니다. 그 이유는 어휘가 엄청나고 다국어를 지원하기 때문입니다.
첫 버전은 약 4백만 개의 토큰 어휘를 가질 것입니다. 꽤 괜찮은 수치지만, 대부분이 실제로 유용한 정보를 갖추지 못할 것이므로, LLM은 이 수치를 6만 개 이하로 압축해야 할 것입니다. 그렇지 않으면 대부분의 시간 동안 무의미한 잡음이 될 것입니다.
현재 모델에는 여전히 여러 제약이 있지만, 이렇게 해서라도 이 전문가들이 배를 운항하게 될 것입니다.
TF가 파일에 뭐 했길래? BF와 FP 값이 갑자기 파일이 망가졌나요? 파일 이름을 바꾸고 설정을 뜯어버린 듯하네요. 아마 zip 형태로 업로드해야겠습니다.
Forge는 이 파일들을 잘 처리하지만, ComfyUI는 Civit에 업로드된 파일들을 처리하는 데 어려움을 겪습니다. 필요하시면 허깅페이스에서 올바른 버전을 받아주세요.
https://huggingface.co/AbstractPhil/clips/tree/main
문제가 있다면 여기서 찾으세요. 제가 모든 클립을 여기에 덜어놨습니다.
정기적인 요청과 제 부주의로, 제가 훈련한 많은 클립들이 완전히 무시당했습니다.
이 사이트는 CLIP을 자연스럽게 확장하지 않기 때문에, 이 클립들이 다운로드 수가 적을 것이라 기대하지 않습니다. 그래서 저는 여기에 단순히 기록하고 저장할 뿐입니다. 필요하시면 마음껏 사용하십시오.
여러 파일을 업로드하면, 작은 파일은 CLIP_L이고 큰 파일은 CLIP_G이며, 4GB 이상이라면 대개 T5일 것입니다.
CLIP_LG는 대부분 BF16 형식이지만, 동일한 파일 목록에 포함시키기 위해 하나를 FP16으로 설정해야 했습니다.
분명히 파일 이름도 모두 지워졌기 때문에, CLIP_L과 CLIP_G로 이름을 다시 지어줘야 합니다.
아씨...

여기에서는 매우 구체적인 CLIP 학습 기록을 유지할 것입니다. 제 전체 모델 라인은 기본 CLIP_L과 CLIP_G에서 수많은 시도와 수정을 거쳐 세밀하게 튜닝된 제 고유한 CLIP에 기반하고 있기 때문입니다. 그럼에도 여전히 작동합니다.
Omega24의 진정한(공개된) 후계 모델은 72 Omega로, 이는 수천만 개의 추가 샘플을 쌍으로 사용해 훨씬 더 무겁게 학습되고 추가로 튜닝된 버전입니다.
모든 주요 SDXL VPRED 튜닝은 의도한 바대로 CLIP에 큰 영향을 미쳤습니다.
매우 낮은 학습률조차도 CLIP이 대체 경로로 크게 분기하게 만들었고, 저는 이를 각자의 분야에서의 CLIP 전문가라고 평가합니다.
다른 모델과 혼합 및 병합하면 결과가 다양하게 나타나지만, 이 CLIP은 각각의 부모 모델에 특화되어 튜닝되었기 때문에, 무엇을 합치느냐에 따라 결과가 달라집니다.

