simple and efficient model mixing method
세부 정보
파일 다운로드
이 버전에 대해
모델 설명
간단하고 효율적인 모델 혼합.
이것은 제가 스스로 연구한 모델 혼합 방식입니다. 우선 제 발견을 공유해 드리고, 여러분이 모델을 혼합하는 방법도 궁금합니다.
Simple and efficient model blending
This is a model blending method I developed myself. In short, I just wanted to share my findings, and I'm also curious about your methods for blending models
혼합 원리는 모델 혼합의 과적합 현상을 활용하여 이를 심층적으로 연구한 것입니다.
따라서 이 혼합 방식은 모든 AI 모델에 보편적으로 적용될 가능성이 있습니다. 그렇기를 바라지만, 이를 검증하는 것은 분명히 어렵습니다.
The mixing principle makes use of the over-fitting phenomenon of model mixing, and on this basis, it is deeply studied.
So this hybrid approach is likely to be common to all AI models. I hope so, but it's obviously a little hard to verify.
제가 상상하는 이 혼합 방식은 모델 혼합의 가장 큰 문제인 자료 부족을 해결할 수 있습니다.
In my vision, this hybrid approach can address the biggest issue troubling model mixing, which is the lack of materials
연구의 장애물이 너무 많습니다. 버전이 낙후되고, 소외된 분야이며, 참고 자료가 없고, 자료가 제한적이며, 지원도 없고, 심지어 일부 발견과 가설은 아직 누구도 제안하지 않았습니다. 현재 가장 큰 문제는 시간이나 개인 능력이 아닙니다. 어쨌든 여러분은 시도해볼 의향이 있으신가요? 미지의 세계를 탐색하는 것은 정말 재미있는 일입니다.
이제 관련 연구 정보를 보완하겠습니다.
I will now provide some additional research information
LORA의 혼합 가중치
대부분의 LORA의 최대 가중치는 50~100 범위에 있으며, 이 범위를 초과하면 수치 오버플로우가 발생하므로 수치 오버플로우 검사(nan-check)를 활성화해야 합니다.
Lora's mixed weights
The maximum weight of most Lora is in the range of 50 to 100. Exceeding this range may lead to numerical overflow, so it is necessary to enable numerical overflow detection (nan-check)
LORA의 가중치 단계
LORA의 가중치 수치가 증가함에 따라 LORA는 다음과 같은 단계의 변화를 겪습니다.
모델 정보가 지배적입니다.
LORA 정보가 지배적이며, 모델 정보가 보완됩니다.
LORA 정보가 지배적입니다.
노이즈
수치 오버플로우
The weight stage of Lora
As the Lora weight values increase, Lora will undergo the following stages of change
1. Model information is dominant
2. Lora information is dominant, while model information is supplementary
3. Lora is information-driven
4 noise points
5 numerical overflow
각 LORA는 서로 다른 최대 가중치를 가지며, 저는 이를 학습 깊이라고 부릅니다.
Each Lora has a different maximum weight, which I refer to as learning depth
이제 혼합 세부 사항을 설명하겠습니다.
I will now explain the mixed details
- LORA 가중치를 왜 이렇게 높게 설정해야 하는가
LORA의 가중치는 혼합 시 모델의 비율을 나타내며, 이를 높게 설정하는 것은 불필요한 모델의 영향을 막기 위함입니다.
1.Why do Lora weights need to be set so high
The weight of Lora represents the proportion of the model during mixing, and increasing it is to avoid the influence of unnecessary models
- 모델 혼합의 α 값
α = -1은 LORA 정보를 얻기 위한 값입니다. α = -2는 얻어진 LORA 정보를 반전시킵니다.
2.The α value for model mixing
α = -1 is used to obtain lora information. α = -2 reverses the obtained lora information
- 기존 기반에서 다시 혼합하는 방법
얻어진 모델을 활성화 처리합니다. 이 과정에는 13회 혼합이 필요합니다. 이후 다음 LORA를 추가할 수 있습니다.
Activation the obtained model, which requires 13 mixing. After that, you can add the next LoRA.
- 혼합의 결점
이 혼합 방식은 LORA의 모든 정보를 추출하기 때문에 혼합하는 LORA가 많을수록 효과가 불안정해집니다. 현재까지 해결 방법을 찾지 못했습니다.
4. Mixed defects
Since this mixing method captures all the information from Lora, the more mixed Lora there is, the less stable the effect becomes. I haven't found a solution for this yet
5. 이와 유사한 효과를 낼 수 있는 다른 혼합 방식이 있는가
다른 혼합 방식도 이와 유사한 효과를 낼 수 있지만, 이 방식만이 가장 높은 하한선을 가지고 있습니다.
5. Are there any other mixing methods that can achieve this effect
Other mixing methods can achieve this effect as well, but only this method has the highest lower limit
- 이 혼합 방식의 원리는 무엇인가요?
저는 수많은 과적합 혼합을 통해 일부 패턴을 발견했지만, 그 원리는 여전히 불명확하며 설명하기조차 어렵습니다. 간단히 말하자면, 특정 특수 모델을 사용하여 다른 모델의 정보를 추출하고, 이 추출된 모델을 처리하는 것입니다.
그러면 왜 이러한 현상이 발생하는 것일까요? 저는 “저는 모릅니다”라고밖에 답할 수 없습니다.
6.What is the principle behind this mixing method
I have found some patterns through extensive overfitting mixing, but the principles remain unknown and are even difficult to explain. In simple terms, it involves using certain special models to extract information from other models and then processing the extracted models.
So why do these phenomena occur? I can only answer, I don't know
이후 여러분은 LORA에 대한 새로운 인식을 많이 얻게 될 것입니다. 제 연구는 이미 정체 상태에 빠졌고, 더 이상의 돌파구는 어렵습니다.
You will gain a lot of new insights about Lora. In short, my research has reached a standstill, and it's unlikely to have any breakthroughs.
다음은 나머지 연구와 관련된 페이지입니다. 페이지 공간이 제한적이므로 나머지 정보는 다른 페이지에 게시됩니다. 현재 편집 중입니다.
Here are the related pages for the remaining research. Due to space limitations, the rest of the information will be published on other pages. It is still being edited
모델 분해 연구 페이지 Model Deconstruction Research Page
이 방법을 사용한 모델 최적화 데모 페이지
Demonstration page for model optimization using this method




