RMHF
세부 정보
파일 다운로드
이 버전에 대해
모델 설명
나는 현재 근처에서 새로운 병합 레시피를 생성하고 사용자가 더 나은 것을 선택하도록 하여 최적의 가중치 병합 비율을 "학습"하는 단순한 알고리즘을 과장된 이름인 "RMHF - Reinforcement Merging on Human Feedback"이라고 명명했다.
https://github.com/TkskKurumi/DiffusersFastAPI/blob/main/rmhf_v2.py
나는 현재 근처에서 새로운 병합 레시피를 생성하고 사용자가 더 나은 것을 선택하도록 하여 최적의 가중치 병합 비율을 "학습"하는 단순한 알고리즘을 과장된 이름인 "RMHF - Reinforcement Merging on Human Feedback"이라고 명명했다.
https://github.com/TkskKurumi/DiffusersFastAPI/blob/main/rmhf_v2.py