Balanced CLIP (Updated)

バランスの取れた CLIP (1M)

CLIP-G の学習には 15KwH 以上のエネルギーがかかり、CLIP-L ははるかに少なく、1KwH 未満でした

完全な否定的強化（コサイン非類似度）は、私の huggingface で利用可能です。これは、潜在空間で完全に凍結されたビジョンモデルを使用した肯定的強化（対照損失）と組み合わせられました。

並び替え

画像が見つかりません。