训练CLIP-G耗能超过15KWh,而CLIP-L耗能远少于1KWh
完整的负向强化(余弦相似性)可在我的huggingface获取,此方法与使用潜在空间中完整冻结视觉模型的正向强化(对比损失)相结合。