带有标签visual language的模型