带有标签multi image to video的模型