带有标签caption generation的模型