带有标签video depth map的模型