带有标签reward的模型