带有标签direct preference optimization的模型