태그 direct preference optimization가 있는 모델