タグdirect preference optimization付きモデル