4.4 直接偏好优化