Alignment

Direct Preference Optimization for Chatbot Fine-Tuning: An Empirical Study featured image

Direct Preference Optimization for Chatbot Fine-Tuning: An Empirical Study

Empirical study of Direct Preference Optimization for chatbot fine-tuning.

Dezhi Yu

• Jun 1, 2026 • 1 min read

ROSE: A Reward-Oriented Data Selection Framework for LLM Task-Specific Instruction Tuning featured image

Large Language Models

ROSE: A Reward-Oriented Data Selection Framework for LLM Task-Specific Instruction Tuning

Reward-oriented data selection for task-specific LLM instruction tuning.

y.-wu

• Nov 1, 2025 • 1 min read