FCP (Feedback Conditional Policy)

This is the official repository for the paper Language Models Can Learn from Verbal Feedback Without Scalar Rewards.

A training framework that implements Feedback Conditional Policy (FCP) for aligning large language models with verbal feedback.

📝 Updates

2026-01-05: Simplified the codebase, provided modification documentation (MODIFICATIONS_FCP.md), and released model checkpoints on Hugging Face.
2025-09-25: Open-sourced this repository.

🚀 Quick Start

Prerequisites

verl framework
Set your OPENAI_API_KEY environment variable before training

🏋️ Training

Offline FCP Training

Use LLaMA-Factory's built-in SFT training code with the SFT datasets mentioned below.

FCP Bootstrapping (Online) Training

Run the VERL training script:

./verl/recipe/fcp/run_fcp.sh

Configuration details can be found in verl/recipe/fcp/config/fcp_trainer.yaml.

📊 Datasets & Frameworks

We use different frameworks and datasets for different training stages:

Offline FCP Training

Framework: LLaMA-Factory
Datasets:

FCP Bootstrapping (Online) Training

Framework: verl
Datasets:

📖 Citation

If you find this code useful, please consider citing our paper:

@article{luo2025languagemodelslearnverbal,
      title={Language Models Can Learn from Verbal Feedback Without Scalar Rewards}, 
      author={Renjie Luo and Zichen Liu and Xiangyan Liu and Chao Du and Min Lin and Wenhu Chen and Wei Lu and Tianyu Pang},
      journal={arXiv preprint arXiv:2509.22638},
      year={2025}
}

Name		Name	Last commit message	Last commit date
Latest commit History 10 Commits
LLaMA-Factory		LLaMA-Factory
verl		verl
.gitignore		.gitignore
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

FCP (Feedback Conditional Policy)

📝 Updates

🚀 Quick Start

Prerequisites

🏋️ Training

Offline FCP Training

FCP Bootstrapping (Online) Training

📊 Datasets & Frameworks

Offline FCP Training

FCP Bootstrapping (Online) Training

📖 Citation

About

Uh oh!

Releases

Packages

Contributors 2

Uh oh!

Languages

sail-sg/feedback-conditional-policy

Folders and files

Latest commit

History

Repository files navigation

FCP (Feedback Conditional Policy)

📝 Updates

🚀 Quick Start

Prerequisites

🏋️ Training

Offline FCP Training

FCP Bootstrapping (Online) Training

📊 Datasets & Frameworks

Offline FCP Training

FCP Bootstrapping (Online) Training

📖 Citation

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Uh oh!

Languages

Packages