From Refusal Tokens to Refusal Control: Discovering and Steering Category-Specific Refusal Directions

Name		Name	Last commit message	Last commit date
Latest commit History 68 Commits
resources		resources
scripts		scripts
.DS_Store		.DS_Store
.gitattributes		.gitattributes
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
eval_refusal_judge_azure.py		eval_refusal_judge_azure.py
refusal_tokens.ipynb		refusal_tokens.ipynb
refusal_tradeoff_plot.py		refusal_tradeoff_plot.py
requirements.txt		requirements.txt

Provide feedback