Chain-of-Thought (CoT) 推理实验项目,用于分析模型在思维链推理中的表现。
本项目包含以下实验:
- CoT 推理实验 (
run_infer.py): 在数学数据集上测试模型的 Chain-of-Thought 推理能力 - Token 影响分析 (
shiyan1.py,shiyan2.py): 基于梯度敏感度分析 CoT token 对答案的影响 - 实验结果分析 (
11_2_diyicichangshi/): CoT token 影响分析的结果和总结
-
run_infer.py: 运行 CoT 推理实验的主脚本- 支持多种数学数据集(GSM8K, MATH, SVAMP 等)
- 使用系统提示词引导模型进行 CoT 推理
- 支持批量推理和实时结果保存
-
shiyan1.py,shiyan2.py: Token 影响分析脚本- 基于 embedding 梯度分析 token 影响度
- 生成一维影响向量和二维因果矩阵
-
setup_hf.py: HuggingFace 环境配置脚本 -
chat.py: 交互式聊天脚本(用于测试)
11_2_diyicichangshi/: Token 影响分析结果总结.md: 实验总结和分析global.tsv: 全局 token 频次统计per_sample.jsonl: 每条样本的详细结果causal_npz/,joint_npz/: 数值结果文件causal_png/,joint_png/: 可视化图片
pip install torch transformers datasets tqdmpython run_infer.py \
--model deepseek-ai/DeepSeek-R1-Distill-Qwen-7B \
--data gsm8k \
--sc 1 \
--batch_size 8 \
--max_new_tokens 2048python shiyan1.py # 或 shiyan2.py- ✅ 支持多种 HuggingFace 数据集
- ✅ 批量推理加速
- ✅ 实时结果保存
- ✅ Self-Consistency (SC) 采样
- ✅ Token 梯度影响分析
- ✅ 结果可视化
详细结果请参见 11_2_diyicichangshi/总结.md。
主要发现:
- CoT 中存在显著的模板结构
- 关键推理词(如 "determine", "calculate")对答案影响较大
- 段落切换符号(换行符)是重要的结构信号
本项目仅供研究使用。
欢迎提交 Issue 和 Pull Request。