CoT Experiment

Chain-of-Thought (CoT) 推理实验项目，用于分析模型在思维链推理中的表现。

项目简介

本项目包含以下实验：

CoT 推理实验 (run_infer.py): 在数学数据集上测试模型的 Chain-of-Thought 推理能力
Token 影响分析 (shiyan1.py, shiyan2.py): 基于梯度敏感度分析 CoT token 对答案的影响
实验结果分析 (11_2_diyicichangshi/): CoT token 影响分析的结果和总结

文件说明

核心脚本

run_infer.py: 运行 CoT 推理实验的主脚本
- 支持多种数学数据集（GSM8K, MATH, SVAMP 等）
- 使用系统提示词引导模型进行 CoT 推理
- 支持批量推理和实时结果保存
shiyan1.py, shiyan2.py: Token 影响分析脚本
- 基于 embedding 梯度分析 token 影响度
- 生成一维影响向量和二维因果矩阵
setup_hf.py: HuggingFace 环境配置脚本
chat.py: 交互式聊天脚本（用于测试）

数据目录

11_2_diyicichangshi/: Token 影响分析结果
- 总结.md: 实验总结和分析
- global.tsv: 全局 token 频次统计
- per_sample.jsonl: 每条样本的详细结果
- causal_npz/, joint_npz/: 数值结果文件
- causal_png/, joint_png/: 可视化图片

安装与使用

环境要求

pip install torch transformers datasets tqdm

运行 CoT 推理实验

python run_infer.py \
    --model deepseek-ai/DeepSeek-R1-Distill-Qwen-7B \
    --data gsm8k \
    --sc 1 \
    --batch_size 8 \
    --max_new_tokens 2048

运行 Token 影响分析

python shiyan1.py  # 或 shiyan2.py

主要特性

✅ 支持多种 HuggingFace 数据集
✅ 批量推理加速
✅ 实时结果保存
✅ Self-Consistency (SC) 采样
✅ Token 梯度影响分析
✅ 结果可视化

实验结果

详细结果请参见 11_2_diyicichangshi/总结.md。

主要发现：

CoT 中存在显著的模板结构
关键推理词（如 "determine", "calculate"）对答案影响较大
段落切换符号（换行符）是重要的结构信号

许可证

本项目仅供研究使用。

贡献

欢迎提交 Issue 和 Pull Request。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

CoT Experiment

项目简介

文件说明

核心脚本

数据目录

安装与使用

环境要求

运行 CoT 推理实验

运行 Token 影响分析

主要特性

实验结果

许可证

贡献

About

Uh oh!

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
11_2_diyicichangshi		11_2_diyicichangshi
.gitignore		.gitignore
README.md		README.md
chat.py		chat.py
run_infer.py		run_infer.py
setup_hf.py		setup_hf.py
shiyan1.py		shiyan1.py
shiyan2.py		shiyan2.py

MorningYin/CoT-Experiment

Folders and files

Latest commit

History

Repository files navigation

CoT Experiment

项目简介

文件说明

核心脚本

数据目录

安装与使用

环境要求

运行 CoT 推理实验

运行 Token 影响分析

主要特性

实验结果

许可证

贡献

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages