新同学进组学习指南-大模型/多模态推理与规划

请注意，并非所有的任务都要逐一完成，如果你觉得对于你来说过于简单，可以直接跳过~

Stage 1：基础知识

1. 神经网络与深度学习基础

掌握神经网络的基本原理，能够理解前向传播与反向传播的数学推导与代码实现
了解Pytorch核心组件的使用，例如常用损失函数、优化方法等
参考资料：
1. 李沐，动手学深度学习
2. Andrej Karpathy，Neural Networks:Zero to Hero
实践任务：基于PyTorch 从零实现一个简单的多层感知机 (MLP)，完成 MNIST 手写数字分类任务

2. 常见深度神经网络架构

掌握CNN/ResNet、RNN/Transformer等机器学习基础模型架构
理解诸如残差连接、注意力机制、位置编码等核心思想
参考资料：
1. 《动手学深度学习》中的相关内容
2. Happy-LLM 第二-五章：https://datawhalechina.github.io/happy-llm/
3. Andrej Karpathy 课程关于Transformer与LLM部分
实践任务：参考Happy-LLM相应章节，基于Pytorch手动搭建Transformer模型

3. 大语言模型实践

掌握GPT系列、LLaMA系列大语言模型架构
掌握大语言模型的常用微调算法，例如LoRA、SFT、PPO/DPO/GRPO等
参考资料：
1. HuggingFace Transformer库：https://huggingface.co/docs/transformers/index
2. LLaMA-Factory：https://github.com/hiyouga/LLaMA-Factory
3. Happy-LLM 第六章：https://datawhalechina.github.io/happy-llm/
实践任务：基于HuggingFace Transformer库或LLaMA-Factory，完成一个开源大模型在某个垂域任务上的有监督微调与评测（例如司法、金融、数学等，相应数据集可自行搜索）

4. Vision Transformer (ViT)

掌握Vision Transformer (ViT)的基本原理
参考资料：
1. ViT论文：https://arxiv.org/abs/2010.11929
2. 参考代码库：https://github.com/lucidrains/vit-pytorch
实践任务：基于Pytorch构建ViT模型，尝试在一个图像分类数据集，例如Image-Net子集，中进行训练/微调与评测

5. 视觉语言模型CLIP

掌握基础视觉-语言模型CLIP的基本原理
参考资料：
1. CLIP论文：https://arxiv.org/abs/2103.00020
2. 官方代码：https://github.com/openai/CLIP
实践任务：基于预训练的CLIP完成一个图像分类数据集的分类任务，例如ImageNet，尝试替换不同的encoder，并对比分析结果

6. 多模态大模型前沿

掌握LLaVA、Qwen-VL系列前沿多模态大模型架构，了解并追踪其他常用多模态大模型架构
学习如何查找论文、技术报告，使用Huggingface中的模型代码等
参考资料：
1. LLaVA论文：https://arxiv.org/abs/2304.08485
2. Qwen2.5-VL Technical Report：https://arxiv.org/abs/2502.13923
3. 多模态大模型论文串讲：上，下
实践任务：选择一个典型的多模态推理或规划任务，例如几何数学推理、视觉问答、空间推理、视觉规划、具身规划、游戏智能体规划，尝试运行至少一个多模态大模型，获得评测结果；此部分可形成简要的PPT汇报
常用数据集示例
- 几何数学推理：MathVista，MathVision，We-Math
- 视觉问答推理：V* Bench，RSVQA，VisuLogic，LogicVista，ARC-AGI
- 空间推理：商汤整合的空间推理benchmark及模型评测
- 视觉规划：VSP
- 具身规划：Mini-Behavior，ViPlan，Embodied-Bench
- 游戏智能体规划：我的世界，星露谷物语

Stage 2：神经符号基础

1. 逻辑与符号推理基础

理解命题逻辑与一阶逻辑，掌握基本逻辑推理方法，了解Prolog语言
了解PDDL语言，能够调用规划求解器完成经典规划任务求解，例如积木世界BlocksWorld
参考资料：AIMA对应章节

2. 神经符号推理基础

学习如何将神经网络与符号推理结合，尝试理解神经符号推理与端到端神经网络的区别
实践任务：阅读论文Neural-Symbolic Concept learner，并在Clevr数据集中实现
实践任务：阅读论文Learning Adaptive Planning Representations with Natural Language Guidance，并在Mini Mincraft环境中实现

Stage 3：综述论文

阅读相关领域综述，了解前沿进展，形成对该领域的整体认识
参考综述：
1. 大模型推理：Towards Reasoning Era: A Survey of Long Chain-of-Thought for Reasoning Large Language Models https://arxiv.org/pdf/2503.09567
2. 多模态推理：
- Thinking with Images for Multimodal Reasoning: Foundations, Methods, and Future Frontiers https://arxiv.org/pdf/2506.23918
- Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey https://arxiv.org/pdf/2503.12605
- Perception, Reason, Think, and Plan: A Survey on Large Multimodal Reasoning Models https://arxiv.org/pdf/2505.04921
1. 神经符号融合：
- Neuro-Symbolic Concept: https://arxiv.org/abs/2505.06191
- Neuro-Symbolic Artificial Intelligence: Towards Improving the Reasoning Abilities of Large Language Models: https://ijcai-preprints.s3.us-west-1.amazonaws.com/2025/8905.pdf
任务：以综述论文为纲，阅读学习相关论文，完成一个PPT汇报，重在凝练形成整体认识，无需介绍方法细节。
目标：能够从技术和问题两个维度，形成对该领域的分类与认识

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

新同学进组学习指南-大模型/多模态推理与规划

请注意，并非所有的任务都要逐一完成，如果你觉得对于你来说过于简单，可以直接跳过~

Stage 1：基础知识

1. 神经网络与深度学习基础

2. 常见深度神经网络架构

3. 大语言模型实践

4. Vision Transformer (ViT)

5. 视觉语言模型CLIP

6. 多模态大模型前沿

Stage 2：神经符号基础

1. 逻辑与符号推理基础

2. 神经符号推理基础

Stage 3：综述论文

Stage 4：讨论确定具体方向，论文阅读、复现与改进

About

Uh oh!

Releases

Packages

LAMDASZ-ML/-RoadMap

Folders and files

Latest commit

History

Repository files navigation

新同学进组学习指南-大模型/多模态推理与规划

请注意，并非所有的任务都要逐一完成，如果你觉得对于你来说过于简单，可以直接跳过~

Stage 1：基础知识

1. 神经网络与深度学习基础

2. 常见深度神经网络架构

3. 大语言模型实践

4. Vision Transformer (ViT)

5. 视觉语言模型CLIP

6. 多模态大模型前沿

Stage 2：神经符号基础

1. 逻辑与符号推理基础

2. 神经符号推理基础

Stage 3：综述论文

Stage 4：讨论确定具体方向，论文阅读、复现与改进

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Packages