- 掌握神经网络的基本原理,能够理解前向传播与反向传播的数学推导与代码实现
- 了解Pytorch核心组件的使用,例如常用损失函数、优化方法等
- 参考资料:
- 李沐,动手学深度学习
- Andrej Karpathy,Neural Networks:Zero to Hero
- 实践任务:基于PyTorch 从零实现一个简单的多层感知机 (MLP),完成 MNIST 手写数字分类任务
- 掌握CNN/ResNet、RNN/Transformer等机器学习基础模型架构
- 理解诸如残差连接、注意力机制、位置编码等核心思想
- 参考资料:
- 《动手学深度学习》中的相关内容
- Happy-LLM 第二-五章:https://datawhalechina.github.io/happy-llm/
- Andrej Karpathy 课程关于Transformer与LLM部分
- 实践任务:参考Happy-LLM相应章节,基于Pytorch手动搭建Transformer模型
- 掌握GPT系列、LLaMA系列大语言模型架构
- 掌握大语言模型的常用微调算法,例如LoRA、SFT、PPO/DPO/GRPO等
- 参考资料:
- HuggingFace Transformer库:https://huggingface.co/docs/transformers/index
- LLaMA-Factory:https://github.com/hiyouga/LLaMA-Factory
- Happy-LLM 第六章:https://datawhalechina.github.io/happy-llm/
- 实践任务:基于HuggingFace Transformer库或LLaMA-Factory,完成一个开源大模型在某个垂域任务上的有监督微调与评测(例如司法、金融、数学等,相应数据集可自行搜索)
- 掌握Vision Transformer (ViT)的基本原理
- 参考资料:
- 实践任务:基于Pytorch构建ViT模型,尝试在一个图像分类数据集,例如Image-Net子集,中进行训练/微调与评测
- 掌握基础视觉-语言模型CLIP的基本原理
- 参考资料:
- 实践任务:基于预训练的CLIP完成一个图像分类数据集的分类任务,例如ImageNet,尝试替换不同的encoder,并对比分析结果
- 掌握LLaVA、Qwen-VL系列前沿多模态大模型架构,了解并追踪其他常用多模态大模型架构
- 学习如何查找论文、技术报告,使用Huggingface中的模型代码等
- 参考资料:
- LLaVA论文:https://arxiv.org/abs/2304.08485
- Qwen2.5-VL Technical Report:https://arxiv.org/abs/2502.13923
- 多模态大模型论文串讲:上,下
- 实践任务:选择一个典型的多模态推理或规划任务,例如几何数学推理、视觉问答、空间推理、视觉规划、具身规划、游戏智能体规划,尝试运行至少一个多模态大模型,获得评测结果;此部分可形成简要的PPT汇报
- 常用数据集示例
- 几何数学推理:MathVista,MathVision,We-Math
- 视觉问答推理:V* Bench,RSVQA,VisuLogic,LogicVista,ARC-AGI
- 空间推理:商汤整合的空间推理benchmark及模型评测
- 视觉规划:VSP
- 具身规划:Mini-Behavior,ViPlan,Embodied-Bench
- 游戏智能体规划:我的世界,星露谷物语
- 理解命题逻辑与一阶逻辑,掌握基本逻辑推理方法,了解Prolog语言
- 了解PDDL语言,能够调用规划求解器完成经典规划任务求解,例如积木世界BlocksWorld
- 参考资料:AIMA对应章节
- 学习如何将神经网络与符号推理结合,尝试理解神经符号推理与端到端神经网络的区别
- 实践任务:阅读论文Neural-Symbolic Concept learner,并在Clevr数据集中实现
- 实践任务:阅读论文Learning Adaptive Planning Representations with Natural Language Guidance,并在Mini Mincraft环境中实现
- 阅读相关领域综述,了解前沿进展,形成对该领域的整体认识
- 参考综述:
- 大模型推理:Towards Reasoning Era: A Survey of Long Chain-of-Thought for Reasoning Large Language Models https://arxiv.org/pdf/2503.09567
- 多模态推理:
- Thinking with Images for Multimodal Reasoning: Foundations, Methods, and Future Frontiers https://arxiv.org/pdf/2506.23918
- Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey https://arxiv.org/pdf/2503.12605
- Perception, Reason, Think, and Plan: A Survey on Large Multimodal Reasoning Models https://arxiv.org/pdf/2505.04921
- 神经符号融合:
- Neuro-Symbolic Concept: https://arxiv.org/abs/2505.06191
- Neuro-Symbolic Artificial Intelligence: Towards Improving the Reasoning Abilities of Large Language Models: https://ijcai-preprints.s3.us-west-1.amazonaws.com/2025/8905.pdf
- 任务:以综述论文为纲,阅读学习相关论文,完成一个PPT汇报,重在凝练形成整体认识,无需介绍方法细节。
- 目标:能够从技术和问题两个维度,形成对该领域的分类与认识