Skip to content

Commit f895c75

Browse files
📝 删除冗余文档,优化内容结构
- 删除了多个与决策树、Transformer及计算机视觉相关的文档,简化了内容,提升了信息的连贯性和可读性。 - 更新了Python标准库文档,增加了对常用模块的详细说明,增强了内容的实用性。 - 优化了文档结构,确保用户获取全面且一致的信息。
1 parent 1d2bb23 commit f895c75

File tree

19 files changed

+317
-150
lines changed

19 files changed

+317
-150
lines changed

docs/docs/机器学习/Transformer/多模态Transformer.mdx

Lines changed: 0 additions & 4 deletions
This file was deleted.
Lines changed: 9 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,9 @@
1+
---
2+
sidebar_position: 0
3+
title: LSTM
4+
---
5+
LSTM 是一种特殊的循环神经网络(Recurrent Neural Network, RNN)架构,设计初衷是为了解决传统 RNN 在处理长序列数据时出现的长期依赖问题(Long-Term Dependency Problem)和梯度消失问题。
6+
7+
:::info
8+
《Long Short-Term Memory (LSTM)》截止2025年,谷歌学术总引用次数排名第5。
9+
:::

docs/docs/机器学习/Transformer/经典Transformer.md renamed to docs/docs/机器学习/序列处理/Transformer.mdx

Lines changed: 8 additions & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -1,8 +1,15 @@
11
---
22
sidebar_position: 1
3-
title: 经典Transformer
3+
title: Transformer
44
---
55

6+
伟大无需多言。
7+
8+
:::info
9+
《Attention Is All You Need》截止2025年,谷歌学术总引用次数排名第2。
10+
:::
11+
12+
613
在大模型的处理中,我们会把文本经过tokenizer转为token序列,通过嵌入层转为向量矩阵,经过一系列运算后得出新的向量矩阵,接着将这个新的矩阵最后一个向量与嵌入矩阵中的每个词计算相似度,返回最有相似的向量对应的token作为预测值,将token通过词表转化为文本。将新token追加到输入序列。
714

815
循环往复上述过程,直到遇到终止符,模型推理结束。
Lines changed: 12 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,12 @@
1+
---
2+
sidebar_position: 2
3+
title: Vision Transformer
4+
---
5+
6+
首次成功将 Transformer 架构(原用于 NLP)应用于图像分类任务,挑战了 CNN 在计算机视觉领域的主导地位。
7+
8+
ViT 的成功是深度学习领域方法论的一次重大转变,标志着**“大一统”**架构(即 Transformer)开始统治 NLP 和 CV 两个领域。
9+
10+
:::info
11+
《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》在 2020 年及之后发表的论文中,谷歌学术总引用次数排名第1。
12+
:::
Lines changed: 3 additions & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -1,8 +1,10 @@
11
---
22
sidebar_position: 7
3-
title: Transformer结构
3+
title: 序列处理
44
---
55

6+
在现代深度学习中,文本、图片、音频、视频都是序列。
7+
68
学习Transformer的原理,使用PyTorch实现一个简单的Transformer模型,对模型进行训练和推理。通过分布式训练,提升模型训练效率。
79

810
通过这个单元的学习,你可以获得一个专属于自己的大模型,并可以用于自己的业务场景。同时可以回答下面的问题:
Lines changed: 29 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,29 @@
1+
---
2+
sidebar_position: 4
3+
title: Adam与BatchNorm
4+
---
5+
6+
7+
## Adam
8+
9+
提出了一种高效且自适应的随机优化算法,通过结合一阶矩(动量)和二阶矩(自适应学习率)的估计,为每个模型参数独立调整学习率。
10+
11+
大幅简化了深度学习模型的训练过程,减少了手动调整学习率的需要,并保证了在稀疏梯度(尤其是在 NLP 中)下的稳定收敛。
12+
13+
成为深度学习,特别是自然语言处理(NLP)和 Transformer 架构的默认优化器之一。
14+
15+
:::info
16+
《Adam: A Method for Stochastic Optimization》截止2025年,谷歌学术总引用次数排名第6。
17+
:::
18+
19+
## Batch Normalizations
20+
21+
提出了一种规范化网络层输入的方法,解决了训练深度网络时“内部协变量偏移”(Internal Covariate Shift)的问题,即中间层输入的分布在训练过程中不断变化的现象。
22+
23+
使得研究人员能够使用更高的学习率和更深的(更复杂的)网络架构进行训练,同时极大地加速了模型的收敛速度。
24+
25+
有效充当正则化器,减少了对 Dropout 等其他正则化技术的依赖。
26+
27+
:::info
28+
《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》截止2025年,谷歌学术总引用次数排名第8。
29+
:::
Lines changed: 17 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,17 @@
1+
---
2+
sidebar_position: 2
3+
title: AlexNet
4+
---
5+
6+
在2012年ImageNet图像识别挑战赛中取得了巨大突破,是深度学习在计算机视觉领域爆发的标志。它比LeNet-5更深、更宽,使用了ReLU激活函数、Dropout等技术。
7+
8+
证明了GPU可以大幅提升神经网络的训练速度,证明了深度学习在计算机视觉领域的有效性。
9+
10+
:::info
11+
《ImageNet Classification with Deep Convolutional Neural Networks》截止2025年,谷歌学术总引用次数排名第3。
12+
:::
13+
14+
## ReLU激活函数
15+
16+
## Dropout
17+
Lines changed: 14 additions & 8 deletions
Original file line numberDiff line numberDiff line change
@@ -1,13 +1,14 @@
11
---
22
sidebar_position: 1
3-
title: 卷积神经网络
3+
title: LeNet-5
44
---
55

6-
## 卷积神经网络
6+
LeNet-5被认为是卷积神经网络(CNN)的开山之作,主要用于手写数字识别。它包含了卷积层、池化层和全连接层,是现代CNN的雏形。
7+
8+
## 卷积
79

8-
卷积神经网络(convolutional neural network)简称CNN。卷积神经网络的核心是卷积核,卷积核在图像处理领域可以用来提取图像的纵向和横向特征。
910

10-
### 原理
11+
卷积神经网络(convolutional neural network)简称CNN。卷积神经网络的核心是卷积核,卷积核在图像处理领域可以用来提取图像的纵向和横向特征。
1112

1213
卷积核的大小一般为奇数,如3x3,5x5,7x7等,卷积核通常与图像处理(over padding)后的图像进行卷积操作,卷积核在图像上滑动,每次滑动一个像素,对应位置的像素值与卷积核对应位置的值相乘,然后求和,最后将求和的结果作为卷积核中心像素的值,这样就得到了一个新的图像。
1314

@@ -147,7 +148,7 @@ $$
147148

148149
通过这个例子,可以清晰地看到卷积核是如何对矩阵进行操作并生成输出的。
149150

150-
### 常见卷积核及用途
151+
### 常见卷积核
151152

152153

153154
1. **水平边缘检测**
@@ -336,7 +337,10 @@ plt.tight_layout()
336337
plt.show()
337338

338339
```
339-
### pooling 池化
340+
341+
## 池化
342+
343+
340344
池化(Pooling)是一种用于减少卷积神经网络(CNN)中特征图大小的操作。它通过将特征图上的局部区域进行聚合,得到一个更小的特征图。
341345

342346
池化操作类似卷积操作,使用的也是一个很小的矩阵,叫做池化核,但是池化核本身没有参数,只是通过对输入特征矩阵本身进行运算,它的大小通常是2x2、3x3、4x4等,然后将池化核在卷积得到的输出特征图中进行池化操作,需要注意的是,池化的过程中也有Padding方式以及步长的概念,与卷积不同的是,池化的步长往往等于池化核的大小。
@@ -503,7 +507,8 @@ print(out_put)
503507
'''
504508
```
505509

506-
### stride(步幅)
510+
511+
## 步幅
507512

508513
步幅表示卷积核移动的步长,步幅越大,卷积核每次跳跃的距离就越多,卷积核的感受野越小。
509514
:::tip
@@ -602,7 +607,8 @@ if __name__ == "__main__":
602607
'''
603608
```
604609

605-
### 卷积神经网络对手写数字识别
610+
611+
## 手写数字识别
606612

607613

608614
import Tabs from '@theme/Tabs';

0 commit comments

Comments
 (0)