update posts

pianfan · pianfan · commit 2efb2cc77034 · 2025-11-27T15:32:33.000+08:00
diff --git a/_posts/2025-10-27-d2l_study_notes.md b/_posts/2025-10-27-d2l_study_notes.md
@@ -8,7 +8,7 @@ comments: true
 author: Pianfan
 ---
 
-本系列为博主在学习[《动手学深度学习（第二版）》](https://zh.d2l.ai/)过程中记录的笔记。<!-- more -->由于中文版有些地方翻译得不太准确，博主在阅读的过程中同时参考了[英文版](https://d2l.ai/)的表述。本系列笔记主要记录学习过程中遇到的核心概念与相关的数学和代码表示，以便今后在需要用到时可以通过笔记快速回顾。
+本系列为博主在学习[《动手学深度学习（第二版）》](https://zh.d2l.ai/)过程中记录的笔记（深度学习框架使用 PyTorch）。<!-- more -->由于中文版有些地方翻译得不太准确，博主在阅读的过程中同时参考了[英文版](https://d2l.ai/)的表述。本系列笔记主要记录学习过程中遇到的核心概念与相关的数学和代码表示，以便今后在需要用到时可以通过笔记快速回顾。
 
 ## 系列目录
 
@@ -32,4 +32,6 @@ author: Pianfan
 
 - [10. 注意力机制](https://pianfan.github.io/d2l_attention-mechanisms/)
 
+- [11. 优化算法](https://pianfan.github.io/d2l_optimization/)
+
 后续章节持续更新中……
diff --git a/_posts/2025-10-29-d2l_preliminaries.md b/_posts/2025-10-29-d2l_preliminaries.md
@@ -158,7 +158,7 @@ y = torch.tensor(outputs.values)
 
 ## 2.3. 线性代数
 
-本节介绍线性代数中的基本数学对象、算术和运算，以下用数学符号和 PyTorch 代码实现表示
+本节介绍线性代数中的基本数学对象、算术和运算，以下用数学符号和代码实现表示
 
 ### 2.3.1. 标量
 
diff --git a/_posts/2025-11-06-d2l_multilayer-perceptrons.md b/_posts/2025-11-06-d2l_multilayer-perceptrons.md
@@ -22,7 +22,7 @@ author: Pianfan
 
 隐藏层输出称为**隐藏变量（hidden variable）**
 
-#### 4.1.1.2. 关键公式
+#### 4.1.1.2. 公式
 
 含隐藏层的 MLP 计算（无激活函数）：
 
@@ -54,23 +54,23 @@ $$
 
 导数：输入为负时 0，输入为正时 1，0 处取左导数 0
 
-PyTorch 实现：`torch.relu(x)`
+实现：`torch.relu(x)`
 
 #### 4.1.2.2. sigmoid 函数
 
 定义：$\operatorname{sigmoid}(x) = \frac{1}{1 + \exp(-x)}$
 
 导数：$\operatorname{sigmoid}(x)\left(1-\operatorname{sigmoid}(x)\right)$
 
-PyTorch 实现：`torch.sigmoid(x)`
+实现：`torch.sigmoid(x)`
 
 #### 4.1.2.3. tanh 函数
 
 定义：$\operatorname{tanh}(x) = \frac{1 - \exp(-2x)}{1 + \exp(-2x)}$
 
 导数：$1 - \operatorname{tanh}^2(x)$
 
-PyTorch 实现：`torch.tanh(x)`
+实现：`torch.tanh(x)`
 
 ## 4.2. 多层感知机的从零开始实现
 
@@ -279,7 +279,7 @@ $$
 
 测试时无需规范化处理
 
-### 4.6.4. PyTorch 实现
+### 4.6.4. 实现
 
 1. 手动实现 dropout 层：
 
@@ -352,7 +352,7 @@ $L_2$ 正则化项：$s = \frac{\lambda}{2} \left(\|\mathbf{W}^{(1)}\|_F^2 + \|\
 
 正则化损失（目标函数）：$J = L + s$
 
-### 4.7.2. 反向传播关键梯度计算
+### 4.7.2. 反向传播梯度计算
 
 目标函数对损失项和正则项梯度：$\frac{\partial J}{\partial L} = 1,\;\frac{\partial J}{\partial s} = 1$
 
diff --git a/_posts/2025-11-13-d2l_convolutional-neural-networks.md b/_posts/2025-11-13-d2l_convolutional-neural-networks.md
@@ -64,7 +64,7 @@ def corr2d(X, K):
 
 参数：核（weight）和偏置（bias），训练时随机初始化
 
-PyTorch 自定义实现：
+自定义实现：
 
 ```py
 class Conv2D(nn.Module):
@@ -80,7 +80,7 @@ class Conv2D(nn.Module):
 
 可通过数据学习核参数，使用平方误差损失
 
-PyTorch 内置卷积层：`nn.Conv2d(in_channels, out_channels, kernel_size, ...)`
+内置卷积层：`nn.Conv2d(in_channels, out_channels, kernel_size, ...)`
 
 输入输出格式：(批量大小，通道数，高度，宽度)
 
@@ -124,7 +124,7 @@ PyTorch 内置卷积层：`nn.Conv2d(in_channels, out_channels, kernel_size, ...
 
     当 $p_h = k_h - 1$ 且 $p_w = k_w - 1$ 时，输入输出尺寸相同（假设步幅为 1）
 
-### 6.3.3. PyTorch 实现要点
+### 6.3.3. 实现要点
 
 卷积层类：`nn.Conv2d(in_channels, out_channels, kernel_size, padding=0, stride=1)`
 
@@ -223,7 +223,7 @@ def corr2d_multi_in_out_1x1(X, K):
 
 输出通道数与输入通道数相同
 
-### 6.5.4. PyTorch 实现要点
+### 6.5.4. 实现要点
 
 - 最大汇聚层：`nn.MaxPool2d(kernel_size, stride=None, padding=0)`
 
diff --git a/_posts/2025-11-17-d2l_convolutional-modern.md b/_posts/2025-11-17-d2l_convolutional-modern.md
@@ -32,7 +32,7 @@ author: Pianfan
 
 正则化：引入 dropout（LeNet 仅用权重衰减）
 
-#### 7.1.2.2. 核心架构（PyTorch 实现）
+#### 7.1.2.2. 核心架构
 
 ```py
 net = nn.Sequential(
@@ -83,7 +83,7 @@ net = nn.Sequential(
 
 池化层：$2×2$ 核，stride=2（分辨率减半）
 
-PyTorch 实现：
+实现：
 
 ```py
 def vgg_block(num_convs, in_channels, out_channels):
@@ -112,7 +112,7 @@ def vgg_block(num_convs, in_channels, out_channels):
 
 - 输出层为 10 类（针对 Fashion-MNIST）
 
-PyTorch 实现：
+实现：
 
 ```py
 def vgg(conv_arch):
@@ -285,7 +285,7 @@ $$
 
 卷积层：在通道维度计算均值和方差（含所有空间位置），形状为 (1, num_features, 1, 1)
 
-PyTorch 实现：
+实现：
 
 - 自定义层：`class BatchNorm(nn.Module)`，含 `gamma`、`beta`、`moving_mean`、`moving_var` 参数
 
@@ -297,7 +297,7 @@ PyTorch 实现：
 
 深层网络需保证函数类嵌套性（$\mathcal{F} \subseteq \mathcal{F}'$），确保增加层数能提升性能
 
-核心创新：残差块（residual block），使新增层易于拟合恒等映射（$f(\mathbf{x}) = \mathbf{x}$）
+**残差块（residual block）**使新增层易于拟合恒等映射（$f(\mathbf{x}) = \mathbf{x}$）
 
 残差映射（$f(\mathbf{x}) - \mathbf{x}$）比直接拟合映射更易优化
 
diff --git a/_posts/2025-11-21-d2l_recurrent-modern.md b/_posts/2025-11-21-d2l_recurrent-modern.md
@@ -54,7 +54,7 @@ author: Pianfan
     \mathbf{H}_t = \mathbf{Z}_t \odot \mathbf{H}_{t-1}  + (1 - \mathbf{Z}_t) \odot \tilde{\mathbf{H}}_t
     $$
 
-### 9.1.2. PyTorch 实现要点
+### 9.1.2. 实现
 
 1. **参数初始化**
 
@@ -134,7 +134,7 @@ author: Pianfan
     \mathbf{H}_t = \mathbf{O}_t \odot \tanh(\mathbf{C}_t)
     $$
 
-### 9.2.2. PyTorch 实现要点
+### 9.2.2. 实现
 
 1. **参数初始化**
 
@@ -194,7 +194,7 @@ $$
 \mathbf{O}_t = \mathbf{H}_t^{(L)} \mathbf{W}_{hq} + \mathbf{b}_q
 $$
 
-### 9.3.2. PyTorch 实现要点
+### 9.3.2. 实现
 
 1. 数据加载
 
@@ -257,7 +257,7 @@ $$
 
 计算成本高：前向传播需双向递归，反向传播依赖前向结果，梯度链长
 
-### 9.4.3. PyTorch 实现要点
+### 9.4.3. 实现要点
 
 定义双向 LSTM：`nn.LSTM(num_inputs, num_hiddens, num_layers, bidirectional=True)`
 
@@ -313,7 +313,7 @@ $$
 
     - 记录序列有效长度（排除填充词元）
 
-### 9.5.3. PyTorch 相关代码框架
+### 9.5.3. 相关代码框架
 
 ```py
 # 数据读取与预处理
@@ -355,7 +355,7 @@ train_iter, src_vocab, tgt_vocab = load_data_nmt(batch_size, num_steps)
 
 - 解码器：将固定形状的编码状态映射为长度可变的输出序列
 
-### 9.6.1. PyTorch 实现接口
+### 9.6.1. 实现接口
 
 **编码器**
 
diff --git a/_posts/2025-11-23-d2l_attention-mechanisms.md b/_posts/2025-11-23-d2l_attention-mechanisms.md
@@ -39,7 +39,7 @@ author: Pianfan
 
 注意力汇聚是加权平均总和，权重通过查询与不同键计算得出
 
-PyTorch 相关代码：
+代码：
 
 ```py
 # 显示矩阵热图函数
@@ -144,7 +144,7 @@ $$
 
 功能：过滤超出有效长度的位置，使这些位置在 softmax 计算中输出为 0
 
-PyTorch 实现：
+实现：
 
 ```py
 def masked_softmax(X, valid_lens):
@@ -166,7 +166,7 @@ def masked_softmax(X, valid_lens):
 
 评分函数：$a(\mathbf q, \mathbf k) = \mathbf w_v^\top \text{tanh}(\mathbf W_q\mathbf q + \mathbf W_k \mathbf k)$，其中 $\mathbf W_q\in\mathbb R^{h\times q}$、$\mathbf W_k\in\mathbb R^{h\times k}$、$\mathbf w_v\in\mathbb R^{h}$
 
-PyTorch 实现：
+实现：
 
 ```py
 class AdditiveAttention(nn.Module):
@@ -194,7 +194,7 @@ class AdditiveAttention(nn.Module):
 
 批量计算：$\mathrm{softmax}\left(\frac{\mathbf Q \mathbf K^\top }{\sqrt{d}}\right) \mathbf V$，其中 $\mathbf Q\in\mathbb R^{n\times d}$、$\mathbf K\in\mathbb R^{m\times d}$、$\mathbf V\in\mathbb R^{m\times v}$
 
-PyTorch 实现：
+实现：
 
 ```py
 class DotProductAttention(nn.Module):
@@ -322,7 +322,7 @@ $$
 
 输入输出形状：`(批量大小, 序列长度, 隐藏维度)`，输入输出形状相同
 
-PyTorch 实现示例：
+实现示例：
 
 ```py
 num_hiddens, num_heads = 100, 5
@@ -349,7 +349,7 @@ $$
 \begin{split}\begin{aligned} p_{i, 2j} &= \sin\left(\frac{i}{10000^{2j/d}}\right)\\p_{i, 2j+1} &= \cos\left(\frac{i}{10000^{2j/d}}\right)\end{aligned}\end{split}
 $$
 
-PyTorch 实现：
+实现：
 
 ```py
 class PositionalEncoding(nn.Module):
@@ -423,7 +423,7 @@ class PositionalEncoding(nn.Module):
 
     编码器－解码器注意力：查询来自解码器，键/值来自编码器输出
 
-### 10.7.3. 核心实现（PyTorch）
+### 10.7.3. 核心实现
 
 `TransformerEncoder`：包含嵌入层、位置编码、编码器块序列
 
diff --git a/_posts/2025-11-25-d2l_optimization.md b/_posts/2025-11-25-d2l_optimization.md