prompt engineering

heliannuuthus · heliannuuthus · commit cc15f12d6664 · 2025-08-28T20:32:42.000+08:00
diff --git a/blog/2025-08/prompt-engineering.mdx b/blog/2025-08/prompt-engineering.mdx
@@ -106,8 +106,8 @@ AI 从早几年前就已经开始发酵，到 OpenAI 问世算是彻底爆发，
 > 思维树（Tree of Thought）维护着多条连贯的思维链，本质是缓解 LM 受限于 Token-Level 和从左到右决策在生成内容时带来的消极影响。
 > 
 - LM 生成内容时，是从左到右的一个一个 token 去生成的，并且下一个 token 是基于上一个 token 预测的。将 LM 本身的前瞻性和计算流程全部压缩到了这一个 token。当 token 出现误判可能会导致雪崩。
-- 思维树的构建过程可以通过 Prompt 实现，也能通过 RL（Reinforcement Learning）实现
-    - 通过 RL 实现的思维树，在新环境上更具有鲁棒性
+- 思维树的构建过程可以通过 Prompt 实现，也能通过:term[强化学习]{./terms/dl#reinforcement-learning}实现
+    - 通过强化学习实现的思维树，在新环境上更具有鲁棒性
     - 通过 Prompt 实现的思维树，在推理过程中更具有可解释性
 
 ```markmap
@@ -211,3 +211,12 @@ AI 从早几年前就已经开始发酵，到 OpenAI 问世算是彻底爆发，
 - **高确定性问题选择**：按不确定性降序排序，选择 **top-n** 的问题，选择面如果较多可使用随机采样
 - **人工标注**：重点在于选择，标注的质量权重不高
 - **推理**：将示例集前置到每个测试问题前，采用 SC 进行推理，选择合适的温度生成 n 次答案选择最优答案。可用 "Let's think step by step" 触发 LLM 生成步骤的关键词
+
+### 定向刺激性提示词
+
+> 方向性刺激提示词（Directional stimulus Prompting）旨在利用小型可调整策略模型来引导黑盒大模型生成特定目标输出。\
+避免直接调优 LLM 的高成本与不可行性。
+
+- 小型可调整策略模型（T5 等）为每个输入实例生成实例:ctip[特定的定向刺激提示]{id="摘要任务的关键词、对话任务的对话行为以及推理任务的 CoT 触发语"}，并可通过以下两种方式进行微调：
+  1. 基于少量标注数据的:term[监督微调]{./terms/dl#stf}
+  2. 基于 LLM 输出奖励的:term[强化学习]{./terms/dl#rl}
diff --git a/docusaurus.config.ts b/docusaurus.config.ts
@@ -119,8 +119,12 @@ const config: Config = {
       useCssCascadeLayers: true
     },
     experimental_faster: {
+      swcJsLoader: false,
+      swcJsMinimizer: false,
+      swcHtmlMinimizer: false,
+      lightningCssMinimizer: false,
       rspackBundler: true,
-      rspackPersistentCache: true
+      mdxCrossCompilerCache: false
     }
   },
   markdown: {
diff --git a/package.json b/package.json
@@ -47,8 +47,8 @@
     "d3": "^7.9.0",
     "echarts": "^5.5.1",
     "file-saver": "^2.0.5",
-    "heliannuuthus-docusaurus-authors": "file:./plugins/docusaurus-authors",
     "heliannuuthus-docusaurus-alias": "file:./plugins/docusaurus-alias",
+    "heliannuuthus-docusaurus-authors": "file:./plugins/docusaurus-authors",
     "heliannuuthus-docusaurus-terminology": "file:./plugins/docusaurus-terminology",
     "heliannuuthus-parse-md": "file:./plugins/parse-md",
     "heliannuuthus-remark-admomition": "file:./packages/remark-admomition",
@@ -66,6 +66,7 @@
     "markmap-common": "^0.18.9",
     "markmap-lib": "^0.18.12",
     "markmap-view": "^0.18.12",
+    "mdast-util-directive": "^3.1.0",
     "package-up": "^5.0.0",
     "prism-react-renderer": "^2.3.0",
     "pushfeedback": "^0.1.63",
diff --git a/pnpm-lock.yaml b/pnpm-lock.yaml
diff --git a/src/components/markdown/MDXRender.tsx b/src/components/markdown/MDXRender.tsx
@@ -53,7 +53,15 @@ const MDXRender = ({
         [
           remarkAdmonition,
           {
-            admonition: "TermAdmonition"
+            admonition: "TermAdmonition",
+            extension: {
+              nerd: {
+                type: "nerd"
+              },
+              thinking: {
+                type: "thinking"
+              }
+            }
           }
         ],
         [
diff --git a/terminologies/dl.mdx b/terminologies/dl.mdx
@@ -22,14 +22,10 @@ $$
 其中，$W_1$ 是第一层权重矩阵，$b_1$ 是第一层偏置向量，$W_2$ 是第二层权重矩阵，$b_2$ 是第二层偏置向量，$f$ 是激活函数。
 
 ---
-
----
-
 slug: activation-function
 title: 激活函数
 authors: [heliannuuthus]
 description: 激活函数是神经元中的非线性函数，用于将线性计算结果映射到非线性空间。
-
 ---
 
 > 激活函数是神经元中的非线性函数，用于将线性计算结果映射到非线性空间。
@@ -40,3 +36,55 @@ description: 激活函数是神经元中的非线性函数，用于将线性计
 - [Sigmoid](https://en.wikipedia.org/wiki/Sigmoid_function)
 - [Tanh](https://en.wikipedia.org/wiki/Hyperbolic_tangent)
 - [Softmax](https://en.wikipedia.org/wiki/Softmax_function)
+
+---
+slug: supervised-learning
+title: 监督学习
+authors: [heliannuuthus]
+description: 机器学习的一个核心分支，旨在从**已标注**的训练数据集中学习一个映射关系（模型），以预测新的未知数据的标签。
+---
+
+- 输入：也称为`特征`或`自变量`
+- 输出：也称为`标签`或`因变量`
+- 训练数据集：包含已标注的输入和输出数据，以 $({输入}, {输出})$ 的形式表示
+- 模型：一个数学函数，训练模型的目标就是找到一个函数 $f$ 使得 $f(x) \approx y$
+- 学习过程：在训练数据集上，通过优化模型参数，使得模型能够更好地拟合训练数据集
+
+:::nerd
+常见的监督学习任务包括：
+- 分类：将输入数据分为不同的类别，例如垃圾邮件检测、手写数字识别等
+- 回归：预测连续值，例如房价预测、股票价格预测等
+- 文本生成：通过大量的文本、词元和语法进行训练，达到预测下一个词元的目的
+- 图像生成：通过对文字的理解，泛化生成能力转换为图像生成
+:::
+
+---
+slug: supervised-fine-tuning
+title: 监督微调
+authors: [heliannuuthus]
+description: 监督微调是一种通过:term[监督学习]{./terms/dl#supervised-learning}的方式，使用标注数据对预训练过的模型进行训练的方法。
+---
+
+|特性|监督学习|监督微调|
+|---|---|---|
+|定义|广泛的**机器学习范式**，从已标注的数据中学习输入到输出的映射关系|一个**具体的训练阶段**，在预训练模型上用特定的任务标注数据进一步训练|
+|模型|随机初始化的模型|预训练的模型|
+|数据|任何标注的数据，数据的数量和质量决定了模型的上限|使用**小规模、高质量、任务特定的标注数据**|
+|目标|学习一个通用的映射函数，解决一个特定的任务|使模型与特定任务对齐，更符合特定的需求|
+|成本|需要大量的标注数据、强大的算力|相对较低，需要小规模、高质量、任务特定的标注数据|
+
+---
+slug: reinforcement-learning
+title: 强化学习
+authors: [heliannuuthus]
+description: 强化学习与监督学习不同，强化学习通过与环境交互，学习一个策略，使得长期回报最大化。
+---
+
+- 策略：智能体的行为函数。根据当前的状态决定要执行什么动作
+- 价值函数：预测并评估一个状态或动作的:ctip[长期价值]{id="未来可能获得的所有奖励的总和"}
+- :ctip[环境模型]{id="并不是所有 RL 都需要环境模型"}：一个数学函数，标识智能体对环境运行方式的理解，用于预测下一步会变成什么状态、获得什么奖励
+
+:::nerd
+- 通过与环境交互的经验序列来学习一系列的动作以最大化累计奖励
+- 智能体获取到的反馈信息是**延迟**的，并且是**稀疏**的
+:::
diff --git a/terminologies/math.mdx b/terminologies/math.mdx
@@ -99,4 +99,5 @@ $$
 - 向量（线性映射）是各个基方向上的分量之和
 - 梯度公式中，$\nabla_x f(x)$ = ($\frac{\partial f}{\partial x_1}, \cdots, \frac{\partial f}{\partial x_n})^T$ \
   也通常用基向量表示为 $\nabla_x f(x)$ = $\sum_{i=1}^n \frac{\partial f}{\partial x_i} \mathbf{e}_i$
-  :::
+
+:::

Original file line number	Diff line number	Diff line change
`@@ -53,7 +53,15 @@ const MDXRender = ({`
`53`	`53`	`[`
`54`	`54`	`remarkAdmonition,`
`55`	`55`	`{`
`56`		`- admonition: "TermAdmonition"`
	`56`	`+ admonition: "TermAdmonition",`
	`57`	`+ extension: {`
	`58`	`+ nerd: {`
	`59`	`+ type: "nerd"`
	`60`	`+ },`
	`61`	`+ thinking: {`
	`62`	`+ type: "thinking"`
	`63`	`+ }`
	`64`	`+ }`
`57`	`65`	`}`
`58`	`66`	`],`
`59`	`67`	`[`