Skip to content

Commit cc15f12

Browse files
committed
prompt engineering
1 parent 3b78c83 commit cc15f12

File tree

7 files changed

+100
-10
lines changed

7 files changed

+100
-10
lines changed

blog/2025-08/prompt-engineering.mdx

Lines changed: 11 additions & 2 deletions
Original file line numberDiff line numberDiff line change
@@ -106,8 +106,8 @@ AI 从早几年前就已经开始发酵,到 OpenAI 问世算是彻底爆发,
106106
> 思维树(Tree of Thought)维护着多条连贯的思维链,本质是缓解 LM 受限于 Token-Level 和从左到右决策在生成内容时带来的消极影响。
107107
>
108108
- LM 生成内容时,是从左到右的一个一个 token 去生成的,并且下一个 token 是基于上一个 token 预测的。将 LM 本身的前瞻性和计算流程全部压缩到了这一个 token。当 token 出现误判可能会导致雪崩。
109-
- 思维树的构建过程可以通过 Prompt 实现,也能通过 RL(Reinforcement Learning)实现
110-
- 通过 RL 实现的思维树,在新环境上更具有鲁棒性
109+
- 思维树的构建过程可以通过 Prompt 实现,也能通过:term[强化学习]{./terms/dl#reinforcement-learning}实现
110+
- 通过强化学习实现的思维树,在新环境上更具有鲁棒性
111111
- 通过 Prompt 实现的思维树,在推理过程中更具有可解释性
112112

113113
```markmap
@@ -211,3 +211,12 @@ AI 从早几年前就已经开始发酵,到 OpenAI 问世算是彻底爆发,
211211
- **高确定性问题选择**:按不确定性降序排序,选择 **top-n** 的问题,选择面如果较多可使用随机采样
212212
- **人工标注**:重点在于选择,标注的质量权重不高
213213
- **推理**:将示例集前置到每个测试问题前,采用 SC 进行推理,选择合适的温度生成 n 次答案选择最优答案。可用 "Let's think step by step" 触发 LLM 生成步骤的关键词
214+
215+
### 定向刺激性提示词
216+
217+
> 方向性刺激提示词(Directional stimulus Prompting)旨在利用小型可调整策略模型来引导黑盒大模型生成特定目标输出。\
218+
避免直接调优 LLM 的高成本与不可行性。
219+
220+
- 小型可调整策略模型(T5 等)为每个输入实例生成实例:ctip[特定的定向刺激提示]{id="摘要任务的关键词、对话任务的对话行为以及推理任务的 CoT 触发语"},并可通过以下两种方式进行微调:
221+
1. 基于少量标注数据的:term[监督微调]{./terms/dl#stf}
222+
2. 基于 LLM 输出奖励的:term[强化学习]{./terms/dl#rl}

docusaurus.config.ts

Lines changed: 5 additions & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -119,8 +119,12 @@ const config: Config = {
119119
useCssCascadeLayers: true
120120
},
121121
experimental_faster: {
122+
swcJsLoader: false,
123+
swcJsMinimizer: false,
124+
swcHtmlMinimizer: false,
125+
lightningCssMinimizer: false,
122126
rspackBundler: true,
123-
rspackPersistentCache: true
127+
mdxCrossCompilerCache: false
124128
}
125129
},
126130
markdown: {

package.json

Lines changed: 2 additions & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -47,8 +47,8 @@
4747
"d3": "^7.9.0",
4848
"echarts": "^5.5.1",
4949
"file-saver": "^2.0.5",
50-
"heliannuuthus-docusaurus-authors": "file:./plugins/docusaurus-authors",
5150
"heliannuuthus-docusaurus-alias": "file:./plugins/docusaurus-alias",
51+
"heliannuuthus-docusaurus-authors": "file:./plugins/docusaurus-authors",
5252
"heliannuuthus-docusaurus-terminology": "file:./plugins/docusaurus-terminology",
5353
"heliannuuthus-parse-md": "file:./plugins/parse-md",
5454
"heliannuuthus-remark-admomition": "file:./packages/remark-admomition",
@@ -66,6 +66,7 @@
6666
"markmap-common": "^0.18.9",
6767
"markmap-lib": "^0.18.12",
6868
"markmap-view": "^0.18.12",
69+
"mdast-util-directive": "^3.1.0",
6970
"package-up": "^5.0.0",
7071
"prism-react-renderer": "^2.3.0",
7172
"pushfeedback": "^0.1.63",

pnpm-lock.yaml

Lines changed: 19 additions & 0 deletions
Some generated files are not rendered by default. Learn more about customizing how changed files appear on GitHub.

src/components/markdown/MDXRender.tsx

Lines changed: 9 additions & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -53,7 +53,15 @@ const MDXRender = ({
5353
[
5454
remarkAdmonition,
5555
{
56-
admonition: "TermAdmonition"
56+
admonition: "TermAdmonition",
57+
extension: {
58+
nerd: {
59+
type: "nerd"
60+
},
61+
thinking: {
62+
type: "thinking"
63+
}
64+
}
5765
}
5866
],
5967
[

terminologies/dl.mdx

Lines changed: 52 additions & 4 deletions
Original file line numberDiff line numberDiff line change
@@ -22,14 +22,10 @@ $$
2222
其中,$W_1$ 是第一层权重矩阵,$b_1$ 是第一层偏置向量,$W_2$ 是第二层权重矩阵,$b_2$ 是第二层偏置向量,$f$ 是激活函数。
2323

2424
---
25-
26-
---
27-
2825
slug: activation-function
2926
title: 激活函数
3027
authors: [heliannuuthus]
3128
description: 激活函数是神经元中的非线性函数,用于将线性计算结果映射到非线性空间。
32-
3329
---
3430

3531
> 激活函数是神经元中的非线性函数,用于将线性计算结果映射到非线性空间。
@@ -40,3 +36,55 @@ description: 激活函数是神经元中的非线性函数,用于将线性计
4036
- [Sigmoid](https://en.wikipedia.org/wiki/Sigmoid_function)
4137
- [Tanh](https://en.wikipedia.org/wiki/Hyperbolic_tangent)
4238
- [Softmax](https://en.wikipedia.org/wiki/Softmax_function)
39+
40+
---
41+
slug: supervised-learning
42+
title: 监督学习
43+
authors: [heliannuuthus]
44+
description: 机器学习的一个核心分支,旨在从**已标注**的训练数据集中学习一个映射关系(模型),以预测新的未知数据的标签。
45+
---
46+
47+
- 输入:也称为`特征``自变量`
48+
- 输出:也称为`标签``因变量`
49+
- 训练数据集:包含已标注的输入和输出数据,以 $({输入}, {输出})$ 的形式表示
50+
- 模型:一个数学函数,训练模型的目标就是找到一个函数 $f$ 使得 $f(x) \approx y$
51+
- 学习过程:在训练数据集上,通过优化模型参数,使得模型能够更好地拟合训练数据集
52+
53+
:::nerd
54+
常见的监督学习任务包括:
55+
- 分类:将输入数据分为不同的类别,例如垃圾邮件检测、手写数字识别等
56+
- 回归:预测连续值,例如房价预测、股票价格预测等
57+
- 文本生成:通过大量的文本、词元和语法进行训练,达到预测下一个词元的目的
58+
- 图像生成:通过对文字的理解,泛化生成能力转换为图像生成
59+
:::
60+
61+
---
62+
slug: supervised-fine-tuning
63+
title: 监督微调
64+
authors: [heliannuuthus]
65+
description: 监督微调是一种通过:term[监督学习]{./terms/dl#supervised-learning}的方式,使用标注数据对预训练过的模型进行训练的方法。
66+
---
67+
68+
|特性|监督学习|监督微调|
69+
|---|---|---|
70+
|定义|广泛的**机器学习范式**,从已标注的数据中学习输入到输出的映射关系|一个**具体的训练阶段**,在预训练模型上用特定的任务标注数据进一步训练|
71+
|模型|随机初始化的模型|预训练的模型|
72+
|数据|任何标注的数据,数据的数量和质量决定了模型的上限|使用**小规模、高质量、任务特定的标注数据**|
73+
|目标|学习一个通用的映射函数,解决一个特定的任务|使模型与特定任务对齐,更符合特定的需求|
74+
|成本|需要大量的标注数据、强大的算力|相对较低,需要小规模、高质量、任务特定的标注数据|
75+
76+
---
77+
slug: reinforcement-learning
78+
title: 强化学习
79+
authors: [heliannuuthus]
80+
description: 强化学习与监督学习不同,强化学习通过与环境交互,学习一个策略,使得长期回报最大化。
81+
---
82+
83+
- 策略:智能体的行为函数。根据当前的状态决定要执行什么动作
84+
- 价值函数:预测并评估一个状态或动作的:ctip[长期价值]{id="未来可能获得的所有奖励的总和"}
85+
- :ctip[环境模型]{id="并不是所有 RL 都需要环境模型"}:一个数学函数,标识智能体对环境运行方式的理解,用于预测下一步会变成什么状态、获得什么奖励
86+
87+
:::nerd
88+
- 通过与环境交互的经验序列来学习一系列的动作以最大化累计奖励
89+
- 智能体获取到的反馈信息是**延迟**的,并且是**稀疏**
90+
:::

terminologies/math.mdx

Lines changed: 2 additions & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -99,4 +99,5 @@ $$
9999
- 向量(线性映射)是各个基方向上的分量之和
100100
- 梯度公式中,$\nabla_x f(x)$ = ($\frac{\partial f}{\partial x_1}, \cdots, \frac{\partial f}{\partial x_n})^T$ \
101101
也通常用基向量表示为 $\nabla_x f(x)$ = $\sum_{i=1}^n \frac{\partial f}{\partial x_i} \mathbf{e}_i$
102-
:::
102+
103+
:::

0 commit comments

Comments
 (0)