File tree Expand file tree Collapse file tree 1 file changed +1
-1
lines changed
doc/fluid/new_docs/beginners_guide/basics/machine_translation Expand file tree Collapse file tree 1 file changed +1
-1
lines changed Original file line number Diff line number Diff line change 82
82
机器翻译任务的训练过程中,解码阶段的目标是最大化下一个正确的目标语言词的概率。思路是:
83
83
1 . 每一个时刻,根据源语言句子的编码信息(又叫上下文向量,context vector)` $c$ ` 、真实目标语言序列的第` $i$ ` 个词` $u_i$ ` 和` $i$ ` 时刻RNN的隐层状态` $z_i$ ` ,计算出下一个隐层状态` $z_{i+1}$ ` 。计算公式如下:
84
84
$$ z_{i+1}=\phi_{\theta '} \left ( c,u_i,z_i \right ) $$
85
- 其中` $\phi _{\theta '}$ ` 是一个非线性激活函数;` $c=q\mathbf{h}$ ` 是源语言句子的上下文向量,在不使用 [ 注意力机制 ] ( #注意力机制 ) 时 ,如果[ 编码器] ( #编码器 ) 的输出是源语言句子编码后的最后一个元素,则可以定义` $c=h_T$ ` ;` $u_i$ ` 是目标语言序列的第` $i$ ` 个单词,` $u_0$ ` 是目标语言序列的开始标记` <s> ` ,表示解码开始;` $z_i$ ` 是` $i$ ` 时刻解码RNN的隐层状态,` $z_0$ ` 是一个全零的向量。
85
+ 其中` $\phi _{\theta '}$ ` 是一个非线性激活函数;` $c=q\mathbf{h}$ ` 是源语言句子的上下文向量,在不使用注意力机制时 ,如果[ 编码器] ( #编码器 ) 的输出是源语言句子编码后的最后一个元素,则可以定义` $c=h_T$ ` ;` $u_i$ ` 是目标语言序列的第` $i$ ` 个单词,` $u_0$ ` 是目标语言序列的开始标记` <s> ` ,表示解码开始;` $z_i$ ` 是` $i$ ` 时刻解码RNN的隐层状态,` $z_0$ ` 是一个全零的向量。
86
86
87
87
2 . 将` $z_{i+1}$ ` 通过` softmax ` 归一化,得到目标语言序列的第` $i+1$ ` 个单词的概率分布` $p_{i+1}$ ` 。概率分布公式如下:
88
88
$$ p\left ( u_{i+1}|u_{<i+1},\mathbf{x} \right )=softmax(W_sz_{i+1}+b_z) $$
You can’t perform that action at this time.
0 commit comments