Skip to content

Commit f6e913e

Browse files
committed
transformer mha chinese translation
1 parent d3f0bd3 commit f6e913e

File tree

13 files changed

+245
-248
lines changed

13 files changed

+245
-248
lines changed

docs/sitemap.xml

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -1450,7 +1450,7 @@
14501450

14511451
<url>
14521452
<loc>https://nn.labml.ai/rl/ppo/gae.html</loc>
1453-
<lastmod>2023-10-24T16:30:00+00:00</lastmod>
1453+
<lastmod>2024-06-24T16:30:00+00:00</lastmod>
14541454
<priority>1.00</priority>
14551455
</url>
14561456

docs/zh/index.html

Lines changed: 2 additions & 2 deletions
Original file line numberDiff line numberDiff line change
@@ -72,7 +72,7 @@
7272
<h1><a href="index.html">labml.ai 带注释的 PyTorch 版论文实现</a></h1>
7373
<p>这是一个用 PyTorch 实现各种神经网络和相关算法的集合。每个算法的<a href="https://github.com/labmlai/annotated_deep_learning_paper_implementations">代码实现</a>都有详细的解释说明,且在<a href="index.html">网站</a>上与代码逐行对应。我们相信,这些内容将帮助您更好地理解这些算法。</p>
7474
<p><img alt="Screenshot" src="dqn-light.png"></p>
75-
<p>我们正在积极维护这个仓库并添加新的代码实现<a href="https://twitter.com/labmlai"><img alt="Twitter" src="https://img.shields.io/twitter/follow/labmlai?style=social"></a>以获取更新。</p>
75+
<p>我们正在积极维护这个仓库并添加新的代码实现<a href="https://twitter.com/labmlai"><img alt="Twitter" src="https://img.shields.io/twitter/follow/labmlai?style=social"></a>以获取更新。</p>
7676
<h2>翻译</h2>
7777
<h3><strong><a href="https://nn.labml.ai">英语(原版)</a></strong></h3>
7878
</a><h3><strong><a href="https://nn.labml.ai/zh/">中文(翻译)</strong></h3>
@@ -102,7 +102,7 @@ <h4>✨ <a href="transformers/index.html">Transformers</a></h4>
102102
<li><a href="transformers/primer_ez/index.html">Primer</a></li>
103103
<li><a href="transformers/hour_glass/index.html">沙漏网络</a></li></ul>
104104
<h4><a href="neox/index.html">Eleuther GPT-neox</a></h4>
105-
<li><a href="neox/samples/generate.html">在一块 48GB GPU 上生成</a></li> <ul>
105+
<ul><li><a href="neox/samples/generate.html">在一块 48GB GPU 上生成</a></li>
106106
<li><a href="neox/samples/finetune.html">在两块 48GB GPU 上微调</a></li>
107107
<li><a href="neox/utils/llm_int8.html">llm.int8 ()</a></li></ul>
108108
<h4><a href="diffusion/index.html">扩散模型</a></h4>

docs/zh/sitemap.xml

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -1450,7 +1450,7 @@
14501450

14511451
<url>
14521452
<loc>https://nn.labml.ai/rl/ppo/gae.html</loc>
1453-
<lastmod>2023-10-24T16:30:00+00:00</lastmod>
1453+
<lastmod>2024-06-24T16:30:00+00:00</lastmod>
14541454
<priority>1.00</priority>
14551455
</url>
14561456

docs/zh/transformers/configs.html

Lines changed: 42 additions & 42 deletions
Large diffs are not rendered by default.

docs/zh/transformers/feed_forward.html

Lines changed: 28 additions & 29 deletions
Large diffs are not rendered by default.

docs/zh/transformers/index.html

Lines changed: 47 additions & 47 deletions
Original file line numberDiff line numberDiff line change
@@ -3,24 +3,24 @@
33
<head>
44
<meta http-equiv="content-type" content="text/html;charset=utf-8"/>
55
<meta name="viewport" content="width=device-width, initial-scale=1.0"/>
6-
<meta name="description" content="这是变压器和相关技术的 PyTorch 实现/教程的集合"/>
6+
<meta name="description" content="这是一个包含 Transformers 及相关技术的 PyTorch 实现和教程的合集"/>
77

88
<meta name="twitter:card" content="summary"/>
99
<meta name="twitter:image:src" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
10-
<meta name="twitter:title" content="变压器"/>
11-
<meta name="twitter:description" content="这是变压器和相关技术的 PyTorch 实现/教程的集合"/>
10+
<meta name="twitter:title" content="Transformers"/>
11+
<meta name="twitter:description" content="这是一个包含 Transformers 及相关技术的 PyTorch 实现和教程的合集"/>
1212
<meta name="twitter:site" content="@labmlai"/>
1313
<meta name="twitter:creator" content="@labmlai"/>
1414

1515
<meta property="og:url" content="https://nn.labml.ai/transformers/index.html"/>
16-
<meta property="og:title" content="变压器"/>
16+
<meta property="og:title" content="Transformers"/>
1717
<meta property="og:image" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
18-
<meta property="og:site_name" content="变压器"/>
18+
<meta property="og:site_name" content="Transformers"/>
1919
<meta property="og:type" content="object"/>
20-
<meta property="og:title" content="变压器"/>
21-
<meta property="og:description" content="这是变压器和相关技术的 PyTorch 实现/教程的集合"/>
20+
<meta property="og:title" content="Transformers"/>
21+
<meta property="og:description" content="这是一个包含 Transformers 及相关技术的 PyTorch 实现和教程的合集"/>
2222

23-
<title>变压器</title>
23+
<title>Transformers</title>
2424
<link rel="shortcut icon" href="/icon.png"/>
2525
<link rel="stylesheet" href="../pylit.css?v=1">
2626
<link rel="canonical" href="https://nn.labml.ai/transformers/index.html"/>
@@ -70,50 +70,50 @@
7070
<div class='section-link'>
7171
<a href='#section-0'>#</a>
7272
</div>
73-
<h1>变压器</h1>
74-
</a><p>本模块包含 <a href="https://pytorch.org/">PyTorch 实现和论文 Attention Is <a href="https://arxiv.org/abs/1706.03762">All You Need</a> 中对原创变压器的解释,以及它的衍生品和增强功能</p>
75-
<ul><li><a href="mha.html">多头关注</a></li>
76-
<li><a href="models.html">变压器编码器和解码器型号</a></li>
73+
<h1>Transformers</h1>
74+
</a><p>本节内容包含对论文<a href="https://arxiv.org/abs/1706.03762">Attention is All You Need 》</a>中原始 Transformer 的解释与<a href="https://pytorch.org/">PyTorch</a> 实现,以及对其衍生和增强版本的解释与实现</p>
75+
<ul><li><a href="mha.html">多头注意力</a></li>
76+
<li><a href="models.html">Transformer 编码器和解码器模型</a></li>
7777
<li><a href="feed_forward.html">位置前馈网络 (FFN)</a></li>
7878
<li><a href="positional_encoding.html">固定位置编码</a></li></ul>
79-
<h2><a href="xl/index.html">变压器 XL</a></h2>
80-
<p>这使用<a href="xl/relative_mha.html">相对的多头注意力</a>实现了变形金刚 XL 模型</p>
81-
<h2><a href="rope/index.html">旋转位置嵌入</a></h2>
82-
<p>这实现了旋转位置嵌入 (roPE)</p>
83-
<h2><a href="alibi/index.html">注意线性偏差</a></h2>
84-
<p>这实现了线性偏差注意力(AliBI)</p>
85-
<h2><a href="retro/index.html">复古</a></h2>
86-
<p>这实现了检索增强型转换器(RETRO</p>
87-
<h2><a href="compressive/index.html">压缩变压器</a></h2>
88-
<p>这是一种压缩变压器的实现,它通过压缩最古老的存储<a href="xl/index.html">器来延长注意力跨度,从而在Transformer XL</a> 上扩展</p>
79+
<h2><a href="xl/index.html">Transformer XL</a></h2>
80+
<p>这是使用<a href="xl/relative_mha.html">相对多头注意力</a>的 Transformer XL 模型的实现。</p>
81+
<h2><a href="rope/index.html">旋转式位置编码</a></h2>
82+
<p>这是旋转式位置编码( ROPE )的实现。</p>
83+
<h2><a href="alibi/index.html">线性偏差注意力</a></h2>
84+
<p>这是线性偏差注意力( ALIBI )的实现</p>
85+
<h2><a href="retro/index.html">RETRO</a></h2>
86+
<p>这是对检索增强 Transformer ( RETRO )的实现</p>
87+
<h2><a href="compressive/index.html">压缩 Transformer</a></h2>
88+
<p>这是一个压缩transformer的实现,它在<a href="xl/index.html">Transformer XL</a> 的基础上,通过压缩最早期的记忆来延长注意力跨度</p>
8989
<h2><a href="gpt/index.html">GPT 架构</a></h2>
90-
<p>这是 GPT-2 体系结构的实现</p>
90+
<p>这是 GPT-2 结构的实现</p>
9191
<h2><a href="glu_variants/simple.html">GLU 变体</a></h2>
92-
<p>这是论文 <a href="https://arxiv.org/abs/2002.05202">GLU 变体改进变压器的</a>实现</p>
93-
<h2><a href="knn/index.html">knn-lm</a></h2>
94-
<p>这是论文<a href="https://arxiv.org/abs/1911.00172">通过记忆推广:最近邻语言模型</a>的实现。</p>
95-
<h2><a href="feedback/index.html">反馈变压器</a></h2>
96-
<p>这是一篇论文《使用<a href="https://arxiv.org/abs/2002.09402">反馈存储器访问顺序变压器中的更高层次表示》的</a>实现</p>
97-
<h2><a href="switch/index.html">开关变压器</a></h2>
98-
<p>这是论文<a href="https://arxiv.org/abs/2101.03961">开关变压器:以简单高效的稀疏度缩放到万亿参数模型</a>》的微型实现。我们的实现只有几百万个参数,不对并行分布式训练进行建模。它进行单个 GPU 训练,但我们实现了白皮书中描述的切换概念</p>
99-
<h2><a href="fast_weights/index.html">快速重量变压器</a></h2>
100-
<p>这是 <a href="https://arxiv.org/abs/2102.11174">PyTorch 中线性变压器是秘密的快速重量存储系统论文的</a>实现</p>
101-
<h2><a href="fnet/index.html">FNet:将令牌与傅里叶变换混合</a></h2>
102-
<p>这是论文<a href="https://arxiv.org/abs/2105.03824">FNet:将令牌与傅里叶变换混合</a>的实现。</p>
103-
<h2><a href="aft/index.html">免注意变压器</a></h2>
104-
<p>这是论文<a href="https://arxiv.org/abs/2105.14103">无注意力变压器》的</a>实现</p>
105-
<h2><a href="mlm/index.html">屏蔽语言模型</a></h2>
106-
<p>这是在论文《B <a href="https://arxiv.org/abs/1810.04805">ERT:用于语言理解的深度双向变换器的预训练》中用于预训练的蒙面语言模型的</a>实现。</p>
107-
<h2><a href="mlp_mixer/index.html">MLP 混音器:面向视觉的全 MLP 架构</a></h2>
108-
<p>这是论文 <a href="https://arxiv.org/abs/2105.01601">MLP-Mixer:视觉的全 MLP 架构的</a>实现</p>
109-
<h2><a href="gmlp/index.html">注意 MLP (gMLP)</a></h2>
110-
<p>这是 “<a href="https://arxiv.org/abs/2105.08050">注意 MLP” 一文的</a>实现</p>
111-
<h2><a href="vit/index.html">视觉变压器 (ViT)</a></h2>
112-
<p>这是论文<a href="https://arxiv.org/abs/2010.11929">图像值得 16x16 Words:大规模图像识别的变形金刚》的</a>实现</p>
92+
<p>这是论文 <a href="https://arxiv.org/abs/2002.05202">GLU Variants Improve Transformer 》</a>的实现</p>
93+
<h2><a href="knn/index.html">kNN-LM</a></h2>
94+
<p>这是论文<a href="https://arxiv.org/abs/1911.00172">《 Generalization through Memorization: Nearest Neighbor Language Models 》</a>的实现。</p>
95+
<h2><a href="feedback/index.html">自反馈 Transformer</a></h2>
96+
<p>这是论文<a href="https://arxiv.org/abs/2002.09402">《 Accessing Higher-level Representations in Sequential Transformers with Feedback Memory 》</a>的实现</p>
97+
<h2><a href="switch/index.html">Switch Transformer</a></h2>
98+
<p>这是论文<a href="https://arxiv.org/abs/2101.03961">《 Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity 》</a>的一个简化实现。我们的实现仅包含几百万个参数,并且只在单 GPU 上进行训练,不涉及并行分布式训练,但我们仍然实现了论文中描述的 Switch 概念</p>
99+
<h2><a href="fast_weights/index.html">快速权重 Transformer</a></h2>
100+
<p>这是论文 <a href="https://arxiv.org/abs/2102.11174">《 Linear Transformers Are Secretly Fast Weight Memory Systems in PyTorch </a>的实现</p>
101+
<h2><a href="fnet/index.html">Fnet:使用傅里叶变换混合 token </a></h2>
102+
<p>这是论文<a href="https://arxiv.org/abs/2105.03824">FNet: Mixing Tokens with Fourier Transforms 》</a>的实现。</p>
103+
<h2><a href="aft/index.html">无注意力 Transformer</a></h2>
104+
<p>这是论文<a href="https://arxiv.org/abs/2105.14103">《 An Attention Free Transformer 》</a>的实现</p>
105+
<h2><a href="mlm/index.html">掩码语言模型</a></h2>
106+
<p>这是论文<a href="https://arxiv.org/abs/1810.04805">《 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 》</a>中用于预训练的掩码语言模型的实现</p>
107+
<h2><a href="mlp_mixer/index.html">MLP-Mixer:一种用于视觉的全 MLP 架构</a></h2>
108+
<p>这是论文 <a href="https://arxiv.org/abs/2105.01601">MLP-Mixer: An all-MLP Architecture for Vision 》</a>的实现</p>
109+
<h2><a href="gmlp/index.html">门控多层感知器 (gMLP)</a></h2>
110+
<p>这是论文<a href="https://arxiv.org/abs/2105.08050">《 Pay Attention to MLPs 》</a>的实现</p>
111+
<h2><a href="vit/index.html">视觉 Transformer (ViT)</a></h2>
112+
<p>这是论文<a href="https://arxiv.org/abs/2010.11929">《 An Image Is Worth 16x16 Words: Transformers For Image Recognition At Scale 》</a>的实现</p>
113113
<h2><a href="primer_ez/index.html">Primer</a></h2>
114-
<p>这是论文《入<a href="https://arxiv.org/abs/2109.08668">门:为语言建模寻找高效的变换器》的</a>实现</p>
115-
<h2><a href="hour_glass/index.html">沙漏</a></h2>
116-
<p>这是论文<a href="https://arxiv.org/abs/2110.13711">分层变换器是更有效的语言模型</a>的实现</p>
114+
<p>这是论文<a href="https://arxiv.org/abs/2109.08668">《 Primer: Searching for Efficient Transformers for Language Modeling 》</a>的实现</p>
115+
<h2><a href="hour_glass/index.html">沙漏网络</a></h2>
116+
<p>这是论文<a href="https://arxiv.org/abs/2110.13711">《 Hierarchical Transformers Are More Efficient Language Models 》</a>的实现</p>
117117

118118
</div>
119119
<div class='code'>

docs/zh/transformers/label_smoothing_loss.html

Lines changed: 5 additions & 5 deletions
Original file line numberDiff line numberDiff line change
@@ -3,12 +3,12 @@
33
<head>
44
<meta http-equiv="content-type" content="text/html;charset=utf-8"/>
55
<meta name="viewport" content="width=device-width, initial-scale=1.0"/>
6-
<meta name="description" content="这是标签平滑损失的实现,可以用作交叉熵损失的替代方案,以提高准确性"/>
6+
<meta name="description" content="这是标签平滑损失的实现,可作为交叉熵损失的替代品以提高准确性"/>
77

88
<meta name="twitter:card" content="summary"/>
99
<meta name="twitter:image:src" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
1010
<meta name="twitter:title" content="标签平滑损失"/>
11-
<meta name="twitter:description" content="这是标签平滑损失的实现,可以用作交叉熵损失的替代方案,以提高准确性"/>
11+
<meta name="twitter:description" content="这是标签平滑损失的实现,可作为交叉熵损失的替代品以提高准确性"/>
1212
<meta name="twitter:site" content="@labmlai"/>
1313
<meta name="twitter:creator" content="@labmlai"/>
1414

@@ -18,7 +18,7 @@
1818
<meta property="og:site_name" content="标签平滑损失"/>
1919
<meta property="og:type" content="object"/>
2020
<meta property="og:title" content="标签平滑损失"/>
21-
<meta property="og:description" content="这是标签平滑损失的实现,可以用作交叉熵损失的替代方案,以提高准确性"/>
21+
<meta property="og:description" content="这是标签平滑损失的实现,可作为交叉熵损失的替代品以提高准确性"/>
2222

2323
<title>标签平滑损失</title>
2424
<link rel="shortcut icon" href="/icon.png"/>
@@ -154,7 +154,7 @@ <h1>标签平滑损失</h1>
154154
<div class='section-link'>
155155
<a href='#section-5'>#</a>
156156
</div>
157-
<p>显示系统预期的目标分布</p>
157+
<p>展示系统期望的目标分布</p>
158158

159159
</div>
160160
<div class='code'>
@@ -183,7 +183,7 @@ <h1>标签平滑损失</h1>
183183
<div class='section-link'>
184184
<a href='#section-7'>#</a>
185185
</div>
186-
<p>打印(预测)</p>
186+
<p>输出(预测)</p>
187187

188188
</div>
189189
<div class='code'>

0 commit comments

Comments
 (0)