Skip to content

Commit 9c2011e

Browse files
authored
change_h100_to_h800 (#10091)
1 parent 647d7e0 commit 9c2011e

File tree

4 files changed

+17
-16
lines changed

4 files changed

+17
-16
lines changed

llm/application/information_extraction/README.md

Lines changed: 14 additions & 13 deletions
Original file line numberDiff line numberDiff line change
@@ -2,18 +2,19 @@
22

33
**目录**
44

5-
- [1. 模型简介](#模型简介)
6-
- [2. 开箱即用](#开箱即用)
7-
- [2.1 实体抽取](#实体抽取)
8-
- [2.2 关系抽取](#关系抽取)
9-
- [2.3 模型选择](#模型选择)
10-
- [2.4 更多配置](#更多配置)
11-
- [3. 训练定制](#训练定制)
12-
- [3.1 代码结构](#代码结构)
13-
- [3.2 数据标注](#数据标注)
14-
- [3.3 模型微调](#模型微调)
15-
- [3.4 定制模型一键预测](#定制模型一键预测)
16-
- [3.5 实验指标](#实验指标)
5+
- [通用信息抽取大模型 PP-UIE](#通用信息抽取大模型-pp-uie)
6+
- [1. 模型简介](#1-模型简介)
7+
- [2. 开箱即用](#2-开箱即用)
8+
- [2.1 实体抽取](#21-实体抽取)
9+
- [2.2 关系抽取](#22-关系抽取)
10+
- [2.3 模型选择](#23-模型选择)
11+
- [2.4 更多配置](#24-更多配置)
12+
- [3. 训练定制](#3-训练定制)
13+
- [3.1 代码结构](#31-代码结构)
14+
- [3.2 数据标注](#32-数据标注)
15+
- [3.3 模型微调](#33-模型微调)
16+
- [3.4 定制模型一键预测](#34-定制模型一键预测)
17+
- [3.5 实验指标](#35-实验指标)
1718

1819
<a name="模型简介"></a>
1920

@@ -125,7 +126,7 @@
125126
* `schema_lang`:设置 schema 的语言,默认为`zh`, 可选有`zh``en`。因为中英 schema 的构造有所不同,因此需要指定 schema 的语言。
126127
* `batch_size`:批处理大小,请结合机器情况进行调整,默认为1。
127128
* `model`:选择任务使用的模型,可选有`paddlenlp/PP-UIE-0.5B`, `paddlenlp/PP-UIE-1.5B`, `paddlenlp/PP-UIE-7B`, `paddlenlp/PP-UIE-14B`
128-
* `precision`:选择模型精度,默认为`float16`,可选有`float16`、`bfloat16`和`float32`和。如果选择`float16`,在 GPU 硬件环境下,请先确保机器正确安装 NVIDIA 相关驱动和基础软件,**确保 CUDA>=11.2,cuDNN>=8.1.1**,初次使用需按照提示安装相关依赖。其次,需要确保 GPU 设备的 CUDA 计算能力(CUDA Compute Capability)大于7.0,典型的设备包括 V100、T4、A10、A100、GTX 20系列和30系列显卡等。如果选择`bfloat16`,能有效加速处理大模型和批量数据,尤其与混合精度结合使用时性能表现更优。但需确保硬件和软件环境支持该精度。支持 `bfloat16`的硬件包括 NVIDIA A100 和 H100 GPU,同时需要确保使用 CUDA>=11.2、cuDNN>=8.1.1 等软件环境。更多关于 CUDA Compute Capability 和精度支持情况请参考 NVIDIA 文档:[GPU 硬件与支持精度对照表](https://docs.nvidia.com/deeplearning/tensorrt/archives/tensorrt-840-ea/support-matrix/index.html#hardware-precision-matrix)。
129+
* `precision`:选择模型精度,默认为`float16`,可选有`float16`、`bfloat16`和`float32`和。如果选择`float16`,在 GPU 硬件环境下,请先确保机器正确安装 NVIDIA 相关驱动和基础软件,**确保 CUDA>=11.2,cuDNN>=8.1.1**,初次使用需按照提示安装相关依赖。其次,需要确保 GPU 设备的 CUDA 计算能力(CUDA Compute Capability)大于7.0,典型的设备包括 V100、T4、A10、A100、GTX 20系列和30系列显卡等。如果选择`bfloat16`,能有效加速处理大模型和批量数据,尤其与混合精度结合使用时性能表现更优。但需确保硬件和软件环境支持该精度。支持 `bfloat16`的硬件包括 NVIDIA A100 和 H800 GPU,同时需要确保使用 CUDA>=11.2、cuDNN>=8.1.1 等软件环境。更多关于 CUDA Compute Capability 和精度支持情况请参考 NVIDIA 文档:[GPU 硬件与支持精度对照表](https://docs.nvidia.com/deeplearning/tensorrt/archives/tensorrt-840-ea/support-matrix/index.html#hardware-precision-matrix)。
129130

130131

131132
除此之外,也可通过以下代码快速调用模型并进行推理

llm/server/README.md

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -12,7 +12,7 @@
1212
|cuda版本| 支持硬件架构|镜像地址|支持的典型设备|
1313
|:------|:-:|:-:|:-:|
1414
| cuda11.8 | 70 75 80 86 |ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddlenlp:llm-serving-cuda118-cudnn8-v2.1 |V100,T4,A100,A30,A10 |
15-
| cuda12.4 | 80 86 89 90 |ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddlenlp:llm-serving-cuda124-cudnn9-v2.1 |A100,A30,A10,L20,H20,H100 |
15+
| cuda12.4 | 80 86 89 90 |ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddlenlp:llm-serving-cuda124-cudnn9-v2.1 |A100,A30,A10L20,H20,H800 |
1616

1717
### 静态图快速部署
1818

llm/server/docs/general_model_inference.md

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -12,7 +12,7 @@
1212
|cuda版本| 支持硬件架构|镜像地址|支持的典型设备|
1313
|:------|:-:|:-:|:-:|
1414
| cuda11.8 | 70 75 80 86 |ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddlenlp:llm-serving-cuda118-cudnn8-v2.1 |V100,T4,A100,A30,A10 |
15-
| cuda12.4 | 80 86 89 90 |ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddlenlp:llm-serving-cuda124-cudnn9-v2.1 |A100,A30,A10,L20,H20,H100 |
15+
| cuda12.4 | 80 86 89 90 |ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddlenlp:llm-serving-cuda124-cudnn9-v2.1 |A100,A30,A10L20,H20,H800 |
1616

1717
### 静态图快速部署
1818

llm/server/docs/static_models.md

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -16,7 +16,7 @@
1616
### DeepSeekR1
1717
部署硬件要求:
1818
- 除MTP模型,Fp8模型之外支持的最低版本是SM80 (机器:A100 / A800) 要求CUDA 11.8 以上
19-
- DeepSeek-R1-MTP 与 Fp8 模型 支持的最低版本是SM90 (机器:H100 / H800) 要求CUDA 12.4 以上
19+
- DeepSeek-R1-MTP 与 Fp8 模型 支持的最低版本是SM90 (机器:H800) 要求CUDA 12.4 以上
2020

2121
|模型名称|精度|MTP|节点数|静态图下载 model_name|
2222
|:------|:-:|:-:|:-:|:-:|

0 commit comments

Comments
 (0)