Skip to content

Commit 52c7273

Browse files
LiuChiachitianxin
andauthored
Add UER RoBERTa L6-H768 CLUE Result (#2226)
* add uer clue result * fix model order in table * fix model name * fix dead link * fix model name Co-authored-by: tianxin <[email protected]>
1 parent bac1d83 commit 52c7273

File tree

2 files changed

+122
-45
lines changed

2 files changed

+122
-45
lines changed

examples/benchmark/clue/README.md

Lines changed: 69 additions & 30 deletions
Original file line numberDiff line numberDiff line change
@@ -321,7 +321,7 @@
321321
</td>
322322
</tr>
323323
<tr>
324-
<td rowspan=4 align=center> 6L768H </td>
324+
<td rowspan=5 align=center> 6L768H </td>
325325
<td style="text-align:center">
326326
<span style="font-size:18px">ERNIE 3.0-Medium-zh</span>
327327
</td>
@@ -359,6 +359,44 @@
359359
<span style="font-size:18px"><b>69.73</b></span>
360360
</td>
361361
</tr>
362+
<tr>
363+
<td style="text-align:center">
364+
<span style="font-size:18px">HLF/RBT6, Chinese</span>
365+
</td>
366+
<td style="text-align:center">
367+
<span style="font-size:18px">69.74</span>
368+
</td>
369+
<td style="text-align:center">
370+
<span style="font-size:18px">73.15</span>
371+
</td>
372+
<td style="text-align:center">
373+
<span style="font-size:18px">56.62</span>
374+
</td>
375+
<td style="text-align:center">
376+
<span style="font-size:18px">59.68</span>
377+
</td>
378+
<td style="text-align:center">
379+
<span style="font-size:18px">79.26</span>
380+
</td>
381+
<td style="text-align:center">
382+
<span style="font-size:18px">73.15</span>
383+
</td>
384+
<td style="text-align:center">
385+
<span style="font-size:18px">75.00</span>
386+
</td>
387+
<td style="text-align:center">
388+
<span style="font-size:18px">80.04</span>
389+
</td>
390+
<td style="text-align:center">
391+
<span style="font-size:18px">62.26/84.72</span>
392+
</td>
393+
<td style="text-align:center">
394+
<span style="font-size:18px">78.26</span>
395+
</td>
396+
<td style="text-align:center">
397+
<span style="font-size:18px">59.93</span>
398+
</td>
399+
</tr>
362400
<tr>
363401
<td style="text-align:center">
364402
<span style="font-size:18px">TinyBERT<sub>6</sub>, Chinese</span>
@@ -435,41 +473,41 @@
435473
</td>
436474
</tr>
437475
<tr>
438-
<td style="text-align:center">
439-
<span style="font-size:18px">RBT6, Chinese</span>
476+
<td style="text-align:center">
477+
<span style="font-size:18px">UER/Chinese-RoBERTa (L6-H768)</span>
440478
</td>
441479
<td style="text-align:center">
442-
<span style="font-size:18px">69.74</span>
480+
<span style="font-size:18px">66.67</span>
443481
</td>
444482
<td style="text-align:center">
445-
<span style="font-size:18px">73.15</span>
483+
<span style="font-size:18px">70.13</span>
446484
</td>
447485
<td style="text-align:center">
448-
<span style="font-size:18px">56.62</span>
486+
<span style="font-size:18px">56.41</span>
449487
</td>
450488
<td style="text-align:center">
451-
<span style="font-size:18px">59.68</span>
489+
<span style="font-size:18px">59.79</span>
452490
</td>
453491
<td style="text-align:center">
454-
<span style="font-size:18px">79.26</span>
492+
<span style="font-size:18px">77.38</span>
455493
</td>
456494
<td style="text-align:center">
457-
<span style="font-size:18px">73.15</span>
495+
<span style="font-size:18px">71.86</span>
458496
</td>
459497
<td style="text-align:center">
460-
<span style="font-size:18px">75.00</span>
498+
<span style="font-size:18px">69.41</span>
461499
</td>
462500
<td style="text-align:center">
463-
<span style="font-size:18px">80.04</span>
501+
<span style="font-size:18px">76.73</span>
464502
</td>
465503
<td style="text-align:center">
466-
<span style="font-size:18px">62.26/84.72</span>
504+
<span style="font-size:18px">53.22/75.03</span>
467505
</td>
468506
<td style="text-align:center">
469-
<span style="font-size:18px">78.26</span>
470-
</td>
507+
<span style="font-size:18px">77.00</span>
508+
</td>
471509
<td style="text-align:center">
472-
<span style="font-size:18px">59.93</span>
510+
<span style="font-size:18px">54.77</span>
473511
</td>
474512
</tr>
475513
<tbody>
@@ -499,22 +537,23 @@ AFQMC、TNEWS、IFLYTEK、CMNLI、OCNLI、CLUEWSC2020、CSL 、CHID 和 C<sup>3<
499537

500538
不同预训练模型在下游任务上做 Grid Search 之后的最优超参(learning_rate、batch_size)如下:
501539

502-
| Model | AFQMC | TNEWS | IFLYTEK | CMNLI | OCNLI | CLUEWSC2020 | CSL | CMRC2018 | CHID | C<sup>3</sup> |
503-
| ----------------------------- | ------- | ------- | ------- | -------- | -------- | ----------- | ------- | -------- | ------- | ------------- |
504-
| RoBERTa-wwm-ext-large | 1e-5,32 | 3e-5,32 | 2e-5,32 | 1e-5,16 | 1e-5,16 | 2e-5,16 | 2e-5,16 | 3e-5,32 | 1e-5,24 | 2e-5,24 |
505-
| ERNIE 3.0-Base-zh | 3e-5,16 | 3e-5,32 | 5e-5,32 | 3e-5,32 | 2e-5,64 | 2e-5,16 | 2e-5,32 | 2e-5,24 | 3e-5,24 | 3e-5,32 |
506-
| ERNIE-Gram-zh | 1e-5,16 | 5e-5,16 | 5e-5,16 | 2e-5,32 | 2e-5,64 | 3e-5,16 | 3e-5,64 | 3e-5,32 | 2e-5,24 | 2e-5,24 |
507-
| Mengzi-BERT-Base | 3e-5,32 | 5e-5,32 | 5e-5,16 | 2e-5,16 | 2e-5,16 | 3e-5,8 | 1e-5,16 | 3e-5,24 | 3e-5,24 | 2e-5,32 |
508-
| ERNIE 1.0 | 3e-5,16 | 3e-5,32 | 5e-5,16 | 5e-5,32 | 3e-5,16 | 2e-5,8 | 2e-5,16 | 3e-5,32 | 3e-5,24 | 3e-5,24 |
509-
| RoBERTa-wwm-ext | 3e-5,32 | 3e-5,64 | 5e-5,16 | 3e-5,32 | 2e-5,32 | 3e-5,32 | 2e-5,32 | 3e-5,32 | 2e-5,32 | 3e-5,24 |
510-
| BERT-Base-Chinese | 2e-5,16 | 5e-5,16 | 5e-5,16 | 5e-5,64 | 3e-5,16 | 3e-5,16 | 1e-5,16 | 3e-5,24 | 2e-5,32 | 3e-5,24 |
511-
| ERNIE 3.0-Medium-zh | 3e-5,32 | 3e-5,64 | 5e-5,32 | 2e-5,32 | 1e-5,64 | 3e-5,16 | 2e-5,32 | 3e-5,24 | 2e-5,24 | 1e-5,24 |
512-
| TinyBERT<sub>6</sub> ,Chinese | 1e-5,16 | 3e-5,32 | 5e-5,16 | 5e-5,32 | 3e-5,64 | 3e-5,16 | 3e-5,16 | 8,3e-5 | 3e-5,24 | 2e-5,24 |
513-
| RoFormerV2 Small | 5e-5,16 | 2e-5,16 | 5e-5,16 | 5e-5,32 | 2e-5,16 | 3e-5,8 | 3e-5,16 | 3e-5,24 | 3e-5,24 | 3e-5,24 |
514-
| RBT6, Chinese | 3e-5,16 | 5e-5,16 | 5e-5,16 | 5e-5,64 | 3e-5,32 | 3e-5,32 | 3e-5,16 | 3e-5,32 | 3e-5,24 | 3e-5,24 |
540+
| Model | AFQMC | TNEWS | IFLYTEK | CMNLI | OCNLI | CLUEWSC2020 | CSL | CMRC2018 | CHID | C<sup>3</sup> |
541+
| -------------------------------- | ------- | ------- | ------- | -------- | -------- | ----------- | ------- | -------- | ------- | ------------- |
542+
| RoBERTa-wwm-ext-large | 1e-5,32 | 3e-5,32 | 2e-5,32 | 1e-5,16 | 1e-5,16 | 2e-5,16 | 2e-5,16 | 3e-5,32 | 1e-5,24 | 2e-5,24 |
543+
| ERNIE 3.0-Base-zh | 3e-5,16 | 3e-5,32 | 5e-5,32 | 3e-5,32 | 2e-5,64 | 2e-5,16 | 2e-5,32 | 2e-5,24 | 3e-5,24 | 3e-5,32 |
544+
| ERNIE-Gram-zh | 1e-5,16 | 5e-5,16 | 5e-5,16 | 2e-5,32 | 2e-5,64 | 3e-5,16 | 3e-5,64 | 3e-5,32 | 2e-5,24 | 2e-5,24 |
545+
| Mengzi-Bert-Base | 3e-5,32 | 5e-5,32 | 5e-5,16 | 2e-5,16 | 2e-5,16 | 3e-5,8 | 1e-5,16 | 3e-5,24 | 3e-5,24 | 2e-5,32 |
546+
| ERNIE 1.0 | 3e-5,16 | 3e-5,32 | 5e-5,16 | 5e-5,32 | 3e-5,16 | 2e-5,8 | 2e-5,16 | 3e-5,32 | 3e-5,24 | 3e-5,24 |
547+
| RoBERTa-wwm-ext | 3e-5,32 | 3e-5,64 | 5e-5,16 | 3e-5,32 | 2e-5,32 | 3e-5,32 | 2e-5,32 | 3e-5,32 | 2e-5,32 | 3e-5,24 |
548+
| BERT-Base-Chinese | 2e-5,16 | 5e-5,16 | 5e-5,16 | 5e-5,64 | 3e-5,16 | 3e-5,16 | 1e-5,16 | 3e-5,24 | 2e-5,32 | 3e-5,24 |
549+
| ERNIE 3.0-Medium-zh | 3e-5,32 | 3e-5,64 | 5e-5,32 | 2e-5,32 | 1e-5,64 | 3e-5,16 | 2e-5,32 | 3e-5,24 | 2e-5,24 | 1e-5,24 |
550+
| TinyBERT<sub>6</sub> ,Chinese | 1e-5,16 | 3e-5,32 | 5e-5,16 | 5e-5,32 | 3e-5,64 | 3e-5,16 | 3e-5,16 | 8,3e-5 | 3e-5,24 | 2e-5,24 |
551+
| RoFormerV2 Small | 5e-5,16 | 2e-5,16 | 5e-5,16 | 5e-5,32 | 2e-5,16 | 3e-5,8 | 3e-5,16 | 3e-5,24 | 3e-5,24 | 3e-5,24 |
552+
| HLF/RBT6, Chinese | 3e-5,16 | 5e-5,16 | 5e-5,16 | 5e-5,64 | 3e-5,32 | 3e-5,32 | 3e-5,16 | 3e-5,32 | 3e-5,24 | 3e-5,24 |
553+
| UER/Chinese-RoBERTa (L6-H768) | 2e-5,16 | 5e-5,32 | 5e-5,16 | 5e-5,32 | 3e-5,16 | 5e-5,8 | 3e-5,16 | 3e-5,24 | 3e-5,24 | 3e-5,32 |
515554

516555

517-
其中,`ERNIE 3.0-Base-zh``ERNIE 3.0-Medium-zh``ERNIE-Gram-zh``ERNIE 1.0` 在 CLUEWSC2020 处的 dropout_prob 为 0.0,`ERNIE 3.0-Base-zh``RBT6, Chinese``Mengzi-BERT-Base``ERNIE-Gram-zh``ERNIE 1.0``TinyBERT6, Chinese` 在 IFLYTEK 处的 dropout_prob 为 0.0。
556+
其中,`ERNIE 3.0-Base-zh``ERNIE 3.0-Medium-zh``ERNIE-Gram-zh``ERNIE 1.0` 在 CLUEWSC2020 处的 dropout_prob 为 0.0,`ERNIE 3.0-Base-zh``HLF/RBT6, Chinese``Mengzi-BERT-Base``ERNIE-Gram-zh``ERNIE 1.0``TinyBERT6, Chinese``UER/Chinese-RoBERTa (L6-H768)` 在 IFLYTEK 处的 dropout_prob 为 0.0。
518557

519558

520559
## 一键复现模型效果
@@ -559,7 +598,7 @@ python -u ./run_clue_classifier.py \
559598
另外,如需评估,传入参数 `--do_eval` 即可,如果只对读入的 checkpoint 进行评估不训练,则不需传入 `--do_train`
560599

561600
其中参数释义如下:
562-
- `model_name_or_path` 指示了 Fine-tuning 使用的具体预训练模型,可以是 PaddleNLP 提供的预训练模型,可以选择[Transformer预训练模型汇总](../../../docs/model_zoo/transformers.rst)中相对应的中文预训练权重。注意 CLUE 任务应选择中文预训练权重。
601+
- `model_name_or_path` 指示了 Fine-tuning 使用的具体预训练模型,可以是 PaddleNLP 提供的预训练模型,可以选择[Transformer预训练模型汇总](../../../docs/model_zoo/index.rst)中相对应的中文预训练权重。注意 CLUE 任务应选择中文预训练权重。
563602

564603
- `task_name` 表示 Fine-tuning 的分类任务,当前支持 AFQMC、TNEWS、IFLYTEK、OCNLI、CMNLI、CSL、CLUEWSC2020。
565604
- `max_seq_length` 表示最大句子长度,超过该长度将被截断。

model_zoo/ernie-3.0/README.md

Lines changed: 53 additions & 15 deletions
Original file line numberDiff line numberDiff line change
@@ -322,7 +322,7 @@
322322
</td>
323323
</tr>
324324
<tr>
325-
<td rowspan=4 align=center> 6L768H </td>
325+
<td rowspan=5 align=center> 6L768H </td>
326326
<td style="text-align:center">
327327
<span style="font-size:18px"><b>ERNIE 3.0-Medium-zh</b></span>
328328
</td>
@@ -360,6 +360,44 @@
360360
<span style="font-size:18px"><b>69.73</b></span>
361361
</td>
362362
</tr>
363+
<tr>
364+
<td style="text-align:center">
365+
<span style="font-size:18px">HLF/RBT6, Chinese</span>
366+
</td>
367+
<td style="text-align:center">
368+
<span style="font-size:18px">69.74</span>
369+
</td>
370+
<td style="text-align:center">
371+
<span style="font-size:18px">73.15</span>
372+
</td>
373+
<td style="text-align:center">
374+
<span style="font-size:18px">56.62</span>
375+
</td>
376+
<td style="text-align:center">
377+
<span style="font-size:18px">59.68</span>
378+
</td>
379+
<td style="text-align:center">
380+
<span style="font-size:18px">79.26</span>
381+
</td>
382+
<td style="text-align:center">
383+
<span style="font-size:18px">73.15</span>
384+
</td>
385+
<td style="text-align:center">
386+
<span style="font-size:18px">75.00</span>
387+
</td>
388+
<td style="text-align:center">
389+
<span style="font-size:18px">80.04</span>
390+
</td>
391+
<td style="text-align:center">
392+
<span style="font-size:18px">62.26/84.72</span>
393+
</td>
394+
<td style="text-align:center">
395+
<span style="font-size:18px">78.26</span>
396+
</td>
397+
<td style="text-align:center">
398+
<span style="font-size:18px">59.93</span>
399+
</td>
400+
</tr>
363401
<tr>
364402
<td style="text-align:center">
365403
<span style="font-size:18px">TinyBERT<sub>6</sub>, Chinese</span>
@@ -437,41 +475,41 @@
437475
</td>
438476
</tr>
439477
<tr>
440-
<td style="text-align:center">
441-
<span style="font-size:18px">RBT6, Chinese</span>
478+
<td style="text-align:center">
479+
<span style="font-size:18px">UER/Chinese-RoBERTa (L6-H768)</span>
442480
</td>
443481
<td style="text-align:center">
444-
<span style="font-size:18px">69.74</span>
482+
<span style="font-size:18px">66.67</span>
445483
</td>
446484
<td style="text-align:center">
447-
<span style="font-size:18px">73.15</span>
485+
<span style="font-size:18px">70.13</span>
448486
</td>
449487
<td style="text-align:center">
450-
<span style="font-size:18px">56.62</span>
488+
<span style="font-size:18px">56.41</span>
451489
</td>
452490
<td style="text-align:center">
453-
<span style="font-size:18px">59.68</span>
491+
<span style="font-size:18px">59.79</span>
454492
</td>
455493
<td style="text-align:center">
456-
<span style="font-size:18px">79.26</span>
494+
<span style="font-size:18px">77.38</span>
457495
</td>
458496
<td style="text-align:center">
459-
<span style="font-size:18px">73.15</span>
497+
<span style="font-size:18px">71.86</span>
460498
</td>
461499
<td style="text-align:center">
462-
<span style="font-size:18px">75.00</span>
500+
<span style="font-size:18px">69.41</span>
463501
</td>
464502
<td style="text-align:center">
465-
<span style="font-size:18px">80.04</span>
503+
<span style="font-size:18px">76.73</span>
466504
</td>
467505
<td style="text-align:center">
468-
<span style="font-size:18px">62.26/84.72</span>
506+
<span style="font-size:18px">53.22/75.03</span>
469507
</td>
470508
<td style="text-align:center">
471-
<span style="font-size:18px">78.26</span>
472-
</td>
509+
<span style="font-size:18px">77.00</span>
510+
</td>
473511
<td style="text-align:center">
474-
<span style="font-size:18px">59.93</span>
512+
<span style="font-size:18px">54.77</span>
475513
</td>
476514
</tr>
477515
<tbody>

0 commit comments

Comments
 (0)