|
321 | 321 | </td>
|
322 | 322 | </tr>
|
323 | 323 | <tr>
|
324 |
| - <td rowspan=4 align=center> 6L768H </td> |
| 324 | + <td rowspan=5 align=center> 6L768H </td> |
325 | 325 | <td style="text-align:center">
|
326 | 326 | <span style="font-size:18px">ERNIE 3.0-Medium-zh</span>
|
327 | 327 | </td>
|
|
359 | 359 | <span style="font-size:18px"><b>69.73</b></span>
|
360 | 360 | </td>
|
361 | 361 | </tr>
|
| 362 | + <tr> |
| 363 | + <td style="text-align:center"> |
| 364 | + <span style="font-size:18px">HLF/RBT6, Chinese</span> |
| 365 | + </td> |
| 366 | + <td style="text-align:center"> |
| 367 | + <span style="font-size:18px">69.74</span> |
| 368 | + </td> |
| 369 | + <td style="text-align:center"> |
| 370 | + <span style="font-size:18px">73.15</span> |
| 371 | + </td> |
| 372 | + <td style="text-align:center"> |
| 373 | + <span style="font-size:18px">56.62</span> |
| 374 | + </td> |
| 375 | + <td style="text-align:center"> |
| 376 | + <span style="font-size:18px">59.68</span> |
| 377 | + </td> |
| 378 | + <td style="text-align:center"> |
| 379 | + <span style="font-size:18px">79.26</span> |
| 380 | + </td> |
| 381 | + <td style="text-align:center"> |
| 382 | + <span style="font-size:18px">73.15</span> |
| 383 | + </td> |
| 384 | + <td style="text-align:center"> |
| 385 | + <span style="font-size:18px">75.00</span> |
| 386 | + </td> |
| 387 | + <td style="text-align:center"> |
| 388 | + <span style="font-size:18px">80.04</span> |
| 389 | + </td> |
| 390 | + <td style="text-align:center"> |
| 391 | + <span style="font-size:18px">62.26/84.72</span> |
| 392 | + </td> |
| 393 | + <td style="text-align:center"> |
| 394 | + <span style="font-size:18px">78.26</span> |
| 395 | + </td> |
| 396 | + <td style="text-align:center"> |
| 397 | + <span style="font-size:18px">59.93</span> |
| 398 | + </td> |
| 399 | + </tr> |
362 | 400 | <tr>
|
363 | 401 | <td style="text-align:center">
|
364 | 402 | <span style="font-size:18px">TinyBERT<sub>6</sub>, Chinese</span>
|
|
435 | 473 | </td>
|
436 | 474 | </tr>
|
437 | 475 | <tr>
|
438 |
| - <td style="text-align:center"> |
439 |
| - <span style="font-size:18px">RBT6, Chinese</span> |
| 476 | + <td style="text-align:center"> |
| 477 | + <span style="font-size:18px">UER/Chinese-RoBERTa (L6-H768)</span> |
440 | 478 | </td>
|
441 | 479 | <td style="text-align:center">
|
442 |
| - <span style="font-size:18px">69.74</span> |
| 480 | + <span style="font-size:18px">66.67</span> |
443 | 481 | </td>
|
444 | 482 | <td style="text-align:center">
|
445 |
| - <span style="font-size:18px">73.15</span> |
| 483 | + <span style="font-size:18px">70.13</span> |
446 | 484 | </td>
|
447 | 485 | <td style="text-align:center">
|
448 |
| - <span style="font-size:18px">56.62</span> |
| 486 | + <span style="font-size:18px">56.41</span> |
449 | 487 | </td>
|
450 | 488 | <td style="text-align:center">
|
451 |
| - <span style="font-size:18px">59.68</span> |
| 489 | + <span style="font-size:18px">59.79</span> |
452 | 490 | </td>
|
453 | 491 | <td style="text-align:center">
|
454 |
| - <span style="font-size:18px">79.26</span> |
| 492 | + <span style="font-size:18px">77.38</span> |
455 | 493 | </td>
|
456 | 494 | <td style="text-align:center">
|
457 |
| - <span style="font-size:18px">73.15</span> |
| 495 | + <span style="font-size:18px">71.86</span> |
458 | 496 | </td>
|
459 | 497 | <td style="text-align:center">
|
460 |
| - <span style="font-size:18px">75.00</span> |
| 498 | + <span style="font-size:18px">69.41</span> |
461 | 499 | </td>
|
462 | 500 | <td style="text-align:center">
|
463 |
| - <span style="font-size:18px">80.04</span> |
| 501 | + <span style="font-size:18px">76.73</span> |
464 | 502 | </td>
|
465 | 503 | <td style="text-align:center">
|
466 |
| - <span style="font-size:18px">62.26/84.72</span> |
| 504 | + <span style="font-size:18px">53.22/75.03</span> |
467 | 505 | </td>
|
468 | 506 | <td style="text-align:center">
|
469 |
| - <span style="font-size:18px">78.26</span> |
470 |
| - </td> |
| 507 | + <span style="font-size:18px">77.00</span> |
| 508 | + </td> |
471 | 509 | <td style="text-align:center">
|
472 |
| - <span style="font-size:18px">59.93</span> |
| 510 | + <span style="font-size:18px">54.77</span> |
473 | 511 | </td>
|
474 | 512 | </tr>
|
475 | 513 | <tbody>
|
@@ -499,22 +537,23 @@ AFQMC、TNEWS、IFLYTEK、CMNLI、OCNLI、CLUEWSC2020、CSL 、CHID 和 C<sup>3<
|
499 | 537 |
|
500 | 538 | 不同预训练模型在下游任务上做 Grid Search 之后的最优超参(learning_rate、batch_size)如下:
|
501 | 539 |
|
502 |
| -| Model | AFQMC | TNEWS | IFLYTEK | CMNLI | OCNLI | CLUEWSC2020 | CSL | CMRC2018 | CHID | C<sup>3</sup> | |
503 |
| -| ----------------------------- | ------- | ------- | ------- | -------- | -------- | ----------- | ------- | -------- | ------- | ------------- | |
504 |
| -| RoBERTa-wwm-ext-large | 1e-5,32 | 3e-5,32 | 2e-5,32 | 1e-5,16 | 1e-5,16 | 2e-5,16 | 2e-5,16 | 3e-5,32 | 1e-5,24 | 2e-5,24 | |
505 |
| -| ERNIE 3.0-Base-zh | 3e-5,16 | 3e-5,32 | 5e-5,32 | 3e-5,32 | 2e-5,64 | 2e-5,16 | 2e-5,32 | 2e-5,24 | 3e-5,24 | 3e-5,32 | |
506 |
| -| ERNIE-Gram-zh | 1e-5,16 | 5e-5,16 | 5e-5,16 | 2e-5,32 | 2e-5,64 | 3e-5,16 | 3e-5,64 | 3e-5,32 | 2e-5,24 | 2e-5,24 | |
507 |
| -| Mengzi-BERT-Base | 3e-5,32 | 5e-5,32 | 5e-5,16 | 2e-5,16 | 2e-5,16 | 3e-5,8 | 1e-5,16 | 3e-5,24 | 3e-5,24 | 2e-5,32 | |
508 |
| -| ERNIE 1.0 | 3e-5,16 | 3e-5,32 | 5e-5,16 | 5e-5,32 | 3e-5,16 | 2e-5,8 | 2e-5,16 | 3e-5,32 | 3e-5,24 | 3e-5,24 | |
509 |
| -| RoBERTa-wwm-ext | 3e-5,32 | 3e-5,64 | 5e-5,16 | 3e-5,32 | 2e-5,32 | 3e-5,32 | 2e-5,32 | 3e-5,32 | 2e-5,32 | 3e-5,24 | |
510 |
| -| BERT-Base-Chinese | 2e-5,16 | 5e-5,16 | 5e-5,16 | 5e-5,64 | 3e-5,16 | 3e-5,16 | 1e-5,16 | 3e-5,24 | 2e-5,32 | 3e-5,24 | |
511 |
| -| ERNIE 3.0-Medium-zh | 3e-5,32 | 3e-5,64 | 5e-5,32 | 2e-5,32 | 1e-5,64 | 3e-5,16 | 2e-5,32 | 3e-5,24 | 2e-5,24 | 1e-5,24 | |
512 |
| -| TinyBERT<sub>6</sub> ,Chinese | 1e-5,16 | 3e-5,32 | 5e-5,16 | 5e-5,32 | 3e-5,64 | 3e-5,16 | 3e-5,16 | 8,3e-5 | 3e-5,24 | 2e-5,24 | |
513 |
| -| RoFormerV2 Small | 5e-5,16 | 2e-5,16 | 5e-5,16 | 5e-5,32 | 2e-5,16 | 3e-5,8 | 3e-5,16 | 3e-5,24 | 3e-5,24 | 3e-5,24 | |
514 |
| -| RBT6, Chinese | 3e-5,16 | 5e-5,16 | 5e-5,16 | 5e-5,64 | 3e-5,32 | 3e-5,32 | 3e-5,16 | 3e-5,32 | 3e-5,24 | 3e-5,24 | |
| 540 | +| Model | AFQMC | TNEWS | IFLYTEK | CMNLI | OCNLI | CLUEWSC2020 | CSL | CMRC2018 | CHID | C<sup>3</sup> | |
| 541 | +| -------------------------------- | ------- | ------- | ------- | -------- | -------- | ----------- | ------- | -------- | ------- | ------------- | |
| 542 | +| RoBERTa-wwm-ext-large | 1e-5,32 | 3e-5,32 | 2e-5,32 | 1e-5,16 | 1e-5,16 | 2e-5,16 | 2e-5,16 | 3e-5,32 | 1e-5,24 | 2e-5,24 | |
| 543 | +| ERNIE 3.0-Base-zh | 3e-5,16 | 3e-5,32 | 5e-5,32 | 3e-5,32 | 2e-5,64 | 2e-5,16 | 2e-5,32 | 2e-5,24 | 3e-5,24 | 3e-5,32 | |
| 544 | +| ERNIE-Gram-zh | 1e-5,16 | 5e-5,16 | 5e-5,16 | 2e-5,32 | 2e-5,64 | 3e-5,16 | 3e-5,64 | 3e-5,32 | 2e-5,24 | 2e-5,24 | |
| 545 | +| Mengzi-Bert-Base | 3e-5,32 | 5e-5,32 | 5e-5,16 | 2e-5,16 | 2e-5,16 | 3e-5,8 | 1e-5,16 | 3e-5,24 | 3e-5,24 | 2e-5,32 | |
| 546 | +| ERNIE 1.0 | 3e-5,16 | 3e-5,32 | 5e-5,16 | 5e-5,32 | 3e-5,16 | 2e-5,8 | 2e-5,16 | 3e-5,32 | 3e-5,24 | 3e-5,24 | |
| 547 | +| RoBERTa-wwm-ext | 3e-5,32 | 3e-5,64 | 5e-5,16 | 3e-5,32 | 2e-5,32 | 3e-5,32 | 2e-5,32 | 3e-5,32 | 2e-5,32 | 3e-5,24 | |
| 548 | +| BERT-Base-Chinese | 2e-5,16 | 5e-5,16 | 5e-5,16 | 5e-5,64 | 3e-5,16 | 3e-5,16 | 1e-5,16 | 3e-5,24 | 2e-5,32 | 3e-5,24 | |
| 549 | +| ERNIE 3.0-Medium-zh | 3e-5,32 | 3e-5,64 | 5e-5,32 | 2e-5,32 | 1e-5,64 | 3e-5,16 | 2e-5,32 | 3e-5,24 | 2e-5,24 | 1e-5,24 | |
| 550 | +| TinyBERT<sub>6</sub> ,Chinese | 1e-5,16 | 3e-5,32 | 5e-5,16 | 5e-5,32 | 3e-5,64 | 3e-5,16 | 3e-5,16 | 8,3e-5 | 3e-5,24 | 2e-5,24 | |
| 551 | +| RoFormerV2 Small | 5e-5,16 | 2e-5,16 | 5e-5,16 | 5e-5,32 | 2e-5,16 | 3e-5,8 | 3e-5,16 | 3e-5,24 | 3e-5,24 | 3e-5,24 | |
| 552 | +| HLF/RBT6, Chinese | 3e-5,16 | 5e-5,16 | 5e-5,16 | 5e-5,64 | 3e-5,32 | 3e-5,32 | 3e-5,16 | 3e-5,32 | 3e-5,24 | 3e-5,24 | |
| 553 | +| UER/Chinese-RoBERTa (L6-H768) | 2e-5,16 | 5e-5,32 | 5e-5,16 | 5e-5,32 | 3e-5,16 | 5e-5,8 | 3e-5,16 | 3e-5,24 | 3e-5,24 | 3e-5,32 | |
515 | 554 |
|
516 | 555 |
|
517 |
| -其中,`ERNIE 3.0-Base-zh`、`ERNIE 3.0-Medium-zh`、`ERNIE-Gram-zh`、`ERNIE 1.0` 在 CLUEWSC2020 处的 dropout_prob 为 0.0,`ERNIE 3.0-Base-zh`、`RBT6, Chinese`、`Mengzi-BERT-Base`、`ERNIE-Gram-zh`、`ERNIE 1.0` 、`TinyBERT6, Chinese` 在 IFLYTEK 处的 dropout_prob 为 0.0。 |
| 556 | +其中,`ERNIE 3.0-Base-zh`、`ERNIE 3.0-Medium-zh`、`ERNIE-Gram-zh`、`ERNIE 1.0` 在 CLUEWSC2020 处的 dropout_prob 为 0.0,`ERNIE 3.0-Base-zh`、`HLF/RBT6, Chinese`、`Mengzi-BERT-Base`、`ERNIE-Gram-zh`、`ERNIE 1.0` 、`TinyBERT6, Chinese`、`UER/Chinese-RoBERTa (L6-H768)` 在 IFLYTEK 处的 dropout_prob 为 0.0。 |
518 | 557 |
|
519 | 558 |
|
520 | 559 | ## 一键复现模型效果
|
@@ -559,7 +598,7 @@ python -u ./run_clue_classifier.py \
|
559 | 598 | 另外,如需评估,传入参数 `--do_eval` 即可,如果只对读入的 checkpoint 进行评估不训练,则不需传入 `--do_train`。
|
560 | 599 |
|
561 | 600 | 其中参数释义如下:
|
562 |
| -- `model_name_or_path` 指示了 Fine-tuning 使用的具体预训练模型,可以是 PaddleNLP 提供的预训练模型,可以选择[Transformer预训练模型汇总](../../../docs/model_zoo/transformers.rst)中相对应的中文预训练权重。注意 CLUE 任务应选择中文预训练权重。 |
| 601 | +- `model_name_or_path` 指示了 Fine-tuning 使用的具体预训练模型,可以是 PaddleNLP 提供的预训练模型,可以选择[Transformer预训练模型汇总](../../../docs/model_zoo/index.rst)中相对应的中文预训练权重。注意 CLUE 任务应选择中文预训练权重。 |
563 | 602 |
|
564 | 603 | - `task_name` 表示 Fine-tuning 的分类任务,当前支持 AFQMC、TNEWS、IFLYTEK、OCNLI、CMNLI、CSL、CLUEWSC2020。
|
565 | 604 | - `max_seq_length` 表示最大句子长度,超过该长度将被截断。
|
|
0 commit comments