Evaluation on Glue using Lora

您好，我在测试lora时，训练没有遇到问题，但是evaluation的时候有遇到如下报错。 其中moe_peft.json是我用指令直接generate出来的。
同时，我用lora在glue的mrpc上训练了两次，一次epoch2 另一次epoch30。 epoch30我能看到多训练了28个epoch并且checkpoint都有存储，但是最后得到的jason file里的evaluation结果一模一样，请问这可能是哪里出问题了吗？非常感谢您的解答和帮助
[
    {
        "adapter_name": "mrpc_0",
        "task_name": "glue:mrpc",
        "date_time": "2025-04-02 12:35:43",
        "metrics": {
            "accuracy": 0.6838235294117647,
            "f1": 0.8122270742358079
        },
        "training_steps": 918
    }
]

[
    {
        "adapter_name": "mrpc_lora",
        "task_name": "glue:mrpc",
        "date_time": "2025-04-02 14:58:31",
        "metrics": {
            "accuracy": 0.6838235294117647,
            "f1": 0.8122270742358079
        },
        "training_steps": 13770
    }
]

python moe_peft.py --base_model TinyLlama/TinyLlama_v1.1 --evaluate --config moe_peft.json --fp16:
Traceback (most recent call last):
  File "/home/yuz23046/MoE-PEFT/moe_peft.py", line 281, in <module>
    moe_peft.evaluate(
  File "/home/yuz23046/miniconda3/envs/peft_moe/lib/python3.12/site-packages/torch/utils/_contextlib.py", line 116, in decorate_context
    return func(*args, **kwargs)
           ^^^^^^^^^^^^^^^^^^^^^
  File "/home/yuz23046/MoE-PEFT/moe_peft/evaluator.py", line 324, in evaluate
    return _compute_result(model, configs, save_file)
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/home/yuz23046/MoE-PEFT/moe_peft/evaluator.py", line 227, in _compute_result
    compute_results = config.metric_.compute()
                      ^^^^^^^^^^^^^^^^^^^^^^^^
  File "/home/yuz23046/MoE-PEFT/moe_peft/tasks/common.py", line 42, in compute
    return self.metric_.compute()
           ^^^^^^^^^^^^^^^^^^^^^^
  File "/home/yuz23046/miniconda3/envs/peft_moe/lib/python3.12/site-packages/evaluate/module.py", line 467, in compute
    output = self._compute(**inputs, **compute_kwargs)
             ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/home/yuz23046/.cache/huggingface/modules/evaluate_modules/metrics/evaluate-metric--glue/05234ba7acc44554edcca0978db5fa3bc600eeee66229abe79ff9887eacaf3ed/glue.py", line 148, in _compute
    return acc_and_f1(predictions, references)
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/home/yuz23046/.cache/huggingface/modules/evaluate_modules/metrics/evaluate-metric--glue/05234ba7acc44554edcca0978db5fa3bc600eeee66229abe79ff9887eacaf3ed/glue.py", line 89, in acc_and_f1
    f1 = float(f1_score(y_true=labels, y_pred=preds))
               ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/home/yuz23046/miniconda3/envs/peft_moe/lib/python3.12/site-packages/sklearn/utils/_param_validation.py", line 216, in wrapper
    return func(*args, **kwargs)
           ^^^^^^^^^^^^^^^^^^^^^
  File "/home/yuz23046/miniconda3/envs/peft_moe/lib/python3.12/site-packages/sklearn/metrics/_classification.py", line 1324, in f1_score
    return fbeta_score(
           ^^^^^^^^^^^^
  File "/home/yuz23046/miniconda3/envs/peft_moe/lib/python3.12/site-packages/sklearn/utils/_param_validation.py", line 189, in wrapper
    return func(*args, **kwargs)
           ^^^^^^^^^^^^^^^^^^^^^
  File "/home/yuz23046/miniconda3/envs/peft_moe/lib/python3.12/site-packages/sklearn/metrics/_classification.py", line 1517, in fbeta_score
    _, _, f, _ = precision_recall_fscore_support(
                 ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/home/yuz23046/miniconda3/envs/peft_moe/lib/python3.12/site-packages/sklearn/utils/_param_validation.py", line 189, in wrapper
    return func(*args, **kwargs)
           ^^^^^^^^^^^^^^^^^^^^^
  File "/home/yuz23046/miniconda3/envs/peft_moe/lib/python3.12/site-packages/sklearn/metrics/_classification.py", line 1830, in precision_recall_fscore_support
    labels = _check_set_wise_labels(y_true, y_pred, average, labels, pos_label)
             ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/home/yuz23046/miniconda3/envs/peft_moe/lib/python3.12/site-packages/sklearn/metrics/_classification.py", line 1613, in _check_set_wise_labels
    raise ValueError(
ValueError: Target is multiclass but average='binary'. Please choose another average setting, one of [None, 'micro', 'macro', 'weighted'].

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Evaluation on Glue using Lora #28

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Evaluation on Glue using Lora #28

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions