add tasks.yml for Llama-3.3-70B-Instruct models

derekk-nm · web-flow · commit 07b25cc78c13 · 2025-04-24T08:32:42.000-04:00
* add tasks for Llama-3.3-70B-Instruct models
diff --git a/RedHatAI/Llama-3.3-70B-Instruct-FP8-dynamic/accuracy/tasks.yml b/RedHatAI/Llama-3.3-70B-Instruct-FP8-dynamic/accuracy/tasks.yml
@@ -0,0 +1,70 @@
+tasks:
+  - name: arc_challenge
+    metrics:
+      - name: acc_norm,none
+        value: 0.5196
+
+  - name: gsm8k
+    metrics:
+      - name: exact_match,strict-match
+        value: 0.9492
+
+  - name: hellaswag
+    metrics:
+      - name: acc_norm,none
+        value: 0.8643
+
+  - name: mmlu
+    metrics:
+      - name: acc,none
+        value: 0.8131
+
+  - name: truthfulqa_mc2
+    metrics:
+      - name: acc,none
+        value: 0.6321
+
+  - name: winogrande
+    metrics:
+      - name: acc,none
+        value: 0.8453
+
+  # following are placeholders for mid-level "leaderboard_*" tasks
+  # (OpenLLM v2) waiting for info on how to calculate the metric
+  # values from the individual sub tasks.
+
+  # - name: leaderboard_ifeval
+  #   metrics:
+  #     - name: inst_level_strict_acc,none
+  #       value: 0.9092
+
+  # - name: leaderboard_bbh
+  #   metrics:
+  #     - name: acc-norm,none
+  #       value: 0.6284
+
+  # TODO: need to identify if this is available
+  # - name: leaderboard_math_v_5
+  #   metrics:
+  #     - name: exact_match,none
+  #       value: 0.0033
+
+  # - name: leaderboard_gpqa
+  #   metrics:
+  #     - name: acc-norm,none
+  #       value: 0.463
+
+  # - name: leaderboard_musr
+  #   metrics:
+  #     - name: acc-norm,none
+  #       value: 0.4396
+
+  # - name: leaderboard_mmlu_pro
+  #   metrics:
+  #     - name: acc,none
+  #       value: 0.515
+
+  # - name: humaneval
+  #   metrics:
+  #     - name: exact_match,none
+  #       value: 0.837
diff --git a/RedHatAI/Llama-3.3-70B-Instruct-quantized.w4a16/accuracy/tasks.yml b/RedHatAI/Llama-3.3-70B-Instruct-quantized.w4a16/accuracy/tasks.yml
@@ -0,0 +1,31 @@
+tasks:
+  - name: arc_challenge
+    metrics:
+      - name: acc_norm,none
+        value: 0.4949
+
+  - name: gsm8k
+    metrics:
+      - name: exact_match,strict-match
+        value: 0.9447
+
+  - name: hellaswag
+    metrics:
+      - name: acc_norm,none
+        value: 0.8597
+
+  - name: mmlu
+    metrics:
+      - name: acc,none
+        value: 0.8062
+
+  - name: truthfulqa_mc2
+    metrics:
+      - name: acc,none
+        value: 0.6166
+
+  # not available in model card as of 20250417
+  # - name: winogrande
+  #   metrics:
+  #     - name: acc,none
+  #       value: 0.8058
diff --git a/RedHatAI/Llama-3.3-70B-Instruct-quantized.w8a8/accuracy/tasks.yml b/RedHatAI/Llama-3.3-70B-Instruct-quantized.w8a8/accuracy/tasks.yml
@@ -0,0 +1,70 @@
+tasks:
+  - name: arc_challenge
+    metrics:
+      - name: acc_norm,none
+        value: 0.4804
+
+  - name: gsm8k
+    metrics:
+      - name: exact_match,strict-match
+        value: 0.9401
+
+  - name: hellaswag
+    metrics:
+      - name: acc_norm,none
+        value: 0.8647
+
+  - name: mmlu
+    metrics:
+      - name: acc,none
+        value: 0.8119
+
+  - name: truthfulqa_mc2
+    metrics:
+      - name: acc,none
+        value: 0.6309
+
+  - name: winogrande
+    metrics:
+      - name: acc,none
+        value: 0.8374
+
+  # following are placeholders for mid-level "leaderboard_*" tasks
+  # (OpenLLM v2) waiting for info on how to calculate the metric
+  # values from the individual sub tasks.
+
+  # - name: leaderboard_ifeval
+  #   metrics:
+  #     - name: inst_level_strict_acc,none
+  #       value: 0.9068
+
+  # - name: leaderboard_bbh
+  #   metrics:
+  #     - name: acc-norm,none
+  #       value: 0.6254
+
+  # TODO: need to identify if this is available
+  # - name: leaderboard_math_v_5
+  #   metrics:
+  #     - name: exact_match,none
+  #       value: 0
+
+  # - name: leaderboard_gpqa
+  #   metrics:
+  #     - name: acc-norm,none
+  #       value: 0.4644
+
+  # - name: leaderboard_musr
+  #   metrics:
+  #     - name: acc-norm,none
+  #       value: 0.4434
+
+  # - name: leaderboard_mmlu_pro
+  #   metrics:
+  #     - name: acc,none
+  #       value: 0.5159
+
+  # - name: humaneval
+  #   metrics:
+  #     - name: exact_match,none
+  #       value: 0.833
diff --git a/meta-llama/Llama-3.3-70B-Instruct/accuracy/tasks.yml b/meta-llama/Llama-3.3-70B-Instruct/accuracy/tasks.yml
@@ -0,0 +1,70 @@
+tasks:
+  - name: arc_challenge
+    metrics:
+      - name: acc_norm,none
+        value: 0.4923
+
+  - name: gsm8k
+    metrics:
+      - name: exact_match,strict-match
+        value: 0.9416
+
+  - name: hellaswag
+    metrics:
+      - name: acc_norm,none
+        value: 0.8649
+
+  - name: mmlu
+    metrics:
+      - name: acc,none
+        value: 0.816
+
+  - name: truthfulqa_mc2
+    metrics:
+      - name: acc,none
+        value: 0.6275
+
+  - name: winogrande
+    metrics:
+      - name: acc,none
+        value: 0.8477
+
+  # following are placeholders for mid-level "leaderboard_*" tasks
+  # (OpenLLM v2) waiting for info on how to calculate the metric
+  # values from the individual sub tasks.
+
+  # - name: leaderboard_ifeval
+  #   metrics:
+  #     - name: inst_level_strict_acc,none
+  #       value: 0.9089
+
+  # - name: leaderboard_bbh
+  #   metrics:
+  #     - name: acc-norm,none
+  #       value: 0.6315
+
+  # TODO: need to identify if this is available
+  # - name: leaderboard_math_v_5
+  #   metrics:
+  #     - name: exact_match,none
+  #       value: 0.0017
+
+  # - name: leaderboard_gpqa
+  #   metrics:
+  #     - name: acc-norm,none
+  #       value: 0.461
+
+  # - name: leaderboard_musr
+  #   metrics:
+  #     - name: acc-norm,none
+  #       value: 0.4435
+
+  # - name: leaderboard_mmlu_pro
+  #   metrics:
+  #     - name: acc,none
+  #       value: 0.5189
+
+  # - name: humaneval
+  #   metrics:
+  #     - name: exact_match,none
+  #       value: 0.832