nerdy-tech-com-gitub
diff --git a/‎.github/scripts/spellcheck_conf/wordlist.txt
Lines changed: 7 additions & 0 deletions b/‎.github/scripts/spellcheck_conf/wordlist.txt
Lines changed: 7 additions & 0 deletions
diff --git a/‎tools/benchmarks/README.md
Lines changed: 1 addition & 1 deletion b/‎tools/benchmarks/README.md
Lines changed: 1 addition & 1 deletion
diff --git a/‎tools/benchmarks/llm_eval_harness/README.md
Lines changed: 86 additions & 58 deletions b/‎tools/benchmarks/llm_eval_harness/README.md
Lines changed: 86 additions & 58 deletions
diff --git a/‎tools/benchmarks/llm_eval_harness/eval.py
Lines changed: 0 additions & 229 deletions b/‎tools/benchmarks/llm_eval_harness/eval.py
Lines changed: 0 additions & 229 deletions
@@ -1451,6 +1451,13 @@ openhathi
 sarvam
 subtask
 acc
+BigBench
+IFEval
+MuSR
+Multistep
+multistep
+algorithmically
+asymptote
 Triaging
 matplotlib
 remediations
 
@@ -1,4 +1,4 @@
 # Benchmarks
 
 * inference - a folder contains benchmark scripts that apply a throughput analysis for Llama models inference on various backends including on-prem, cloud and on-device.
-* llm_eval_harness - a folder contains a tool to evaluate fine-tuned Llama models including quantized models focusing on quality.  
+* llm_eval_harness - a folder that introduces `lm-evaluation-harness`, a tool to evaluate Llama models including quantized models focusing on quality. We also included a recipe that calculates Llama 3.1 evaluation metrics Using `lm-evaluation-harness` and instructions that calculate HuggingFace Open LLM Leaderboard v2 metrics.