diff --git a/xdoc/fine_tuning/squad/requirements.txt b/xdoc/fine_tuning/squad/requirements.txt
index b1f9a0285..cdf0fe907 100644
--- a/xdoc/fine_tuning/squad/requirements.txt
+++ b/xdoc/fine_tuning/squad/requirements.txt
@@ -1,6 +1,7 @@
 sklearn
 transformers==4.23.1
-datasets==2.6.1
+datasets
+evaluate
 numpy==1.21.6
 torch
 IPython
\ No newline at end of file
diff --git a/xdoc/fine_tuning/squad/run_squad.py b/xdoc/fine_tuning/squad/run_squad.py
index ee627d7dc..210e155bc 100644
--- a/xdoc/fine_tuning/squad/run_squad.py
+++ b/xdoc/fine_tuning/squad/run_squad.py
@@ -6,7 +6,8 @@
 from typing import Optional
 
 import datasets
-from datasets import load_dataset, load_metric
+from datasets import load_dataset
+import evaluate
 
 import transformers
 from trainer_qa import QuestionAnsweringTrainer
@@ -571,7 +572,7 @@ def post_processing_function(examples, features, predictions, stage="eval"):
         references = [{"id": ex["id"], "answers": ex[answer_column_name]} for ex in examples]
         return EvalPrediction(predictions=formatted_predictions, label_ids=references)
 
-    metric = load_metric("squad_v2" if data_args.version_2_with_negative else "squad")
+    metric = evaluate.load("squad_v2" if data_args.version_2_with_negative else "squad")
 
     def compute_metrics(p: EvalPrediction):
         return metric.compute(predictions=p.predictions, references=p.label_ids)