Add BLANC

Aethor · Aethor · commit 76a12a09bae7 · 2024-03-13T23:04:47.000+01:00
diff --git a/tests/test_score.py b/tests/test_score.py
@@ -7,6 +7,8 @@
 from tests.strategies import coref_docs
 from more_itertools import flatten
 
+from tibert.score import score_blanc
+
 
 @given(docs=st.lists(coref_docs(min_size=1, max_size=32), min_size=1, max_size=3))
 def test_mention_score_perfect_when_same_docs(docs: List[CoreferenceDocument]):
@@ -46,100 +48,106 @@ def test_lea_canonical_examples(
 @pytest.mark.parametrize(
     "pred,ref,expected",
     [
-        ([["m1"]], [["m1"]], (1.0, 1.0, 1.0)),
+        ([[0]], [[0]], (1.0, 1.0, 1.0)),
         (
             [
-                ["m1"],
-                ["m2"],
-                ["m3"],
-                ["m4, m6"],
-                ["m5", "m12"],
-                ["m7", "m9", "m14"],
-                ["m8"],
-                ["m10"],
-                ["m11"],
-                ["m13"],
+                [0],
+                [1],
+                [2],
+                [3, 5],
+                [4, 11],
+                [6, 8, 13],
+                [7],
+                [9],
+                [10],
+                [12],
             ],
             [
-                ["m1"],
-                ["m2"],
-                ["m3"],
-                ["m4"],
-                ["m5", "m12", "m14"],
-                ["m6"],
-                ["m7", "m9"],
-                ["m8"],
-                ["m10"],
-                ["m11"],
-                ["m13"],
+                [0],
+                [1],
+                [2],
+                [3],
+                [4, 11, 13],
+                [5],
+                [6, 8],
+                [7],
+                [9],
+                [10],
+                [12],
             ],
             ("*", "*", 0.7078),
         ),
         (
             [
-                ["0"],
-                ["1"],
-                ["2"],
-                ["3"],
-                ["4"],
-                ["5"],
-                ["6"],
-                ["7"],
-                ["8"],
-                ["9"],
-                ["10"],
-                ["11"],
-                ["12"],
-                ["13"],
-                ["14"],
-                ["15"],
-                ["16"],
-                ["17"],
-                ["18"],
+                [0],
+                [1],
+                [2],
+                [3],
+                [4],
+                [5],
+                [6],
+                [7],
+                [8],
+                [9],
+                [10],
+                [11],
+                [12],
+                [13],
+                [14],
+                [15],
+                [16],
+                [17],
+                [18],
             ],
             [
-                ["0"],
-                ["1"],
-                ["2"],
-                ["3"],
-                ["4"],
-                ["5"],
-                ["6"],
-                ["7"],
-                ["8"],
-                ["9"],
-                ["10"],
-                ["11"],
-                ["12"],
-                ["13"],
-                ["14"],
-                ["15"],
-                ["16"],
-                ["17", "18"],
+                [0],
+                [1],
+                [2],
+                [3],
+                [4],
+                [5],
+                [6],
+                [7],
+                [8],
+                [9],
+                [10],
+                [11],
+                [12],
+                [13],
+                [14],
+                [15],
+                [16],
+                [17, 18],
             ],
-            ("*", "*", "0.4984"),
+            ("*", "*", 0.4984),
         ),
     ],
 )
 def test_blanc_canonical_examples(
-    pred: List[List[str]],
-    ref: List[List[str]],
+    pred: List[List[int]],
+    ref: List[List[int]],
     expected: Tuple[
         Union[float, Literal["*"]],
         Union[float, Literal["*"]],
         Union[float, Literal["*"]],
     ],
 ):
     pred_doc = CoreferenceDocument(
-        list(flatten(pred)),
-        [[Mention([mention], 0, 0) for mention in chain] for chain in pred],
+        [str(m) for m in flatten(pred)],
+        [
+            [Mention([str(mention)], mention, mention + 1) for mention in chain]
+            for chain in pred
+        ],
     )
     ref_doc = CoreferenceDocument(
-        list(flatten(ref)),
-        [[Mention([mention], 0, 0) for mention in chain] for chain in ref],
+        [str(m) for m in flatten(ref)],
+        [
+            [Mention([str(mention)], mention, mention + 1) for mention in chain]
+            for chain in ref
+        ],
     )
 
-    precision, recall, f1 = score_lea([pred_doc], [ref_doc])
+    precision, recall, f1 = score_blanc([pred_doc], [ref_doc])
     assert expected[0] == "*" or precision == pytest.approx(expected[0], rel=1e-2)
     assert expected[1] == "*" or recall == pytest.approx(expected[1], rel=1e-2)
     assert expected[2] == "*" or f1 == pytest.approx(expected[2], rel=1e-2)
diff --git a/tibert/score.py b/tibert/score.py
@@ -191,29 +191,41 @@ def score_blanc(
     assert len(preds) > 0
     assert len(preds) == len(refs)
 
-    precisions, recalls, f1s = [], [], []
+    prf = []
 
     for pred, ref in zip(preds, refs):
+        if pred.coref_chains == ref.coref_chains:
+            prf.append((1, 1, 1))
+            continue
+
         max_span_size = _max_span_size(pred, ref)
         neleval_pred = _coref_doc_to_neleval_format(pred, max_span_size + 1)
         neleval_ref = _coref_doc_to_neleval_format(ref, max_span_size + 1)
 
         p_num, p_den, r_num, r_den = pairwise(neleval_ref, neleval_pred)
         np_num, np_den, nr_num, nr_den = pairwise_negative(neleval_ref, neleval_pred)
 
-        P_c = p_num / p_den
-        P_n = np_num / np_den
-        precisions.append((P_c + P_n) / 2.0)
+        # pred_has_one_entity = len(pred.coref_chains) == 1
+        # pred_has_only_singletons = all([len(chain) == 1 for chain in pred.coref_chains])
+        # ref_has_one_entity = len(ref.coref_chains) == 1
+        # ref_has_only_singletons = all([len(chain) == 1 for chain in ref.coref_chains])
 
-        R_c = r_num / r_den
-        R_n = nr_num / nr_den
-        recalls.append((R_c + R_n) / 2.0)
+        P_c = 0 if p_den == 0 else p_num / p_den
+        P_n = 0 if np_den == 0 else np_num / np_den
 
-        F_c = (2 * P_c * R_c) / (P_c + R_c)
-        F_n = (2 * P_n * R_n) / (P_n + R_n)
-        f1s.append((F_c + F_n) / 2.0)
+        R_c = 0 if r_den == 0 else r_num / r_den
+        R_n = 0 if nr_den == 0 else nr_num / nr_den
 
-    return mean(precisions), mean(recalls), mean(f1s)
+        F_c = 0 if P_c + R_c == 0 else (2 * P_c * R_c) / (P_c + R_c)
+        F_n = 0 if P_n + R_n == 0 else (2 * P_n * R_n) / (P_n + R_n)
+
+        prf.append(((P_c + P_n) / 2.0, (R_c + R_n) / 2.0, (F_c + F_n) / 2.0))
+
+    return (
+        mean([m[0] for m in prf]),
+        mean([m[1] for m in prf]),
+        mean([m[2] for m in prf]),
+    )
 
 
 def score_lea(
@@ -251,7 +263,6 @@ def lea_res_score(entity: List[Mention], entities: List[List[Mention]]) -> float
     precisions, recalls, f1s = [], [], []
 
     for pred, ref in zip(preds, refs):
-
         precision_num = 0
         precision_den = 0
         for pred_chain in pred.coref_chains:
@@ -352,7 +363,6 @@ def score_mention_detection(
     f1_l = []
 
     for pred, ref in zip(preds, refs):
-
         pred_mentions = doc_mentions(pred)
         ref_mentions = doc_mentions(ref)