Add independent proposal

Marcin Kardas · Marcin Kardas · commit 0a6ff72c35b7 · 2020-02-19T10:25:25.000Z
Add a proposal with the best task, dataset and metric being choosen
independently.
diff --git a/sota_extractor2/data/elastic.py b/sota_extractor2/data/elastic.py
@@ -354,18 +354,17 @@ def display_fragment(f, cell_type="", display=True):
     return html
 
 
-def get_evidences_for_taxonomy(paper_id, task, dataset, metric, value):
+def query_for_evidences(paper_id, values, topk=5):
     evidence_query = Fragment.search().highlight(
         'text', pre_tags="<b>", post_tags="</b>", fragment_size=50)
 
-    values = [task, dataset, metric, value]
     query = {
         "query": ' '.join(values)
     }
 
     fragments = list(evidence_query
                      .filter('term', paper_id=paper_id)
-                     .query('match', text=query)[:5]
+                     .query('match', text=query)[:topk]
                      )
 
     return '\n'.join([' '.join(f.meta['highlight']['text']) for f in fragments])
diff --git a/sota_extractor2/models/linking/context_search.py b/sota_extractor2/models/linking/context_search.py
@@ -180,7 +180,7 @@ def __init__(self, taxonomy, evidence_finder, context_noise=(0.5, 0.1, 0.2, 0.2,
         self.reverse_metrics_p = self._numba_update_nested_dict(reverse_probs(metrics_p))
         self.reverse_tasks_p = self._numba_update_nested_dict(reverse_probs(tasks_p))
         self.debug_gold_df = debug_gold_df
-        self.max_repetitions = 1
+        self.max_repetitions = 3
 
     def _numba_update_nested_dict(self, nested):
         d = typed.Dict()
@@ -292,6 +292,16 @@ def __call__(self, query, paper_context, abstract_context, table_context, captio
                 entry.update({"evidence": "", "confidence": prob})
                 entries.append(entry)
 
+            best_independent = dict(
+                task=top_results_t[0][0],
+                dataset=top_results_d[0][0],
+                metric=top_results_m[0][0])
+            best_independent.update({
+                "evidence": "",
+                "confidence": 0.79
+            })
+            entries.append(best_independent)
+
             # entries = []
             # for i in range(5):
             #     best_independent = dict(
@@ -310,7 +320,7 @@ def __call__(self, query, paper_context, abstract_context, table_context, captio
             # p = pd.DataFrame({k:[v] for k, v in entry.items()})
             # p["evidence"] = ""
             # p["confidence"] = best_p
-            p = pd.DataFrame(entries)
+            p = pd.DataFrame(entries).sort_values("confidence", ascending=False)
 
             self.queries[key] = p
 
diff --git a/sota_extractor2/models/linking/manual_dicts.py b/sota_extractor2/models/linking/manual_dicts.py
@@ -15,7 +15,7 @@
     'Word Accuracy': ['accuracy', 'word accuracy', 'acc', 'word acc'],
     'ROUGE-1': ['r1'],
     'ROUGE-2': ['r2'],
-    'ROUGE-F': ['rf'],
+    'ROUGE-L': ['rl'],
     'Precision': ['precision'],
     'Recall': ['recall'],
     # RAIN REMOVAL