Style tables

mkardas · mkardas · commit ff48090a1b8b · 2019-08-07T18:40:44.000+02:00
* match annotations with or without axriv version
* display table and text styles in jupyter
* update inline stylesheet
diff --git a/sota_extractor2/config.py b/sota_extractor2/config.py
@@ -10,7 +10,7 @@
 
 # otherwise use this files
 data = Path("/mnt/efs/pwc/data")
-goldtags_dump = data / "dumps" / "goldtags-2019.07.31_1454-htlatex-latexml.json.gz"
+goldtags_dump = data / "dumps" / "goldtags-2019.08.06_0835.json.gz"
 
 
 elastic = dict(hosts=['localhost'], timeout=20)
diff --git a/sota_extractor2/data/paper_collection.py b/sota_extractor2/data/paper_collection.py
@@ -44,7 +44,8 @@ def _load_tables(path, annotations, jobs, migrate):
 
 def _load_annotated_papers(path):
     dump = load_gql_dump(path, compressed=path.suffix == ".gz")["allPapers"]
-    annotations = {a.arxiv_id: a for a in dump}
+    annotations = {remove_arxiv_version(a.arxiv_id): a for a in dump}
+    annotations.update({a.arxiv_id: a for a in dump})
     return annotations
 
 
diff --git a/sota_extractor2/data/table.py b/sota_extractor2/data/table.py
@@ -36,8 +36,22 @@ def extract_references(s):
     return text, refs
 
 
+style_tags_re = re.compile(r"</?(bold|italic|red|green|blue)>")
+def remove_text_styles(s):
+    return style_tags_re.sub("", s)
+
+
+reference_id_re = re.compile(r"<ref id='([^']*)'>")
+def raw_value_to_html(s):
+    s = style_tags_re.sub(lambda x: "</span>" if x[0].startswith("</") else f'<span class="text-{x[1]}">', s)
+    s = s.replace("</ref>", "</a>")
+    s = reference_id_re.sub(r'<a title="\1">', s)
+    return s
+
+
 def str2cell(s):
     value, refs = extract_references(s)
+    value = remove_text_styles(value)
     return Cell(value=value, raw_value=s, refs=refs)
 
 def read_str_csv(filename):
@@ -122,7 +136,7 @@ def from_file(cls, path, metadata, annotations=None, migrate=False, match_name=N
         return cls(metadata['filename'], df, layout, metadata.get('caption'), metadata.get('figure_id'), table_ann, migrate, match_name, guessed_tags)
 
     def display(self):
-        display_table(self.df.applymap(lambda x: x.value).values, self.df.applymap(lambda x: x.gold_tags).values)
+        display_table(self.df.applymap(lambda x: raw_value_to_html(x.raw_value)).values, self.df.applymap(lambda x: x.gold_tags).values, self.df.applymap(lambda x:x.layout).values)
 
 #####
 # this code is used to migrate table annotations from
diff --git a/sota_extractor2/helpers/jupyter.py b/sota_extractor2/helpers/jupyter.py
@@ -13,7 +13,7 @@ def display_html(s): return display(HTML(s))
 
 
 
-def display_table(table, structure=None):
+def display_table(table, structure=None, layout=None):
     """
         matrix - 2d ndarray with cell values
         strucutre - 2d ndarray with structure annotation
@@ -23,14 +23,15 @@ def display_table(table, structure=None):
     else:
         matrix = table
     if structure is None: structure = table.matrix_gold_tags
+    if layout is None: layout = np.zeros_like(matrix, dtype=str)
     html = []
     html.append(table_style)
     html.append('<div class="tableWrapper">')
     html.append("<table>")
-    for row,struc_row in zip(matrix, structure):
+    for row,struc_row, layout_row in zip(matrix, structure, layout):
         html.append("<tr>")
-        for cell,struct in zip(row,struc_row):
-            html.append(f'<td class="{struct}">{cell}</td>')
+        for cell,struct,layout in zip(row,struc_row,layout_row):
+            html.append(f'<td class="{struct} {layout}">{cell}</td>')
         html.append("</tr>")
     html.append("</table>")
     html.append('</div>')
diff --git a/sota_extractor2/helpers/table_style.py b/sota_extractor2/helpers/table_style.py
@@ -1,3 +1,4 @@
-table_style="""<style>body{margin:0;padding:0;font-family:-apple-system,BlinkMacSystemFont,Segoe UI,Roboto,Oxygen,Ubuntu,Cantarell,Fira Sans,Droid Sans,Helvetica Neue,sans-serif;-webkit-font-smoothing:antialiased;-moz-osx-font-smoothing:grayscale}code{font-family:source-code-pro,Menlo,Monaco,Consolas,Courier New,monospace}.tableWrapper{-overflow:auto}.tableWrapper .model-params{background-color:#209cee;color:rgba(0,0,0,.7)}.tableWrapper .table-meta{background-color:#fff3c5;color:rgba(0,0,0,.7)}.tableWrapper .model-best{background-color:#ff3860;color:rgba(0,0,0,.7)}.tableWrapper .model-competing{background-color:#ffdd57;color:rgba(0,0,0,.7)}.tableWrapper .model-paper{background-color:#ff3860;color:#fff}.tableWrapper .dataset-sub{background-color:#23d160;color:#fff}.tableWrapper .dataset-metric{background-color:#209cee;color:#fff}.tableWrapper .dataset{background-color:#02bd43;color:#fff}.tableWrapper .trash{background-color:#363636;color:#f5f5f5}.tableWrapper .wtf{background-color:#f0f;color:#f5f5f5}.tableWrapper .dataset-task{background-color:#77ecdd;color:rgba(0,0,0,.7)}.tableWrapper .dataset-paper{background-color:#e4ffee;color:rgba(0,0,0,.7)}.tableWrapper td.focused-cell{outline:2px solid #9ecaed;border-radius:7px;box-shadow:0 0 10px #9ecaed}div.form-group>input.form-control.input-sm{border-radius:2px;font-size:.75rem;background-color:#fff;color:#363636;box-shadow:inset 0 1px 2px rgba(10,10,10,.1);max-width:100%;width:100%;height:2.25em;padding:calc(.375em - 1px) calc(.625em - 1px);position:relative;border:1px solid #b5b5b5}div.form-group>input.form-control.input-sm:focus{border-color:#3273dc;box-shadow:0 0 0 .125em rgba(50,115,220,.25)}
+table_style="""<style>
+body{margin:0;padding:0;font-family:-apple-system,BlinkMacSystemFont,Segoe UI,Roboto,Oxygen,Ubuntu,Cantarell,Fira Sans,Droid Sans,Helvetica Neue,sans-serif;-webkit-font-smoothing:antialiased;-moz-osx-font-smoothing:grayscale}code{font-family:source-code-pro,Menlo,Monaco,Consolas,Courier New,monospace}.tableWrapper{-overflow:auto}.tableWrapper .has-annotations{color:#ff3860}.tableWrapper .model-params{background-color:#209cee;color:rgba(0,0,0,.7)}.tableWrapper .table-meta{background-color:#fff3c5;color:rgba(0,0,0,.7)}.tableWrapper .model-best{background-color:#ff3860;color:rgba(0,0,0,.7)}.tableWrapper .model-competing{background-color:#ffdd57;color:rgba(0,0,0,.7)}.tableWrapper .model-paper{background-color:#ff3860;color:#fff}.tableWrapper .dataset-sub{background-color:#23d160;color:#fff}.tableWrapper .dataset-metric{background-color:#209cee;color:#fff}.tableWrapper .dataset{background-color:#02bd43;color:#fff}.tableWrapper .trash{background-color:#363636;color:#f5f5f5}.tableWrapper .wtf{background-color:#f0f;color:#f5f5f5}.tableWrapper .dataset-task{background-color:#77ecdd;color:rgba(0,0,0,.7)}.tableWrapper .dataset-paper{background-color:#e4ffee;color:rgba(0,0,0,.7)}.tableWrapper td.focused-cell{outline:2px solid #9ecaed;border-radius:7px;box-shadow:0 0 10px #9ecaed}.tableWrapper span.text-bold{font-weight:700}.tableWrapper span.text-italic{font-style:italic}.tableWrapper span.text-red{color:red}.tableWrapper span.text-green{color:green}.tableWrapper span.text-blue{color:#00f}.predict-dataset,.predict-dataset-metric,.predict-model-competing,.predict-model-paper,.predict-model-params,.predict-table-meta{outline:2px solid #9ecaed;border-radius:7px;box-shadow:0 0 10px #9ecaed}.tableWrapper .predict-model-params{background-color:#209cee;color:rgba(0,0,0,.7)}.tableWrapper .predict-table-meta{background-color:#fff3c5;color:rgba(0,0,0,.7)}.tableWrapper .predict-model-competing{background-color:#ffdd57;color:rgba(0,0,0,.7)}.tableWrapper .predict-model-paper{background-color:#ff3860;color:#fff}.tableWrapper .predict-dataset-metric{background-color:#209cee;color:#fff}.tableWrapper .predict-dataset{background-color:#02bd43;color:#fff}.tableWrapper td{border:inherit}.tableWrapper table tr td.border-l{border-left:1px solid #000}.tableWrapper table tr td.border-r{border-right:1px solid #000}.tableWrapper table tr td.border-t{border-top:1px solid #000}.tableWrapper table tr td.border-b{border-bottom:1px solid #000}.tableWrapper table tr td.border-ll{border-left:2px solid #000}.tableWrapper table tr td.border-rr{border-right:2px solid #000}.tableWrapper table tr td.border-tt{border-top:2px solid #000}.tableWrapper table tr td.border-bb{border-bottom:2px solid #000}.tableWrapper table tr td.align-left{text-align:left}.tableWrapper table tr td.align-right{text-align:right}.tableWrapper table tr td.align-center{text-align:center}.tableWrapper table tr td.align-justify{text-align:justify}div.form-group>input.form-control.input-sm{border-radius:2px;font-size:.75rem;background-color:#fff;color:#363636;box-shadow:inset 0 1px 2px rgba(10,10,10,.1);max-width:100%;width:100%;height:2.25em;padding:calc(.375em - 1px) calc(.625em - 1px);position:relative;border:1px solid #b5b5b5}div.form-group>input.form-control.input-sm:focus{border-color:#3273dc;box-shadow:0 0 0 .125em rgba(50,115,220,.25)}.ht_clone_top{z-index:20}.evaluation-tables{overflow:scroll;max-height:20vh;border-top:1px solid #a9a9a9}.navbar.is-fixed-bottom,.navbar.is-fixed-top{z-index:200}body{padding-bottom:20vh}
 </style>
 """
diff --git a/sota_extractor2/models/structure/experiment.py b/sota_extractor2/models/structure/experiment.py
@@ -17,7 +17,7 @@ class Labels(Enum):
     PAPER_MODEL=2
     COMPETING_MODEL=3
     METRIC=4
-    PARAMS=5
+#    PARAMS=5
 
 label_map = {
     "dataset": Labels.DATASET.value,
@@ -26,7 +26,7 @@ class Labels(Enum):
     "model-best": Labels.PAPER_MODEL.value,
     "model-competing": Labels.COMPETING_MODEL.value,
     "dataset-metric": Labels.METRIC.value,
-    "model-params": Labels.PARAMS.value
+#    "model-params": Labels.PARAMS.value
 }
 
 # put here to avoid recompiling, used only in _limit_context
@@ -252,7 +252,7 @@ def _plot_confusion_matrix(self, cm, normalize, fmt=None):
             cm = cm / cm.sum(axis=1)[:, None]
         if fmt is None:
             fmt = "0.2f" if normalize else "d"
-        target_names = ["OTHER", "DATASET", "MODEL (paper)", "MODEL (comp.)", "METRIC", "PARAMS"]
+        target_names = ["OTHER", "DATASET", "MODEL (paper)", "MODEL (comp.)", "METRIC"] #, "PARAMS"]
         df_cm = pd.DataFrame(cm, index=[i for i in target_names],
                              columns=[i for i in target_names])
         plt.figure(figsize=(10, 10))