Split hierarchy test

ferag · ferag · commit 9013593ee1d4 · 2024-10-16T11:27:22.000+02:00
diff --git a/plugins/gbif/gbif_data.py b/plugins/gbif/gbif_data.py
@@ -291,7 +291,7 @@ def taxonomic_percentajes(df):
     1. Calcula el total de ocurrencias en el DataFrame.
     2. Calcula el porcentaje de géneros que están presentes en el catálogo de vida (Species2000).
     3. Calcula el porcentaje de especies presentes en el DataFrame.
-    4. Calcula el porcentaje de calidad para la jerarquía taxonómica.
+    4. Calcula el porcentaje de calidad para la jerarquía taxonómica en tres partes: reuino, clase/orden y familia
     5. Calcula el porcentaje de identificadores disponibles en el DataFrame.
     6. Calcula el porcentaje total de calidad taxonómica combinando los porcentajes ponderados.
     7. Imprime el resultado del porcentaje total de calidad taxonómica.
@@ -330,22 +330,56 @@ def taxonomic_percentajes(df):
         logger.debug(f"ERROR specificEpithet - {e}")
         percentaje_species = 0
 
+    # Porcentaje de calidad para el reino
+    try:
+        percentaje_kingdom = (
+            df.value_counts(
+                subset=["kingdom"],
+                dropna=False,
+            )
+            .reset_index(name="N")
+            .apply(kingdom_weights, axis=1)
+            .sum()
+            / total_data
+            * 100
+        )
+    except Exception as e:
+        logger.debug(f"ERROR kingdom - {e}")
+        percentaje_kingdom = 0
+
+    # Porcentaje de calidad para la jerarquía taxonómica
+    try:
+        percentaje_class_order = (
+            df.value_counts(
+                subset=["class", "order"],
+                dropna=False,
+            )
+            .reset_index(name="N")
+            .apply(class_order_weights, axis=1)
+            .sum()
+            / total_data
+            * 100
+        )
+    except Exception as e:
+        logger.debug(f"ERROR class_order - {e}")
+        percentaje_class_order = 0
+
     # Porcentaje de calidad para la jerarquía taxonómica
     try:
-        percentaje_hierarchy = (
+        percentaje_family = (
             df.value_counts(
-                subset=["higherClassification", "kingdom", "class", "order", "family"],
+                subset=["family"],
                 dropna=False,
             )
             .reset_index(name="N")
-            .apply(hierarchy_weights, axis=1)
+            .apply(family_weights, axis=1)
             .sum()
             / total_data
             * 100
         )
     except Exception as e:
-        logger.debug(f"ERROR hierarchy - {e}")
-        percentaje_hierarchy = 0
+        logger.debug(f"ERROR family - {e}")
+        percentaje_family = 0
 
     # Porcentaje de identificadores disponibles en el DataFrame
     try:
@@ -358,15 +392,19 @@ def taxonomic_percentajes(df):
     percentaje_taxonomic = (
         0.2 * percentaje_genus
         + 0.1 * percentaje_species
-        + 0.09 * percentaje_hierarchy
+        + 0.03 * percentaje_kingdom
+        + 0.03 * percentaje_class_order
+        + 0.03 * percentaje_family
         + 0.06 * percentaje_identifiers
     )
 
     return {
         "Taxonomic": percentaje_taxonomic,
         "Genus": 0.2 * percentaje_genus,
         "Species": 0.1 * percentaje_species,
-        "Hierarchy": 0.09 * percentaje_hierarchy,
+        "Kingdom": 0.03 * percentaje_kingdom,
+        "Class/Order": 0.03 * percentaje_class_order,
+        "Family": 0.03 * percentaje_family,
         "Identifiers": 0.06 * percentaje_identifiers,
     }
 
@@ -629,6 +667,24 @@ def hierarchy_weights(row):
     )
 
 
+def kingdom_weights(row):
+    """Returns N for each not empty sublevel (kingdom)."""
+    N = row.N
+    return N if pd.notnull(row.kingdom) else 0
+
+
+def class_order_weights(row):
+    """Returns N for each not empty sublevel (class/order)."""
+    N = row.N
+    return N if pd.notnull(row["class"]) or pd.notnull(row.order) else 0
+
+
+def family_weights(row):
+    """Returns N for each not empty sublevel (family)."""
+    N = row.N
+    return N if pd.notnull(row.family) else 0
+
+
 def is_valid_country_code(row):
     """If the countryCode column from the row is valid, return the column N. Otherwise
     return 0.
diff --git a/plugins/gbif/plugin.py b/plugins/gbif/plugin.py
@@ -39,7 +39,7 @@ class Plugin(Evaluator):
     def __init__(self, item_id, oai_base=None, lang="en", config=None):
         logger.debug("Creating GBIF")
         plugin = "gbif"
-        super().__init__(item_id, oai_base, lang, plugin)
+        super().__init__(item_id, oai_base, lang, plugin, config)
         # TO REDEFINE - WHICH IS YOUR PID TYPE?
         self.id_type = idutils.detect_identifier_schemes(item_id)[0]
         print("Gbif")
@@ -262,8 +262,16 @@ def data_01(self):
                 <td bgcolor={self.get_color(ica["Species"])}> {ica["Species"]:.2f}% </td>
             </tr>
             <tr>
-                <td bgcolor="#D5D5D5"> Hierarchy </td>
-                <td bgcolor={self.get_color(ica["Hierarchy"])}> {ica["Hierarchy"]:.2f}% </td>
+                <td bgcolor="#D5D5D5"> Kingdom </td>
+                <td bgcolor={self.get_color(ica["Kingdom"])}> {ica["Kingdom"]:.2f}% </td>
+            </tr>
+            <tr>
+                <td bgcolor="#D5D5D5"> Class/Order </td>
+                <td bgcolor={self.get_color(ica["Class/Order"])}> {ica["Class/Order"]:.2f}% </td>
+            </tr>
+            <tr>
+                <td bgcolor="#D5D5D5"> Family </td>
+                <td bgcolor={self.get_color(ica["Family"])}> {ica["Family"]:.2f}% </td>
             </tr>
             <tr>
                 <td bgcolor="#D5D5D5"> Identifiers </td>
@@ -288,7 +296,7 @@ def data_01(self):
             </tr>
             <tr>
                 <td bgcolor="#D5D5D5"> IncorrectCoordinates </td>
-                <td bgcolor="{self.get_color(ica["IncorrectCoordinates"])}"> -{ica["IncorrectCoordinates"]:.2f}% </td>
+                <td bgcolor="{self.get_color(ica["IncorrectCoordinates"])}"> {ica["IncorrectCoordinates"]:.2f}% </td>
             </tr>
 
             <tr>
@@ -309,7 +317,7 @@ def data_01(self):
             </tr>
             <tr>
                 <td bgcolor="#D5D5D5"> IncorrectDates </td>
-                <td bgcolor="{self.get_color(ica["IncorrectDates"])}"> -{ica["IncorrectDates"]:.2f}% </td>
+                <td bgcolor="{self.get_color(ica["IncorrectDates"])}"> {ica["IncorrectDates"]:.2f}% </td>
             </tr>
         </table>
         """