CyberbuildLab
diff --git a/‎data/Ontologies_forRepo.xlsx‎
949 Bytes b/‎data/Ontologies_forRepo.xlsx‎
949 Bytes
diff --git a/‎data/source/ontology_characterisation_v31.ipynb‎
Lines changed: 99 additions & 122 deletions b/‎data/source/ontology_characterisation_v31.ipynb‎
Lines changed: 99 additions & 122 deletions
@@ -6,8 +6,7 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "pip install rdflib\n",
-    "pip install requests"
+    "pip install rdflib"
    ]
   },
   {
@@ -21,14 +20,10 @@
     "from pathlib import Path\n",
     "import json\n",
     "import numpy as np\n",
-    "import re\n",
-    "from collections import Counter\n",
     "from typing import Dict, List, Tuple, Optional\n",
     "from openpyxl import load_workbook\n",
-    "from openpyxl.worksheet.table import Table, TableStyleInfo\n",
     "from rdflib import Graph, Namespace, RDF, RDFS, OWL, Literal, URIRef\n",
-    "from rdflib.namespace import DC, DCTERMS, SKOS\n",
-    "from urllib.parse import urlparse"
+    "from rdflib.namespace import DC, DCTERMS, SKOS"
    ]
   },
   {
@@ -338,7 +333,10 @@
     "        'license': get_value([DCTERMS.license, DC.rights]),\n",
     "        'publisher': get_value([DCTERMS.publisher, DC.publisher]),\n",
     "        'version': get_value([OWL.versionInfo, DCTERMS.hasVersion]),\n",
-    "        'preferred_prefix': get_value([VANN.preferredNamespacePrefix]),\n        'classes_count': sum(1 for _ in g.subjects(RDF.type, OWL.Class)),\n        'data_properties_count': sum(1 for _ in g.subjects(RDF.type, OWL.DatatypeProperty)),\n        'object_properties_count': sum(1 for _ in g.subjects(RDF.type, OWL.ObjectProperty))\n",
+    "        'preferred_prefix': get_value([VANN.preferredNamespacePrefix]),\n",
+    "        'classes_count': sum(1 for _ in g.subjects(RDF.type, OWL.Class)),\n",
+    "        'data_properties_count': sum(1 for _ in g.subjects(RDF.type, OWL.DatatypeProperty)),\n",
+    "        'object_properties_count': sum(1 for _ in g.subjects(RDF.type, OWL.ObjectProperty))\n",
     "    }\n",
     "\n",
     "    return metadata\n",
@@ -624,19 +622,41 @@
     "            'annotation_coverage_percent': None,\n",
     "            'linked_by_manual': linked_by_manual,\n",
     "            'linked_by_auto': None,\n",
-    "            'linked_by_final': None,\n            'linked_by_aeco_auto': [],\n            'linked_by_aeco_final': None,\n",
-    "            'FOOPs_manual': FOOPs_manual,\n            'FOOPs_auto': None,\n            'FOOPs_final': None,\n",
-    "            'conforms_to_standards_manual': conforms_to_standards_manual,\n            'conforms_to_standards_auto': None,\n            'conforms_to_standards_final': None,\n",
-    "            'conceptual_data_model_manual': conceptual_data_model_manual,\n            'conceptual_data_model_auto': None,\n            'conceptual_data_model_final': None,\n",
-    "            'cluster_manual': cluster_manual,\n            'cluster_auto': None,\n            'cluster_final': None,\n",
-    "            'reference_manual': reference_manual,\n            'reference_auto': None,\n            'reference_final': None,\n",
-    "            'primary_domain_manual': primary_domain_manual,\n            'primary_domain_auto': None,\n            'primary_domain_final': None,\n",
-    "            'secondary_domain_manual': secondary_domain_manual,\n            'secondary_domain_auto': None,\n            'secondary_domain_final': None,\n",
-    "            'creator_auto': [],\n            'creator_final': None,\n",
-    "            'publisher_auto': None,\n            'publisher_final': None,\n",
+    "            'linked_by_final': None,\n",
+    "            'linked_by_aeco_auto': [],\n",
+    "            'linked_by_aeco_final': None,\n",
+    "            'FOOPs_manual': FOOPs_manual,\n",
+    "            'FOOPs_auto': None,\n",
+    "            'FOOPs_final': None,\n",
+    "            'conforms_to_standards_manual': conforms_to_standards_manual,\n",
+    "            'conforms_to_standards_auto': None,\n",
+    "            'conforms_to_standards_final': None,\n",
+    "            'conceptual_data_model_manual': conceptual_data_model_manual,\n",
+    "            'conceptual_data_model_auto': None,\n",
+    "            'conceptual_data_model_final': None,\n",
+    "            'cluster_manual': cluster_manual,\n",
+    "            'cluster_auto': None,\n",
+    "            'cluster_final': None,\n",
+    "            'reference_manual': reference_manual,\n",
+    "            'reference_auto': None,\n",
+    "            'reference_final': None,\n",
+    "            'primary_domain_manual': primary_domain_manual,\n",
+    "            'primary_domain_auto': None,\n",
+    "            'primary_domain_final': None,\n",
+    "            'secondary_domain_manual': secondary_domain_manual,\n",
+    "            'secondary_domain_auto': None,\n",
+    "            'secondary_domain_final': None,\n",
+    "            'creator_auto': [],\n",
+    "            'creator_final': None,\n",
+    "            'publisher_auto': None,\n",
+    "            'publisher_final': None,\n",
     "            'referenced_ontologies': [],\n",
-    "            'classes_count_auto': None,\n            'classes_count_final': None,\n",
-    "            'data_properties_count_auto': None,\n            'data_properties_count_final': None,\n            'object_properties_count_auto': None,\n            'object_properties_count_final': None,\n",
+    "            'classes_count_auto': None,\n",
+    "            'classes_count_final': None,\n",
+    "            'data_properties_count_auto': None,\n",
+    "            'data_properties_count_final': None,\n",
+    "            'object_properties_count_auto': None,\n",
+    "            'object_properties_count_final': None,\n",
     "        }\n",
     "\n",
     "        # Normalize yes/no to boolean for _manual fields\n",
@@ -675,7 +695,8 @@
     "                result['publisher_auto'] = metadata['publisher']\n",
     "\n",
     "                result['classes_count_auto'] = metadata['classes_count']\n",
-    "                result['data_properties_count_auto'] = metadata['data_properties_count']\n                result['object_properties_count_auto'] = metadata['object_properties_count']\n",
+    "                result['data_properties_count_auto'] = metadata['data_properties_count']\n",
+    "                result['object_properties_count_auto'] = metadata['object_properties_count']\n",
     "\n",
     "                # Extract annotation coverage\n",
     "                annotation_info = extract_annotation_coverage(ttl_file)\n",
@@ -851,7 +872,8 @@
     "\n",
     "        # Count fields\n",
     "        onto['classes_count_final'] = onto.get('classes_count_auto')\n",
-    "        onto['data_properties_count_final'] = onto.get('data_properties_count_auto')\n        onto['object_properties_count_final'] = onto.get('object_properties_count_auto')\n",
+    "        onto['data_properties_count_final'] = onto.get('data_properties_count_auto')\n",
+    "        onto['object_properties_count_final'] = onto.get('object_properties_count_auto')\n",
     "\n",
     "        # Creator and publisher\n",
     "        onto['creator_final'] = onto.get('creator_auto')\n",
@@ -885,7 +907,8 @@
     "\n",
     "        # Count fields\n",
     "        onto['classes_count_final'] = onto.get('classes_count_auto')\n",
-    "        onto['data_properties_count_final'] = onto.get('data_properties_count_auto')\n        onto['object_properties_count_final'] = onto.get('object_properties_count_auto')\n",
+    "        onto['data_properties_count_final'] = onto.get('data_properties_count_auto')\n",
+    "        onto['object_properties_count_final'] = onto.get('object_properties_count_auto')\n",
     "\n",
     "        # Creator and publisher\n",
     "        onto['creator_final'] = onto.get('creator_auto')\n",
@@ -1152,9 +1175,12 @@
     "    if documentation and documentation == True or str(documentation).lower() in ['yes', 'true']:\n",
     "        quality[0] = 1\n",
     "    \n",
-    "    annotation = onto.get('annotation_final', '')\n",
-    "    if annotation and annotation == True or str(annotation).lower() in ['yes', 'true']:\n",
-    "        quality[1] = 1\n",
+    "    #annotation = onto.get('annotation_final', '')\n",
+    "    #if annotation and annotation == True or str(annotation).lower() in ['yes', 'true']:\n",
+    "    #    quality[1] = 1\n",
+    "    annotation_coverage = onto.get('annotation_coverage_percent', '')\n",
+    "    if annotation_coverage:\n",
+    "        quality[1] = annotation_coverage / 100.0\n",
     "    \n",
     "    onto['score_quality'] = sum(quality)\n"
    ]
@@ -1179,13 +1205,6 @@
     "#write_output_JSON(ontologies, output_json)"
    ]
   },
-  {
-   "cell_type": "markdown",
-   "metadata": {},
-   "source": [
-    "# FOOPs Assessment"
-   ]
-  },
   {
    "cell_type": "code",
    "execution_count": null,
@@ -1199,19 +1218,11 @@
     "    \"Content-Type\": \"application/json;charset=UTF-8\",\n",
     "}\n",
     "\n",
-    "for index, row in df_ontologies.iterrows():\n",
-    "    acronym = row['Acronym']\n",
-    "    uri = row['URI/Namespace']\n",
-    "    name = row['Name']\n",
-    "    licensing = row['Licensing']\n",
+    "def get_foops_score(uri):\n",
     "\n",
-    "    print(f\"acronym: {acronym}:\")\n",
-    "    print(f\"  uri: {uri}; name: {name}; license: {licensing}\")\n",
+    "    foops_score = -1.0\n",
     "\n",
     "    if uri == 'n/a' or pd.isnull(uri):\n",
-    "        auto_uri = \"\"\n",
-    "        auto_name = \"\"\n",
-    "        auto_licensing = \"\"\n",
     "        foops_score = 0.0\n",
     "    else:\n",
     "        try:\n",
@@ -1221,66 +1232,54 @@
     "            print(response)\n",
     "\n",
     "            auto_uri = response['ontology_URI']\n",
-    "            auto_name = response['ontology_title']\n",
-    "            auto_licensing = response['ontology_license']\n",
+    "            auto_title = response['ontology_title']\n",
+    "            #auto_licensing = response['ontology_license']\n",
     "            foops_score = response['overall_score']\n",
-    "            checks = response['checks']\n",
+    "            #checks = response['checks']\n",
     "\n",
     "        except requests.exceptions.HTTPError as e:\n",
     "            print(\"HTTP error:\", e.response.status_code, e.response.text)\n",
-    "            auto_uri, auto_name, auto_licensing, foops_score = \"\", \"\", \"\", 0.0\n",
+    "            auto_uri, auto_title, auto_licensing, foops_score = \"\", \"\", \"\", 0.0\n",
     "\n",
     "        except requests.exceptions.ConnectionError:\n",
     "            print(\"Error: Failed to connect to the server\")\n",
-    "            auto_uri, auto_name, auto_licensing, foops_score = \"\", \"\", \"\", 0.0\n",
+    "            auto_uri, auto_title, auto_licensing, foops_score = \"\", \"\", \"\", 0.0\n",
     "\n",
     "        except requests.exceptions.Timeout:\n",
     "            print(\"Error: Request timed out\")\n",
-    "            auto_uri, auto_name, auto_licensing, foops_score = \"\", \"\", \"\", 0.0\n",
+    "            auto_uri, auto_title, auto_licensing, foops_score = \"\", \"\", \"\", 0.0\n",
     "\n",
     "        except requests.exceptions.RequestException as e:\n",
     "            print(\"Unexpected error:\", str(e))\n",
-    "            auto_uri, auto_name, auto_licensing, foops_score = \"\", \"\", \"\", 0.0\n",
-    "\n",
-    "        print(f\"  auto_uri: {auto_uri}; auto_name: {auto_name}; auto_license: {auto_licensing}; foops_score: {foops_score}\")\n",
-    "\n",
-    "        if auto_name == \"unknown\":\n",
-    "            auto_name = \"\"\n",
-    "            print(f\"  auto_name from FOOPs is empty!\")\n",
-    "        elif auto_name != name:\n",
-    "            print(f\"  Fix name to auto_name: {auto_name}\")\n",
-    "\n",
-    "        if auto_uri == \"unknown\":\n",
-    "            auto_uri = \"\"\n",
-    "            print(f\"  auto_uri from FOOPs is empty!\")\n",
-    "        elif auto_uri != uri:\n",
-    "            print(f\"  Fix uri to auto_uri: {auto_uri}\")\n",
-    "\n",
-    "        if auto_licensing == \"unknown\":\n",
-    "            auto_licensing = \"\"\n",
-    "            print(f\"  auto_licensing from FOOPs is empty!\")\n",
-    "        elif auto_licensing != licensing:\n",
-    "            print(f\"  Fix licensing to auto_licensing: {auto_licensing}\")\n",
-    "\n",
-    "    df_ontologies.loc[index, 'Auto_Name'] = auto_name\n",
-    "    df_ontologies.loc[index, 'Auto_Licensing'] = auto_licensing\n",
-    "    df_ontologies.loc[index, 'FOOPs_Score'] = foops_score"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": null,
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "print(df_ontologies)"
-   ]
-  },
-  {
-   "cell_type": "markdown",
-   "metadata": {},
-   "source": [
-    "# Save Final Output"
+    "            auto_uri, auto_title, auto_licensing, foops_score = \"\", \"\", \"\", 0.0\n",
+    "\n",
+    "        print(f\"  auto_uri: {auto_uri}; auto_title: {auto_title}; foops_score: {foops_score}\")\n",
+    "\n",
+    "    return foops_score\n",
+    "\n",
+    "def process_ontologies_foops(ontologies, debug=False):\n",
+    "\n",
+    "    for index, onto in enumerate(ontologies):\n",
+    "        #if index > 5:\n",
+    "        #    continue\n",
+    "\n",
+    "        prefix = onto['prefix_final']\n",
+    "        uri = onto['uri']\n",
+    "        title = onto['title_final']\n",
+    "\n",
+    "        print(f\"prefix: {prefix}; title: {title}; uri: {uri}\")\n",
+    "        \n",
+    "        foops_score = get_foops_score(uri)\n",
+    "        \n",
+    "        onto['FOOPs_auto'] = foops_score\n",
+    "        if foops_score == -1.0:\n",
+    "            onto['FOOPs_auto'] = None\n",
+    "            onto['FOOPs_final'] = onto['FOOPs_manual']\n",
+    "        else:\n",
+    "            onto['FOOPs_auto'] = foops_score\n",
+    "            onto['FOOPs_final'] = foops_score\n",
+    "    \n",
+    "    return ontologies\n"
    ]
   },
   {
@@ -1289,37 +1288,15 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "file_path_output = \"C:/Users/fbosche/University College London/EC3 - 1. Modelling and Standards - 1. Modelling and Standards/Material/Project D_Ontologies/Scripts/Ontologies_forRepo_2025.11.24_Output.xlsx\"\n",
-    "\n",
-    "# Write DataFrame (without index)\n",
-    "df_ontologies.to_excel(file_path_output, sheet_name=sheet_name, index=False)\n",
-    "\n",
-    "# Open with openpyxl and convert to Table\n",
-    "wb = load_workbook(file_path_output)\n",
-    "ws = wb[sheet_name]\n",
-    "\n",
-    "# Define range (from A1 to last cell)\n",
-    "end_col = ws.max_column\n",
-    "end_row = ws.max_row\n",
-    "end_cell = ws.cell(row=end_row, column=end_col).coordinate\n",
-    "table_ref = f\"A1:{end_cell}\"\n",
-    "\n",
-    "# Create table with style\n",
-    "table = Table(displayName=\"OntologyTable\", ref=table_ref)\n",
-    "style = TableStyleInfo(\n",
-    "    name=\"TableStyleMedium9\",\n",
-    "    showFirstColumn=False,\n",
-    "    showLastColumn=False,\n",
-    "    showRowStripes=True,\n",
-    "    showColumnStripes=False\n",
-    ")\n",
-    "table.tableStyleInfo = style\n",
-    "\n",
-    "# Add table to sheet and save\n",
-    "ws.add_table(table)\n",
-    "wb.save(file_path_output)\n",
-    "\n",
-    "print(f\"Output saved to {file_path_output}\")"
+    "# Process all ontologies (set debug=True to see detailed prefix/URI matching)\n",
+    "ontologies = process_ontologies_foops(ontologies, debug=False)\n",
+    "\n",
+    "# Write outputs\n",
+    "filepath = Path(file_path_ontologies)\n",
+    "output_excel = filepath.parent / \"Ontologies_forRepo.xlsx\"\n",
+    "write_output_EXCEL(ontologies, output_excel)\n",
+    "#output_json = filepath.parent / \"Ontologies_forRepo.json\"\n",
+    "#write_output_JSON(ontologies, output_json)\n"
    ]
   }
  ],
@@ -1344,4 +1321,4 @@
  },
  "nbformat": 4,
  "nbformat_minor": 2
-}
+}