Update (very old) notebook to v2

mart-r · mart-r · commit 6587f43bd7be · 2025-08-20T14:05:23.000+01:00
diff --git a/medcat-trainer/notebook_docs/Train_MedCAT_Models.ipynb b/medcat-trainer/notebook_docs/Train_MedCAT_Models.ipynb
@@ -186,7 +186,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 2,
+   "execution_count": null,
    "metadata": {
     "ExecuteTime": {
      "end_time": "2020-09-08T11:27:34.270631Z",
@@ -195,9 +195,11 @@
    },
    "outputs": [],
    "source": [
+    "import json\n",
+    "\n",
     "from medcat.cat import CAT\n",
     "from medcat.cdb import CDB\n",
-    "from medcat.utils.vocab import Vocab"
+    "from medcat.vocab import Vocab"
    ]
   },
   {
@@ -310,7 +312,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 5,
+   "execution_count": null,
    "metadata": {
     "ExecuteTime": {
      "end_time": "2020-09-08T11:27:59.782731Z",
@@ -319,16 +321,14 @@
    },
    "outputs": [],
    "source": [
-    "cdb = CDB()\n",
-    "cdb.load_dict(cdb_path)\n",
-    "vocab = Vocab()\n",
-    "vocab.load_dict(vocab_path)\n",
+    "cdb = CDB.load(cdb_path)\n",
+    "vocab = Vocab.load(vocab_path)\n",
     "cat = CAT(cdb, vocab)"
    ]
   },
   {
    "cell_type": "code",
-   "execution_count": 10,
+   "execution_count": null,
    "metadata": {
     "ExecuteTime": {
      "end_time": "2020-09-08T11:37:38.546552Z",
@@ -1383,12 +1383,13 @@
     }
    ],
    "source": [
-    "cat.train_supervised(data_path=\"example_data/MedCAT_Export_With_Text_2020-05-22_10_34_09.json\",\n",
-    "                     nepochs=1,\n",
-    "                     lr=0.1,\n",
-    "                     anneal=False, # Unless we are reseting the CDB or cui_count this is False\n",
-    "                     print_stats=True,\n",
-    "                     use_filters=True)"
+    "with open(\"example_data/MedCAT_Export_With_Text_2020-05-22_10_34_09.json\") as f:\n",
+    "    data = json.load(f)\n",
+    "cat.trainer.train_supervised_raw(\n",
+    "    data=data,\n",
+    "    nepochs=1,\n",
+    "    print_stats=True,\n",
+    "    use_filters=True)"
    ]
   },
   {
@@ -1402,7 +1403,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 50,
+   "execution_count": null,
    "metadata": {
     "ExecuteTime": {
      "end_time": "2020-09-08T15:04:02.394607Z",
@@ -1411,14 +1412,14 @@
    },
    "outputs": [],
    "source": [
-    "from medcat.meta_cat import MetaCAT\n",
+    "from medcat.components.addons.meta_cat import MetaCAT\n",
     "from tokenizers import ByteLevelBPETokenizer\n",
     "from itertools import chain"
    ]
   },
   {
    "cell_type": "code",
-   "execution_count": 18,
+   "execution_count": null,
    "metadata": {
     "ExecuteTime": {
      "end_time": "2020-09-08T14:46:39.070589Z",
@@ -1427,6 +1428,7 @@
    },
    "outputs": [],
    "source": [
+    "import numpy as np\n",
     "# Tokenizer instantiation\n",
     "tokenizer = ByteLevelBPETokenizer(vocab_file='data/medmen-vocab.json', merges_file='data/medmen-merges.txt')\n",
     "embeddings = np.load(open('data/embeddings.npy', 'rb'))"