release v1.3.0 (#9)

JWittmeyer · web-flow · commit d8361a2d7894 · 2022-09-27T15:06:00.000+02:00
Release v1.3.0
diff --git a/submodules/model b/submodules/model
@@ -1 +1 @@
-Subproject commit 3bc9e02d0f4bbee8a81f5a9a6baa3759ba2770c6
+Subproject commit de478fcbdb1ae937eae252add39475f61ffcdd68
diff --git a/submodules/s3 b/submodules/s3
@@ -1 +1 @@
-Subproject commit 471550dab2a8569615a8e6c8cdecebcd8e8272ca
+Subproject commit eb0de358e37d02994fb94b17487abd8df0e3c400
diff --git a/util.py b/util.py
@@ -1,4 +1,4 @@
-import spacy
+import time
 from spacy.language import Language
 from spacy.tokens import DocBin, Doc
 from spacy.vocab import Vocab
@@ -13,10 +13,10 @@
     send_notification_created,
 )
 from submodules.model import (
-    RecordTokenizationTask,
     RecordTokenized,
     RecordAttributeTokenStatistics,
 )
+from submodules.model.enums import AttributeState
 from submodules.model.business_objects import (
     project,
     attribute,
@@ -231,11 +231,25 @@ def create_rats_entries(
             project_id, False, ["rats", "state", str(tokenization_task.state)]
         )
         general.commit()
+        i = 0
+        while initial_count > record.count_tokenized_records(project_id):
+            if i > 9:
+                print("Docbins missing", flush=True)
+                raise Exception("Docbins missing")
+            time.sleep(1)
+            i += 1
         if attribute_id:
             text_attribute = attribute.get(project_id, attribute_id)
             text_attributes = {text_attribute.name: text_attribute.id}
         else:
-            text_attributes = attribute.get_text_attributes(project_id)
+            text_attributes = attribute.get_text_attributes(
+                project_id,
+                state_filter=[
+                    AttributeState.UPLOADED.value,
+                    AttributeState.USABLE.value,
+                    AttributeState.RUNNING.value,
+                ],
+            )
         vocab = get_tokenizer_by_project(project_id).vocab
         record_set = record.get_missing_rats_records(project_id, 100, attribute_id)
         chunk = 0
@@ -350,7 +364,14 @@ def tokenize_record(project_id: str, record_id: str) -> int:
         if record_id not in __prioritized_records[project_id]:
             __prioritized_records[project_id][record_id] = True
 
-        text_attributes = attribute.get_text_attributes(project_id)
+        text_attributes = attribute.get_text_attributes(
+            project_id,
+            state_filter=[
+                AttributeState.UPLOADED.value,
+                AttributeState.USABLE.value,
+                AttributeState.RUNNING.value,
+            ],
+        )
         tokenizer = get_tokenizer_by_project(project_id)
         record_item = record.get(project_id, record_id)
         columns = []