jmyerston
diff --git a/‎configs/large.cfg‎
Lines changed: 23 additions & 2 deletions b/‎configs/large.cfg‎
Lines changed: 23 additions & 2 deletions
diff --git a/‎configs/lemmatizer_sm.cfg‎
Lines changed: 2 additions & 2 deletions b/‎configs/lemmatizer_sm.cfg‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎configs/lemmatizer_trf.cfg‎
Lines changed: 10 additions & 13 deletions b/‎configs/lemmatizer_trf.cfg‎
Lines changed: 10 additions & 13 deletions
diff --git a/‎configs/lemmatizer_vec.cfg‎
Lines changed: 3 additions & 3 deletions b/‎configs/lemmatizer_vec.cfg‎
Lines changed: 3 additions & 3 deletions
diff --git a/‎configs/senter.cfg‎
Lines changed: 0 additions & 121 deletions b/‎configs/senter.cfg‎
Lines changed: 0 additions & 121 deletions
@@ -11,7 +11,7 @@ seed = 0
 
 [nlp]
 lang = "grc"
-pipeline = ["tok2vec","morphologizer","tagger","parser","lemmatizer","attribute_ruler"]
+pipeline = ["tok2vec","morphologizer","tagger","parser","lemmatizer","ner","attribute_ruler"]
 batch_size = 128
 disabled = []
 before_creation = null
@@ -25,6 +25,27 @@ tokenizer = {"@tokenizers":"spacy.Tokenizer.v1"}
 source = "./training/lemmatizer/large/model-best"
 replace_listeners = ["model.tok2vec"]
 
+[components.ner]
+factory = "ner"
+incorrect_spans_key = null
+moves = null
+scorer = {"@scorers":"spacy.ner_scorer.v1"}
+update_with_oracle_cut_size = 100
+
+[components.ner.model]
+@architectures = "spacy.TransitionBasedParser.v2"
+state_type = "ner"
+extra_state_tokens = false
+hidden_width = 64
+maxout_pieces = 2
+use_upper = true
+nO = null
+
+[components.ner.model.tok2vec]
+@architectures = "spacy.Tok2VecListener.v1"
+width = ${components.tok2vec.model.encode.width}
+upstream = "tok2vec"
+
 [components.attribute_ruler]
 factory = "attribute_ruler"
 scorer = {"@scorers":"spacy.attribute_ruler_scorer.v1"}
@@ -138,7 +159,7 @@ accumulate_gradient = 1
 patience = 5000
 max_epochs = 0
 max_steps = 20000
-eval_frequency = 200
+eval_frequency = 1000
 frozen_components = ["lemmatizer"]
 annotating_components = []
 before_to_disk = null
 
@@ -91,7 +91,7 @@ accumulate_gradient = 1
 patience = 5000
 max_epochs = 0
 max_steps = 20000
-eval_frequency = 200
+eval_frequency = 1000
 frozen_components = []
 annotating_components = []
 before_to_disk = null
@@ -148,4 +148,4 @@ after_init = null
 
 [initialize.components]
 
-[initialize.tokenizer]
+[initialize.tokenizer]
@@ -10,34 +10,35 @@ seed = 0
 
 [nlp]
 lang = "grc"
-pipeline = ["transformer","lemmatizer"]
-batch_size = 32
+pipeline = ["transformer","trainable_lemmatizer"]
+batch_size = 128
 disabled = []
 before_creation = null
 after_creation = null
 after_pipeline_creation = null
 tokenizer = {"@tokenizers":"spacy.Tokenizer.v1"}
+vectors = {"@vectors":"spacy.Vectors.v1"}
 
 [components]
 
-[components.lemmatizer]
+[components.trainable_lemmatizer]
 factory = "trainable_lemmatizer"
 backoff = "orth"
 min_tree_freq = 1
 overwrite = false
 scorer = {"@scorers":"spacy.lemmatizer_scorer.v1"}
 top_k = 5
 
-[components.lemmatizer.model]
+[components.trainable_lemmatizer.model]
 @architectures = "spacy.Tagger.v2"
 nO = null
 normalize = false
 
-[components.lemmatizer.model.tok2vec]
+[components.trainable_lemmatizer.model.tok2vec]
 @architectures = "spacy-transformers.TransformerListener.v1"
 grad_factor = 1.0
 pooling = {"@layers":"reduce_mean.v1"}
-upstream = "transformer"
+upstream = "*"
 
 [components.transformer]
 factory = "transformer"
@@ -46,7 +47,7 @@ set_extra_annotations = {"@annotation_setters":"spacy-transformers.null_annotati
 
 [components.transformer.model]
 @architectures = "spacy-transformers.TransformerModel.v3"
-name = "Jacobo/aristoBERTo"
+name = "wantuta/roberta_ancient_greek_mlm"
 mixed_precision = false
 
 [components.transformer.model.get_spans]
@@ -89,7 +90,7 @@ dropout = 0.1
 patience = 1600
 max_epochs = 0
 max_steps = 20000
-eval_frequency = 200
+eval_frequency = 1000
 frozen_components = []
 annotating_components = []
 before_to_disk = null
@@ -102,10 +103,6 @@ size = 2000
 buffer = 256
 get_length = null
 
-# [training.logger]
-# @loggers = "spacy.ConsoleLogger.v1"
-# progress_bar = false
-
 [training.logger]
 @loggers = "spacy.WandbLogger.v3"
 project_name = "lemmatizer"
@@ -146,4 +143,4 @@ after_init = null
 
 [initialize.components]
 
-[initialize.tokenizer]
+[initialize.tokenizer]
@@ -11,7 +11,7 @@ seed = 0
 [nlp]
 lang = "grc"
 pipeline = ["lemmatizer"]
-batch_size = 64
+batch_size = 32
 disabled = []
 before_creation = null
 after_creation = null
@@ -91,7 +91,7 @@ accumulate_gradient = 1
 patience = 5000
 max_epochs = 0
 max_steps = 20000
-eval_frequency = 200
+eval_frequency = 1000
 frozen_components = []
 annotating_components = []
 before_to_disk = null
@@ -148,4 +148,4 @@ after_init = null
 
 [initialize.components]
 
-[initialize.tokenizer]
+[initialize.tokenizer]