When converting tokens to json, include the morphemes in the output if present. Could also add them to the conllu, perhaps

AngledLuffa · AngledLuffa · commit fd0b3a23b681 · 2026-02-25T12:02:23.000-08:00
diff --git a/stanza/models/common/doc.py b/stanza/models/common/doc.py
@@ -47,13 +47,14 @@ class MWTProcessingType(Enum):
 CONSTITUENCY = 'constituency'
 COREF_CHAINS = 'coref_chains'
 LINE_NUMBER = 'line_number'
+MORPHEMES = 'morphemes'
 
 # field indices when converting the document to conll
 FIELD_TO_IDX = {ID: 0, TEXT: 1, LEMMA: 2, UPOS: 3, XPOS: 4, FEATS: 5, HEAD: 6, DEPREL: 7, DEPS: 8, MISC: 9}
 FIELD_NUM = len(FIELD_TO_IDX)
 
-DEFAULT_OUTPUT_FIELDS = [ID, TEXT, LEMMA, UPOS, XPOS, FEATS, HEAD, DEPREL, DEPS, MISC, START_CHAR, END_CHAR, NER, MULTI_NER, MEXP, COREF_CHAINS]
-NO_OFFSETS_OUTPUT_FIELDS = [ID, TEXT, LEMMA, UPOS, XPOS, FEATS, HEAD, DEPREL, DEPS, MISC, NER, MULTI_NER, MEXP, COREF_CHAINS]
+DEFAULT_OUTPUT_FIELDS = [ID, TEXT, LEMMA, UPOS, XPOS, FEATS, HEAD, DEPREL, DEPS, MISC, START_CHAR, END_CHAR, NER, MULTI_NER, MEXP, COREF_CHAINS, MORPHEMES]
+NO_OFFSETS_OUTPUT_FIELDS = [ID, TEXT, LEMMA, UPOS, XPOS, FEATS, HEAD, DEPREL, DEPS, MISC, NER, MULTI_NER, MEXP, COREF_CHAINS, MORPHEMES]
 
 class DocJSONEncoder(json.JSONEncoder):
     def default(self, obj):