Rename self.transition_merge_hidden_dim -> self.merge_words_output_dim Will make other variable names easier to choose for similar dimensions

AngledLuffa · AngledLuffa · commit 8d575cb83e65 · 2026-02-26T22:03:37.000-08:00
diff --git a/stanza/models/depparse/transition/model.py b/stanza/models/depparse/transition/model.py
@@ -123,8 +123,8 @@ def __init__(self, args, vocab, emb_matrix=None, foundation_cache=None, bert_mod
                                                 self.nonlinearity,
                                                 self.drop,
                                                 nn.Linear(self.word_hidden_dim, self.word_hidden_dim))
-        self.transition_merge_hidden_dim = self.args['transition_merge_hidden_dim']
-        self.merge_hidden_dim = self.transition_hidden_dim + self.args['hidden_dim'] + self.transition_merge_hidden_dim
+        self.merge_words_output_dim = self.args['transition_merge_words_output_dim']
+        self.merge_hidden_dim = self.transition_hidden_dim + self.args['hidden_dim'] + self.merge_words_output_dim
         # Splitting this into a left and right version is close,
         # but seems to be somewhat more accurate than one layer
         #  5 model dev avg LAS  baseline  merge-two-sides
@@ -181,8 +181,8 @@ def __init__(self, args, vocab, emb_matrix=None, foundation_cache=None, bert_mod
         # to select which part of the wider output to use.
         # The first experiment with this wound up also being slower
         # and less effective.
-        self.merge_words_right = nn.Linear(self.args['hidden_dim'] * 4, self.transition_merge_hidden_dim)
-        self.merge_words_left = nn.Linear(self.args['hidden_dim'] * 4, self.transition_merge_hidden_dim)
+        self.merge_words_right = nn.Linear(self.args['hidden_dim'] * 4, self.merge_words_output_dim)
+        self.merge_words_left = nn.Linear(self.args['hidden_dim'] * 4, self.merge_words_output_dim)
 
         # TODO: again, left/right or include a relation embedding
         if self.args['transition_subtree_combination'] in (SubtreeCombination.LINEAR, SubtreeCombination.HEAD_LINEAR):
diff --git a/stanza/models/parser.py b/stanza/models/parser.py
@@ -236,7 +236,7 @@ def build_argparse():
     parser.add_argument('--model_type', default='graph', choices=['graph', 'transition'], help='Which model to use')
     parser.add_argument('--transition_embedding_dim', type=int, default=20, help="Embedding size for a transition")
     parser.add_argument('--transition_hidden_dim', type=int, default=20, help="Embedding size for transition stack")
-    parser.add_argument('--transition_merge_hidden_dim', type=int, default=200, help="Dimension for merging words when scoring transitions")
+    parser.add_argument('--transition_merge_words_output_dim', type=int, default=200, help="Dimension for merging words when scoring transitions")
     parser.add_argument('--transition_subtree_combination', type=lambda x: SubtreeCombination[x.upper()], default=SubtreeCombination.NONE,
                         help="Which subtree combination method to use.  {}".format(", ".join(x.name for x in SubtreeCombination)))
     parser.add_argument('--transition_subtree_nonlinearity', type=str, default='none',