Was using byte position for end of offset, but it seems like using char position is correct

Max Hniebergall · Max Hniebergall · commit 21894d9eee75 · 2024-11-06T15:31:43.000-05:00
diff --git a/x-pack/plugin/ml/src/main/java/org/elasticsearch/xpack/ml/inference/nlp/tokenizers/UnigramTokenizer.java b/x-pack/plugin/ml/src/main/java/org/elasticsearch/xpack/ml/inference/nlp/tokenizers/UnigramTokenizer.java
@@ -368,7 +368,7 @@ List<DelimitedToken.Encoded> tokenize(CharSequence inputSequence, IntToIntFuncti
                             Strings.format("<0x%02X>", bytes[i]),
                             pieces[i],
                             offsetCorrection.apply(node.startsAtCharPos),
-                            offsetCorrection.apply(startsAtBytes + i)
+                            offsetCorrection.apply(node.startsAtCharPos + i)
                         )
                     );
                 }

Original file line number	Diff line number	Diff line change
`@@ -368,7 +368,7 @@ List<DelimitedToken.Encoded> tokenize(CharSequence inputSequence, IntToIntFuncti`
`368`	`368`	`Strings.format("<0x%02X>", bytes[i]),`
`369`	`369`	`pieces[i],`
`370`	`370`	`offsetCorrection.apply(node.startsAtCharPos),`
`371`		`- offsetCorrection.apply(startsAtBytes + i)`
	`371`	`+ offsetCorrection.apply(node.startsAtCharPos + i)`
`372`	`372`	`)`
`373`	`373`	`);`
`374`	`374`	`}`