TheOpenDictionary
diff --git a/‎.vscode/settings.json‎
Lines changed: 2 additions & 1 deletion b/‎.vscode/settings.json‎
Lines changed: 2 additions & 1 deletion
diff --git a/‎Cargo.lock‎
Lines changed: 24 additions & 3 deletions b/‎Cargo.lock‎
Lines changed: 24 additions & 3 deletions
diff --git a/‎lib/Cargo.toml‎
Lines changed: 1 addition & 1 deletion b/‎lib/Cargo.toml‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎lib/tests/resolve.rs‎
Lines changed: 0 additions & 1 deletion b/‎lib/tests/resolve.rs‎
Lines changed: 0 additions & 1 deletion
diff --git a/‎lib/tests/tokenize.rs‎
Lines changed: 16 additions & 0 deletions b/‎lib/tests/tokenize.rs‎
Lines changed: 16 additions & 0 deletions
@@ -8,5 +8,6 @@
   "debug.javascript.defaultRuntimeExecutable": {
     "pwa-node": "/Users/tjnickerson/.local/share/mise/shims/node"
   },
-  "python.defaultInterpreterPath": "${workspaceFolder}/.venv"
+  "python.defaultInterpreterPath": "${workspaceFolder}/.venv",
+  "python.languageServer": "None"
 }
@@ -40,7 +40,7 @@ tokenize = [
 ]
 tokenize-latin = ["dep:charabia"]
 tokenize-chinese = ["tokenize-latin", "charabia/chinese-segmentation"]
-tokenize-japanese = ["tokenize-latin", "charabia/japanese-segmentation-unidic"]
+tokenize-japanese = ["tokenize-latin", "charabia/japanese"]
 tokenize-thai = ["tokenize-latin", "charabia/thai"]
 tokenize-korean = ["tokenize-latin", "charabia/korean"]
 tokenize-khmer = ["tokenize-latin", "charabia/khmer"]
 
@@ -2,7 +2,6 @@ mod helpers;
 
 #[cfg(test)]
 mod resolve_tests {
-    use indexmap::indexset;
 
     use odict::{
         entryset,
 
@@ -67,6 +67,22 @@ mod tokenize_tests {
         }
     }
 
+    #[test]
+    fn test_tokenize_japanese() {
+        let dict = EXAMPLE_DICT_1.contents().unwrap();
+        let result = dict.tokenize("今日は良い天気です", TokenizeOptions::default());
+        let res = result.as_ref().unwrap();
+        let expected_lemmas = ["今日", "は", "良い", "天気", "です"];
+
+        assert!(result.is_ok());
+        assert_eq!(res.len(), expected_lemmas.len());
+
+        for (i, token) in res.iter().enumerate() {
+            assert_eq!(token.language, Some(Language::Jpn));
+            assert_eq!(token.lemma, expected_lemmas[i]);
+        }
+    }
+
     #[test]
     fn test_tokenize_case_sensitive() {
         let dict = EXAMPLE_DICT_1.contents().unwrap();
Original file line number	Diff line number	Diff line change
`@@ -8,5 +8,6 @@`
`8`	`8`	`"debug.javascript.defaultRuntimeExecutable": {`
`9`	`9`	`"pwa-node": "/Users/tjnickerson/.local/share/mise/shims/node"`
`10`	`10`	`},`
`11`		`- "python.defaultInterpreterPath": "${workspaceFolder}/.venv"`
	`11`	`+ "python.defaultInterpreterPath": "${workspaceFolder}/.venv",`
	`12`	`+ "python.languageServer": "None"`
`12`	`13`	`}`
Original file line number	Diff line number	Diff line change
`@@ -40,7 +40,7 @@ tokenize = [`
`40`	`40`	`]`
`41`	`41`	`tokenize-latin = ["dep:charabia"]`
`42`	`42`	`tokenize-chinese = ["tokenize-latin", "charabia/chinese-segmentation"]`
`43`		`-tokenize-japanese = ["tokenize-latin", "charabia/japanese-segmentation-unidic"]`
	`43`	`+tokenize-japanese = ["tokenize-latin", "charabia/japanese"]`
`44`	`44`	`tokenize-thai = ["tokenize-latin", "charabia/thai"]`
`45`	`45`	`tokenize-korean = ["tokenize-latin", "charabia/korean"]`
`46`	`46`	`tokenize-khmer = ["tokenize-latin", "charabia/khmer"]`