@@ -827,7 +827,7 @@ def llama_kv_cache_clear(ctx: llama_context_p):
827827# llama_pos p1);
828828def llama_kv_cache_seq_rm (
829829 ctx : llama_context_p ,
830- seq_id : llama_seq_id ,
830+ seq_id : Union [ llama_seq_id , int ] ,
831831 p0 : Union [llama_pos , int ],
832832 p1 : Union [llama_pos , int ],
833833):
@@ -855,8 +855,8 @@ def llama_kv_cache_seq_rm(
855855# llama_pos p1);
856856def llama_kv_cache_seq_cp (
857857 ctx : llama_context_p ,
858- seq_id_src : llama_seq_id ,
859- seq_id_dst : llama_seq_id ,
858+ seq_id_src : Union [ llama_seq_id , int ] ,
859+ seq_id_dst : Union [ llama_seq_id , int ] ,
860860 p0 : Union [llama_pos , int ],
861861 p1 : Union [llama_pos , int ],
862862):
@@ -879,7 +879,7 @@ def llama_kv_cache_seq_cp(
879879# llama_seq_id seq_id);
880880def llama_kv_cache_seq_keep (
881881 ctx : llama_context_p ,
882- seq_id : llama_seq_id ,
882+ seq_id : Union [ llama_seq_id , int ] ,
883883):
884884 return _lib .llama_kv_cache_seq_keep (ctx , seq_id )
885885
@@ -900,7 +900,7 @@ def llama_kv_cache_seq_keep(
900900# llama_pos delta);
901901def llama_kv_cache_seq_shift (
902902 ctx : llama_context_p ,
903- seq_id : llama_seq_id ,
903+ seq_id : Union [ llama_seq_id , int ] ,
904904 p0 : Union [llama_pos , int ],
905905 p1 : Union [llama_pos , int ],
906906 delta : Union [llama_pos , int ],
@@ -1204,7 +1204,7 @@ def llama_get_embeddings(
12041204
12051205
12061206# LLAMA_API const char * llama_token_get_text(const struct llama_model * model, llama_token token);
1207- def llama_token_get_text (model : llama_model_p , token : llama_token ) -> bytes :
1207+ def llama_token_get_text (model : llama_model_p , token : Union [ llama_token , int ] ) -> bytes :
12081208 return _lib .llama_token_get_text (model , token )
12091209
12101210
@@ -1213,7 +1213,7 @@ def llama_token_get_text(model: llama_model_p, token: llama_token) -> bytes:
12131213
12141214
12151215# LLAMA_API float llama_token_get_score(const struct llama_model * model, llama_token token);
1216- def llama_token_get_score (model : llama_model_p , token : llama_token ) -> float :
1216+ def llama_token_get_score (model : llama_model_p , token : Union [ llama_token , int ] ) -> float :
12171217 return _lib .llama_token_get_score (model , token )
12181218
12191219
@@ -1222,7 +1222,7 @@ def llama_token_get_score(model: llama_model_p, token: llama_token) -> float:
12221222
12231223
12241224# LLAMA_API enum llama_token_type llama_token_get_type(const struct llama_model * model, llama_token token);
1225- def llama_token_get_type (model : llama_model_p , token : llama_token ) -> int :
1225+ def llama_token_get_type (model : llama_model_p , token : Union [ llama_token , int ] ) -> int :
12261226 return _lib .llama_token_get_type (model , token )
12271227
12281228
@@ -1302,39 +1302,6 @@ def llama_token_eot(model: llama_model_p) -> int:
13021302# //
13031303
13041304
1305- # // Convert the provided text into tokens.
1306- # // The tokens pointer must be large enough to hold the resulting tokens.
1307- # // Returns the number of tokens on success, no more than n_max_tokens
1308- # // Returns a negative number on failure - the number of tokens that would have been returned
1309- # LLAMA_API int llama_tokenize(
1310- # const struct llama_model * model,
1311- # const char * text,
1312- # int text_len,
1313- # llama_token * tokens,
1314- # int n_max_tokens,
1315- # bool add_bos);
1316- def llama_tokenize (
1317- model : llama_model_p ,
1318- text : bytes ,
1319- text_len : Union [c_int , int ],
1320- tokens , # type: Array[llama_token]
1321- n_max_tokens : Union [c_int , int ],
1322- add_bos : Union [c_bool , bool ],
1323- ) -> int :
1324- return _lib .llama_tokenize (model , text , text_len , tokens , n_max_tokens , add_bos )
1325-
1326-
1327- _lib .llama_tokenize .argtypes = [
1328- llama_model_p ,
1329- c_char_p ,
1330- c_int ,
1331- llama_token_p ,
1332- c_int ,
1333- c_bool ,
1334- ]
1335- _lib .llama_tokenize .restype = c_int
1336-
1337-
13381305# /// @details Convert the provided text into tokens.
13391306# /// @param tokens The tokens pointer must be large enough to hold the resulting tokens.
13401307# /// @return Returns the number of tokens on success, no more than n_max_tokens
@@ -1386,7 +1353,7 @@ def llama_tokenize(
13861353# int length);
13871354def llama_token_to_piece (
13881355 model : llama_model_p ,
1389- token : llama_token ,
1356+ token : Union [ llama_token , int ] ,
13901357 buf : Union [c_char_p , bytes ],
13911358 length : Union [c_int , int ],
13921359) -> int :
@@ -1835,7 +1802,7 @@ def llama_sample_token(
18351802def llama_grammar_accept_token (
18361803 ctx : llama_context_p ,
18371804 grammar : llama_grammar_p ,
1838- token : llama_token ,
1805+ token : Union [ llama_token , int ] ,
18391806) -> None :
18401807 _lib .llama_grammar_accept_token (ctx , grammar , token )
18411808
0 commit comments