huggingface
diff --git a/‎.gitmodules‎
Lines changed: 0 additions & 3 deletions b/‎.gitmodules‎
Lines changed: 0 additions & 3 deletions
diff --git a/‎bindings/c/src/lib.rs‎
Lines changed: 121 additions & 0 deletions b/‎bindings/c/src/lib.rs‎
Lines changed: 121 additions & 0 deletions
diff --git a/‎bindings/c/tokenizers_c.h‎
Lines changed: 24 additions & 0 deletions b/‎bindings/c/tokenizers_c.h‎
Lines changed: 24 additions & 0 deletions
diff --git a/‎bindings/cpp/CMakeLists.txt‎
Lines changed: 6 additions & 8 deletions b/‎bindings/cpp/CMakeLists.txt‎
Lines changed: 6 additions & 8 deletions
diff --git a/‎bindings/cpp/include/tokenizers/tokenizers.h‎
Lines changed: 21 additions & 0 deletions b/‎bindings/cpp/include/tokenizers/tokenizers.h‎
Lines changed: 21 additions & 0 deletions
diff --git a/‎bindings/cpp/src/tokenizers.cpp‎
Lines changed: 76 additions & 37 deletions b/‎bindings/cpp/src/tokenizers.cpp‎
Lines changed: 76 additions & 37 deletions
@@ -1,3 +0,0 @@
-[submodule "bindings/cpp/third_party/Jinja2Cpp"]
-	path = bindings/cpp/third_party/Jinja2Cpp
-	url = https://github.com/jinja2cpp/Jinja2Cpp.git
@@ -672,3 +672,124 @@ pub extern "C" fn tokenizers_get_chat_template(tokenizer: *mut c_void) -> *mut c
     ptr::null_mut()
 }
 
+/// Apply a chat template to render messages
+/// 
+/// Arguments:
+///   - tokenizer: the tokenizer instance
+///   - template: Jinja2 template string
+///   - messages_json: JSON array of messages with "role" and "content" fields
+///   - add_generation_prompt: whether to append generation prompt
+///   - bos_token: optional BOS token string
+///   - eos_token: optional EOS token string
+///   - error_out: pointer to error string (caller must free with tokenizers_string_free)
+///
+/// Returns: rendered template string (caller must free with tokenizers_string_free), or null on error
+#[no_mangle]
+pub extern "C" fn tokenizers_apply_chat_template(
+    tokenizer: *mut c_void,
+    template: *const c_char,
+    messages_json: *const c_char,
+    add_generation_prompt: bool,
+    bos_token: *const c_char,
+    eos_token: *const c_char,
+    error_out: *mut *mut c_char,
+) -> *mut c_char {
+    if tokenizer.is_null() || template.is_null() || messages_json.is_null() {
+        if !error_out.is_null() {
+            let err = CString::new("Invalid arguments: null pointers provided").unwrap();
+            unsafe { *error_out = err.into_raw(); }
+        }
+        return ptr::null_mut();
+    }
+
+    let template_str = match unsafe { CStr::from_ptr(template) }.to_str() {
+        Ok(s) => s,
+        Err(_) => {
+            if !error_out.is_null() {
+                let err = CString::new("Invalid template string encoding").unwrap();
+                unsafe { *error_out = err.into_raw(); }
+            }
+            return ptr::null_mut();
+        }
+    };
+
+    let messages_json_str = match unsafe { CStr::from_ptr(messages_json) }.to_str() {
+        Ok(s) => s,
+        Err(_) => {
+            if !error_out.is_null() {
+                let err = CString::new("Invalid messages JSON encoding").unwrap();
+                unsafe { *error_out = err.into_raw(); }
+            }
+            return ptr::null_mut();
+        }
+    };
+
+    let bos_opt = if !bos_token.is_null() {
+        match unsafe { CStr::from_ptr(bos_token) }.to_str() {
+            Ok(s) => Some(s.to_string()),
+            Err(_) => {
+                if !error_out.is_null() {
+                    let err = CString::new("Invalid BOS token encoding").unwrap();
+                    unsafe { *error_out = err.into_raw(); }
+                }
+                return ptr::null_mut();
+            }
+        }
+    } else {
+        None
+    };
+
+    let eos_opt = if !eos_token.is_null() {
+        match unsafe { CStr::from_ptr(eos_token) }.to_str() {
+            Ok(s) => Some(s.to_string()),
+            Err(_) => {
+                if !error_out.is_null() {
+                    let err = CString::new("Invalid EOS token encoding").unwrap();
+                    unsafe { *error_out = err.into_raw(); }
+                }
+                return ptr::null_mut();
+            }
+        }
+    } else {
+        None
+    };
+
+    // Parse messages JSON
+    let messages: Vec<tokenizers::Message> = match serde_json::from_str(messages_json_str) {
+        Ok(msgs) => msgs,
+        Err(e) => {
+            if !error_out.is_null() {
+                let err = CString::new(format!("Failed to parse messages JSON: {}", e)).unwrap();
+                unsafe { *error_out = err.into_raw(); }
+            }
+            return ptr::null_mut();
+        }
+    };
+
+    // Create and apply chat template
+    match tokenizers::ChatTemplate::new(template_str.to_string(), bos_opt, eos_opt) {
+        Ok(chat_template) => {
+            let inputs = tokenizers::ChatTemplateInputs::new(messages, add_generation_prompt);
+            match chat_template.apply(inputs) {
+                Ok(result) => {
+                    CString::new(result).unwrap().into_raw()
+                }
+                Err(e) => {
+                    if !error_out.is_null() {
+                        let err = CString::new(format!("Template rendering failed: {}", e)).unwrap();
+                        unsafe { *error_out = err.into_raw(); }
+                    }
+                    ptr::null_mut()
+                }
+            }
+        }
+        Err(e) => {
+            if !error_out.is_null() {
+                let err = CString::new(format!("Failed to compile template: {}", e)).unwrap();
+                unsafe { *error_out = err.into_raw(); }
+            }
+            ptr::null_mut()
+        }
+    }
+}
+
@@ -8,12 +8,16 @@
 extern "C" {
 #endif
 
+// Only define the struct if not already defined
+#ifndef TOKENIZERS_ENCODING_T_DEFINED
+#define TOKENIZERS_ENCODING_T_DEFINED
 typedef struct {
     const int* ids;
     const int* attention_mask;
     size_t len;
     void* _internal_ptr;  // Internal use only - do not access
 } tokenizers_encoding_t;
+#endif
 
 // Create a new tokenizer from a JSON file (auto-loads tokenizer_config.json if present)
 void* tokenizers_new_from_file(const char* path);
@@ -77,6 +81,26 @@ bool tokenizers_has_chat_template(void* tokenizer);
 // Get chat template string (must be freed with tokenizers_string_free)
 char* tokenizers_get_chat_template(void* tokenizer);
 
+// Apply a chat template to render messages
+// Arguments:
+//   - tokenizer: the tokenizer instance
+//   - template_str: Jinja2 template string
+//   - messages_json: JSON array of messages with "role" and "content" fields
+//   - add_generation_prompt: whether to append generation prompt
+//   - bos_token: optional BOS token string (can be NULL)
+//   - eos_token: optional EOS token string (can be NULL)
+//   - error_out: pointer to error string (caller must free with tokenizers_string_free)
+// Returns: rendered template string (caller must free with tokenizers_string_free), or NULL on error
+char* tokenizers_apply_chat_template(
+    void* tokenizer,
+    const char* template_str,
+    const char* messages_json,
+    bool add_generation_prompt,
+    const char* bos_token,
+    const char* eos_token,
+    char** error_out
+);
+
 #ifdef __cplusplus
 }
 #endif
 
@@ -14,12 +14,6 @@ set(RUST_CRATE_DIR ${CMAKE_CURRENT_SOURCE_DIR}/../c)
 set(RUST_OUTPUT_DIR ${RUST_CRATE_DIR}/target/release)
 set(RUST_LIB_NAME tokenizers_c)
 
-# Jinja2Cpp for chat template rendering
-set(JINJA2CPP_BUILD_TESTS OFF CACHE BOOL "" FORCE)
-set(JINJA2CPP_BUILD_SHARED OFF CACHE BOOL "" FORCE)
-set(JINJA2CPP_DEPS_MODE internal CACHE STRING "" FORCE)
-add_subdirectory(third_party/Jinja2Cpp)
-
 # Custom command to build the Rust cdylib
 add_custom_command(
     OUTPUT ${RUST_OUTPUT_DIR}/lib${RUST_LIB_NAME}.so
@@ -43,8 +37,11 @@ add_library(tokenizers_cpp_impl STATIC
     src/tokenizers.cpp
 )
 add_dependencies(tokenizers_cpp_impl build_rust_ffi)
-target_include_directories(tokenizers_cpp_impl PUBLIC ${CMAKE_CURRENT_SOURCE_DIR}/include)
-target_link_libraries(tokenizers_cpp_impl PUBLIC ${RUST_LIB_NAME} jinja2cpp)
+target_include_directories(tokenizers_cpp_impl 
+    PUBLIC ${CMAKE_CURRENT_SOURCE_DIR}/include
+    PRIVATE ${RUST_CRATE_DIR}
+)
+target_link_libraries(tokenizers_cpp_impl PUBLIC ${RUST_LIB_NAME})
 
 # Interface library for easy linking
 add_library(tokenizers_cpp INTERFACE)
@@ -66,6 +63,7 @@ if(TOKENIZERS_COMPILE_TESTS)
     # Google Test executable
     add_executable(tokenizer_tests_gtest
         tests/test_tokenizer_gtest.cpp
+        tests/test_tokenizer_chat_templates.cpp
     )
     target_link_libraries(tokenizer_tests_gtest PRIVATE tokenizers_cpp GTest::gtest_main)
 
 
@@ -63,6 +63,15 @@ extern "C" {
     bool tokenizers_get_add_eos_token(void* tokenizer);
     bool tokenizers_has_chat_template(void* tokenizer);
     char* tokenizers_get_chat_template(void* tokenizer);
+    char* tokenizers_apply_chat_template(
+        void* tokenizer,
+        const char* template_str,
+        const char* messages_json,
+        bool add_generation_prompt,
+        const char* bos_token,
+        const char* eos_token,
+        char** error_out
+    );
 }
 
 namespace tokenizers {
@@ -391,6 +400,18 @@ class Tokenizer {
         bool add_generation_prompt = true
     ) const;
 
+    /// Apply custom chat template to messages
+    /// @param template_str The Jinja2 chat template string to use
+    /// @param messages Vector of ChatMessage with role and content
+    /// @param add_generation_prompt If true, adds prompt for assistant response
+    /// @return Formatted string ready for tokenization
+    /// @throws ChatTemplateError if template rendering fails
+    std::string apply_chat_template(
+        const std::string& template_str,
+        const std::vector<ChatMessage>& messages,
+        bool add_generation_prompt = true
+    ) const;
+
     bool valid() const { return handle_ != nullptr; }
 
     static std::string version() {
 
@@ -3,57 +3,96 @@
  */
 
 #include <tokenizers/tokenizers.h>
-#include <jinja2cpp/template.h>
-#include <jinja2cpp/value.h>
+#include <sstream>
+#include <iomanip>
 
 namespace tokenizers {
 
+// Helper to escape JSON strings - handles special characters properly
+static std::string json_escape(const std::string& input) {
+    std::string output;
+    output.reserve(input.size() * 1.1);  // Reserve extra space for escapes
+    for (unsigned char c : input) {
+        switch (c) {
+            case '"': output += "\\\""; break;
+            case '\\': output += "\\\\"; break;
+            case '\b': output += "\\b"; break;
+            case '\f': output += "\\f"; break;
+            case '\n': output += "\\n"; break;
+            case '\r': output += "\\r"; break;
+            case '\t': output += "\\t"; break;
+            default:
+                if (c < 0x20) {
+                    // Control characters: escape as \uXXXX
+                    char buf[7];
+                    snprintf(buf, sizeof(buf), "\\u%04x", c);
+                    output += buf;
+                } else {
+                    output += c;
+                }
+        }
+    }
+    return output;
+}
+
 std::string Tokenizer::apply_chat_template(
+    const std::string& template_str,
     const std::vector<ChatMessage>& messages,
     bool add_generation_prompt
 ) const {
-    // Get the template string
-    std::string tmpl_str = chat_template();
-    if (tmpl_str.empty()) {
-        throw ChatTemplateError("No chat template available for this tokenizer");
+    // Build messages JSON array manually
+    std::stringstream ss;
+    ss << "[";
+    for (size_t i = 0; i < messages.size(); ++i) {
+        if (i > 0) ss << ",";
+        ss << "{\"role\":\"" << json_escape(messages[i].role) 
+           << "\",\"content\":\"" << json_escape(messages[i].content) << "\"}";
     }
+    ss << "]";
+    std::string messages_json_str = ss.str();
 
-    // Create Jinja2 template
-    jinja2::Template tpl;
-    auto load_result = tpl.Load(tmpl_str, "chat_template");
-    if (!load_result) {
-        throw ChatTemplateError("Failed to parse chat template: " + 
-            load_result.error().ToString());
-    }
+    // Get special tokens (pass as C strings, can be null)
+    std::string bos_str = bos_token();
+    std::string eos_str = eos_token();
+    const char* bos_ptr = bos_str.empty() ? nullptr : bos_str.c_str();
+    const char* eos_ptr = eos_str.empty() ? nullptr : eos_str.c_str();
 
-    // Convert messages to Jinja2 values
-    jinja2::ValuesList jinja_messages;
-    for (const auto& msg : messages) {
-        jinja2::ValuesMap msg_map;
-        msg_map["role"] = msg.role;
-        msg_map["content"] = msg.content;
-        jinja_messages.push_back(std::move(msg_map));
-    }
+    // Call C FFI function with custom template
+    char* error_msg = nullptr;
+    char* result = tokenizers_apply_chat_template(
+        handle_,
+        template_str.c_str(),
+        messages_json_str.c_str(),
+        add_generation_prompt,
+        bos_ptr,
+        eos_ptr,
+        &error_msg
+    );
 
-    // Build parameters map
-    jinja2::ValuesMap params;
-    params["messages"] = std::move(jinja_messages);
-    params["add_generation_prompt"] = add_generation_prompt;
+    if (result == nullptr) {
+        std::string error = error_msg ? error_msg : "Failed to apply chat template";
+        if (error_msg) {
+            tokenizers_string_free(error_msg);
+        }
+        throw ChatTemplateError(error);
+    }
 
-    // Add special tokens as variables (commonly used in templates)
-    params["bos_token"] = bos_token();
-    params["eos_token"] = eos_token();
-    params["pad_token"] = pad_token();
-    params["unk_token"] = unk_token();
+    std::string rendered(result);
+    tokenizers_string_free(result);
 
-    // Render the template
-    auto render_result = tpl.RenderAsString(params);
-    if (!render_result) {
-        throw ChatTemplateError("Failed to render chat template: " + 
-            render_result.error().ToString());
+    return rendered;
+}
+
+std::string Tokenizer::apply_chat_template(
+    const std::vector<ChatMessage>& messages,
+    bool add_generation_prompt
+) const {
+    // Get the template string from config and delegate to the overload
+    std::string tmpl_str = chat_template();
+    if (tmpl_str.empty()) {
+        throw ChatTemplateError("No chat template available for this tokenizer");
     }
-    
-    return render_result.value();
+    return apply_chat_template(tmpl_str, messages, add_generation_prompt);
 }
 
 } // namespace tokenizers
Original file line number	Diff line number	Diff line change
`@@ -1,3 +0,0 @@`
`1`		`-[submodule "bindings/cpp/third_party/Jinja2Cpp"]`
`2`		`- path = bindings/cpp/third_party/Jinja2Cpp`
`3`		`- url = https://github.com/jinja2cpp/Jinja2Cpp.git`