ggml-org
diff --git a/‎common/arg.cpp‎
Lines changed: 5 additions & 33 deletions b/‎common/arg.cpp‎
Lines changed: 5 additions & 33 deletions
diff --git a/‎common/common.h‎
Lines changed: 1 addition & 6 deletions b/‎common/common.h‎
Lines changed: 1 addition & 6 deletions
diff --git a/‎tools/dataset-converter/CMakeLists.txt‎
Lines changed: 1 addition & 1 deletion b/‎tools/dataset-converter/CMakeLists.txt‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎tools/dataset-converter/convert-to-train-gguf.cpp‎
Lines changed: 56 additions & 66 deletions b/‎tools/dataset-converter/convert-to-train-gguf.cpp‎
Lines changed: 56 additions & 66 deletions
diff --git a/‎tools/dataset-converter/dataset-to-gguf/llama-dataset-reader/llama-parquet-data-reader.cpp‎
Lines changed: 10 additions & 13 deletions b/‎tools/dataset-converter/dataset-to-gguf/llama-dataset-reader/llama-parquet-data-reader.cpp‎
Lines changed: 10 additions & 13 deletions
@@ -1470,7 +1470,7 @@ common_params_context common_params_parser_init(common_params & params, llama_ex
         [](common_params & params) {
             params.ctx_shift = false;
         }
-    ).set_examples({LLAMA_EXAMPLE_MAIN, LLAMA_EXAMPLE_SERVER, LLAMA_EXAMPLE_IMATRIX, LLAMA_EXAMPLE_PERPLEXITY, LLAMA_EXAMPLE_FINETUNE}).set_env("LLAMA_ARG_NO_CONTEXT_SHIFT"));
+    ).set_examples({LLAMA_EXAMPLE_MAIN, LLAMA_EXAMPLE_SERVER, LLAMA_EXAMPLE_IMATRIX, LLAMA_EXAMPLE_PERPLEXITY}).set_env("LLAMA_ARG_NO_CONTEXT_SHIFT"));
     add_opt(common_arg(
         {"--chunks"}, "N",
         string_format("max number of chunks to process (default: %d, -1 = all)", params.n_chunks),
@@ -3455,41 +3455,13 @@ common_params_context common_params_parser_init(common_params & params, llama_ex
         }
     ).set_examples({LLAMA_EXAMPLE_FINETUNE}));
 
-   add_opt(common_arg(
-        {"--preview-count"}, "<N>",
-        string_format("input file contains pre-tokenized data (space-separated token IDs)"),
-        [](common_params & params, int preview_count) {
-            params.preview_count = preview_count;
-        }
-    ).set_examples({LLAMA_EXAMPLE_FINETUNE}));
-
-    add_opt(common_arg(
-        {"--detokenize-preview"},
-        string_format("detokenize previewed sequences (implies --preview)"),
-        [](common_params & params) {
-            params.detokenize_preview = params.do_preview = true;
-        }
-    ).set_examples({LLAMA_EXAMPLE_FINETUNE}));
-
-#ifdef LLAMA_PARQUET
-
-
-    add_opt(common_arg(
-        {"--parquet-text-column"}, "<name>",
-        string_format("column name for raw text in Parquet files (default: 'text')"),
-        [](common_params & params, const std::string &parquet_text_column) {
-            params.parquet_text_column = parquet_text_column;
-        }
-    ).set_examples({LLAMA_EXAMPLE_FINETUNE}));
-
     add_opt(common_arg(
-        {"--parquet-tokens-column"}, "<name>",
-        string_format("column name for pre-tokenized data (list<int32>) in Parquet files (default: 'tokens')"),
-        [](common_params & params, const std::string &parquet_tokens_column) {
-            params.parquet_tokens_column = parquet_tokens_column;
+        {"--dataset-column"}, "<name>",
+        string_format("column name for data in dataset files"),
+        [](common_params & params, const std::string &dataset_column) {
+            params.dataset_column = dataset_column;
         }
     ).set_examples({LLAMA_EXAMPLE_FINETUNE}));
 
-#endif
     return ctx_arg;
 }
@@ -449,12 +449,7 @@ struct common_params {
     int32_t max_seq_len = 2048;
     bool do_preview = false;
     bool pre_tokenized = false;
-    bool detokenize_preview = false;
-    int preview_count = 1;
-#ifdef LLAMA_PARQUET
-    std::string parquet_text_column = "text";
-    std::string parquet_tokens_column = "tokens";
-#endif
+    std::string dataset_column = "data";
 };
 
 // call once at the start of a program if it uses libcommon
 
@@ -1,4 +1,4 @@
-include_directories(.)
+include_directories(. ../../common)
 
 if(LLAMA_PARQUET)
     find_package(Arrow REQUIRED)
 
@@ -13,6 +13,7 @@
 // This two-pass approach allows processing datasets significantly larger than
 // available RAM.
 
+#include "log.h"
 #include <algorithm>  // For std::min
 #include <array>      // For std::array
 #include <cinttypes>  // For PRIu64
@@ -25,36 +26,28 @@
 #include "dataset-to-gguf/llama-gguf-converter.h"
 #include "dataset-to-gguf/llama-gguf-reader.h"
 #include "llama.h"  // For llama_backend_init, llama_backend_free, llama_model_load_from_file, llama_model_free
-
+#define PREVIEW_COUNT 1
 int main(int argc, char ** argv) {
     common_params params;
     if (!common_params_parse(argc, argv, params, LLAMA_EXAMPLE_FINETUNE)) {
         return 1;
     }
 
     // Print parameters for verification
-    printf("Parameters:\n");
-    printf("  Model for tokenizer: %s\n", params.model.path.c_str());
-    printf("  Input files: ");
+    LOG_INF("Parameters:\n");
+    LOG_INF("  Model for tokenizer: %s\n", params.model.path.c_str());
+    LOG_INF("  Input files: ");
     for (auto & i : params.in_files) {
-        printf("%s ", i.c_str());
-    }
-    printf("\n  Output file: %s\n", params.out_file.c_str());
-    printf("  Max sequence length: %d\n", params.max_seq_len);
-    printf("  Pre-tokenized input: %s\n", params.pre_tokenized ? "Yes" : "No");
-    printf("  Input type: %s\n", params.dataset_format.c_str());
-    printf("  Do preview: %s\n", params.do_preview ? "Yes" : "No");
-    if (params.do_preview) {
-        printf("  Preview count: %d\n", params.preview_count);
-        printf("  Detokenize preview: %s\n", params.detokenize_preview ? "Yes" : "No");
+        LOG_INF("%s ", i.c_str());
     }
-#ifdef LLAMA_PARQUET
-    if (params.dataset_format == "parquet") {
-        printf("  Parquet text column: %s\n", params.parquet_text_column.c_str());
-        printf("  Parquet tokens column: %s\n", params.parquet_tokens_column.c_str());
+    LOG_INF("\n  Output file: %s\n", params.out_file.c_str());
+    LOG_INF("  Max sequence length: %d\n", params.max_seq_len);
+    LOG_INF("  Input type: %s\n", params.dataset_format.c_str());
+    LOG_INF("  Do preview: %s\n", params.do_preview ? "Yes" : "No");
+    if (params.dataset_format != "text") {
+        LOG_INF("  Dataset column: %s\n", params.dataset_column.c_str());
     }
-#endif
-    printf("\n");
+    LOG_INF("\n");
 
     // Initialize llama.cpp
     llama_backend_init();
@@ -64,125 +57,122 @@ int main(int argc, char ** argv) {
     llama_model *model        = llama_model_load_from_file(params.model.path.c_str(), model_params);
 
     if (model == nullptr) {
-        fprintf(stderr, "error: failed to load model from %s\n", params.model.path.c_str());
+        LOG_ERR("error: failed to load model from %s\n", params.model.path.c_str());
         llama_backend_free();
         return 1;
     }
 
     // --- Diagnostic Test: Reading tokenizer model GGUF file ---
-    printf("--- Diagnostic Test: Reading tokenizer model GGUF file ---\n");
+    LOG_INF("--- Diagnostic Test: Reading tokenizer model GGUF file ---\n");
     try {
         llama_gguf_reader tokenizer_model_reader(params.model.path);
         if (tokenizer_model_reader.llama_gguf_reader_is_initialized()) {
-            printf("  Tokenizer Model GGUF file opened successfully.\n");
-            printf("  Tokenizer Model Name: %s\n",
+            LOG_INF("  Tokenizer Model GGUF file opened successfully.\n");
+            LOG_INF("  Tokenizer Model Name: %s\n",
                    tokenizer_model_reader.llama_gguf_reader_get_metadata_str("general.name", "N/A").c_str());
-            printf("  Tokenizer Model Architecture: %s\n",
+            LOG_INF("  Tokenizer Model Architecture: %s\n",
                    tokenizer_model_reader.llama_gguf_reader_get_metadata_str("general.architecture", "N/A").c_str());
-            printf("  Tokenizer Model Tensor Count: %llu\n",
+            LOG_INF("  Tokenizer Model Tensor Count: %llu\n",
                    static_cast<long long>(tokenizer_model_reader.llama_gguf_reader_get_tensor_count()));
-            printf("  Diagnostic Test: Tokenizer Model GGUF read successful.\n");
+            LOG_INF("  Diagnostic Test: Tokenizer Model GGUF read successful.\n");
         } else {
-            fprintf(stderr, "error: Diagnostic Test: Tokenizer Model GGUF read failed to initialize.\n");
+            LOG_ERR("error: Diagnostic Test: Tokenizer Model GGUF read failed to initialize.\n");
             llama_model_free(model);  // Free model before exiting
             llama_backend_free();
             return 1;
         }
     } catch (const std::runtime_error & e) {
-        fprintf(stderr, "error: Diagnostic Test: Tokenizer Model GGUF read failed: %s\n", e.what());
+        LOG_ERR("error: Diagnostic Test: Tokenizer Model GGUF read failed: %s\n", e.what());
         llama_model_free(model);  // Free model before exiting
         llama_backend_free();
         return 1;
     }
-    printf("--- End of Diagnostic Test ---\n\n");
+    LOG_INF("--- End of Diagnostic Test ---\n\n");
 
     // Create and run the converter
     llama_gguf_converter converter;
     bool success = converter.llama_gguf_converter_convert(params, model);
 
     if (!success) {
-        fprintf(stderr, "error: GGUF conversion failed.\n");
+        LOG_ERR("error: GGUF conversion failed.\n");
         llama_model_free(model); // Free model on conversion failure
         llama_backend_free();
         return 1;
     }
 
-    printf("Conversion successful!\n");
-    printf("Output file: %s\n", params.out_file.c_str());
+    LOG_INF("Conversion successful!\n");
+    LOG_INF("Output file: %s\n", params.out_file.c_str());
 
     // --- Preview generated GGUF file (if requested) ---
     if (params.do_preview) {
-        printf("\n--- Previewing generated GGUF file ---\n");
+        LOG_INF("\n--- Previewing generated GGUF file ---\n");
         try {
             llama_gguf_reader reader(params.out_file);
 
             if (!reader.llama_gguf_reader_is_initialized()) {
-                fprintf(stderr, "error: llama_gguf_reader failed to initialize for preview.\n");
+                LOG_ERR("error: llama_gguf_reader failed to initialize for preview.\n");
                 llama_model_free(model); // Free model before exiting
                 llama_backend_free();
                 return 1;
             }
 
-            printf("  Dataset Name: %s\n",
+            LOG_INF("  Dataset Name: %s\n",
                    reader.llama_gguf_reader_get_metadata_str("training.dataset.name", "N/A").c_str());
-            printf("  Sequence Count: %llu\n", static_cast<long long>(reader.llama_gguf_reader_get_metadata_u64("training.sequence.count", 0)));
-            printf("  Tokenizer Model: %s\n",
+            LOG_INF("  Sequence Count: %llu\n", static_cast<long long>(reader.llama_gguf_reader_get_metadata_u64("training.sequence.count", 0)));
+            LOG_INF("  Tokenizer Model: %s\n",
                    reader.llama_gguf_reader_get_metadata_str("training.tokenizer.gguf.model", "N/A").c_str());
 
             int64_t tensor_count = reader.llama_gguf_reader_get_tensor_count();
             if (tensor_count > 0) {
                 // Print N first sequences
-                for (int64_t i = 0; i < std::min((int64_t) params.preview_count, tensor_count); ++i) {
-                    printf("  Sequence (training.tensor.%" PRId64 "):\n", i);
+                for (int64_t i = 0; i < std::min(static_cast<int64_t>(PREVIEW_COUNT), tensor_count); ++i) {
+                    LOG_INF("  Sequence (training.tensor.%" PRId64 "):\n", i);
                     std::vector<llama_token> sequence_tokens;
                     if (reader.llama_gguf_reader_read_tensor_data(i, sequence_tokens)) {
-                        printf("    Length: %zu tokens\n", sequence_tokens.size());
-                        printf("    Tokens: [");
+                        LOG_INF("    Length: %zu tokens\n", sequence_tokens.size());
+                        LOG_INF("    Tokens: [");
                         for (size_t j = 0; j < std::min((size_t) 10, sequence_tokens.size());
                              ++j) {  // Print up to 10 tokens
-                            printf("%d%s", sequence_tokens[j],
+                            LOG_INF("%d%s", sequence_tokens[j],
                                    (j == std::min((size_t) 10, sequence_tokens.size()) - 1) ? "" : ", ");
                         }
                         if (sequence_tokens.size() > 10) {
-                            printf("...");
+                            LOG_INF("...");
                         }
-                        printf("]\n");
-
-                        if (params.detokenize_preview) {
-                            // Detokenization
-                            std::string detokenized_text = "";
-                            // Buffer for a single token
-                            std::array<char, 256> piece_buf;  // Large enough buffer for a single token
-                            // Ensure model is valid before calling llama_model_get_vocab
-                            if (model != nullptr) {
-                                for (llama_token token : sequence_tokens) {
-                                    int n_chars = llama_token_to_piece(llama_model_get_vocab(model), token,
-                                                                       piece_buf.data(), piece_buf.size(), 1, false);
-                                    if (n_chars > 0) {
-                                        detokenized_text.append(piece_buf.data(), n_chars);
-                                    }
+                        LOG_INF("]\n");
+                        // Detokenization
+                        std::string detokenized_text = "";
+                        // Buffer for a single token
+                        std::array<char, 256> piece_buf;  // Large enough buffer for a single token
+                        // Ensure model is valid before calling llama_model_get_vocab
+                        if (model != nullptr) {
+                            for (llama_token token : sequence_tokens) {
+                                int n_chars = llama_token_to_piece(llama_model_get_vocab(model), token,
+                                                                   piece_buf.data(), piece_buf.size(), 1, false);
+                                if (n_chars > 0) {
+                                    detokenized_text.append(piece_buf.data(), n_chars);
                                 }
-                                printf("    Detokenized: \"%s\"\n", detokenized_text.c_str());
-                            } else {
-                                fprintf(stderr, "    Warning: Cannot detokenize preview, model is null.\n");
                             }
+                            LOG_INF("    Detokenized: \"%s\"\n", detokenized_text.c_str());
+                        } else {
+                            LOG_ERR("    Warning: Cannot detokenize preview, model is null.\n");
                         }
 
                     } else {
-                        fprintf(stderr, "    Error: Could not read data for sequence %" PRId64 ".\n", i);
+                        LOG_ERR("    Error: Could not read data for sequence %" PRId64 ".\n", i);
                     }
                 }
             } else {
-                printf("  No sequences found in the GGUF file.\n");
+                LOG_INF("  No sequences found in the GGUF file.\n");
             }
 
         } catch (const std::runtime_error & e) {
-            fprintf(stderr, "error: GGUF preview failed: %s\n", e.what());
+            LOG_ERR("error: GGUF preview failed: %s\n", e.what());
             llama_model_free(model); // Free model before exiting
             llama_backend_free();
             return 1;
         }
-        printf("--- End of GGUF file preview ---\n");
+        LOG_INF("--- End of GGUF file preview ---\n");
     }
 
     // Clean up llama model and backend after all usage
 
@@ -6,21 +6,18 @@
 
 // Constructor
 llama_parquet_dataset_reader::llama_parquet_dataset_reader(const struct llama_model * model, int32_t max_seq_len,
-                                                           bool pre_tokenized, const std::string & text_column_name,
-                                                           const std::string & tokens_column_name) :
+                                                           bool pre_tokenized, const std::string & dataset_column_name) :
     model_(model),
     max_seq_len_(max_seq_len),
     pre_tokenized_(pre_tokenized),
     current_row_group_index_(0),  // Initialize row group index
     current_row_in_table_(0),
     current_column_index_(-1),    // Initialize to -1, will be set in open
-    text_column_name_(text_column_name),
-    tokens_column_name_(tokens_column_name) {}
+    dataset_column_name_(dataset_column_name) {}
 
 // Destructor
 llama_parquet_dataset_reader::~llama_parquet_dataset_reader() {
-    close();
-    m_file_path.clear();  // Clear the stored path only on destruction
+    llama_parquet_dataset_reader::close();
 }
 
 // Opens the Parquet file for reading.
@@ -63,41 +60,41 @@ bool llama_parquet_dataset_reader::open(const std::string & path) {
 
     // Determine the column index based on pre_tokenized_ flag
     if (pre_tokenized_) {
-        current_column_index_ = schema->GetFieldIndex(tokens_column_name_);  // Use configurable name
+        current_column_index_ = schema->GetFieldIndex(dataset_column_name_);  // Use configurable name
         if (current_column_index_ == -1) {
             std::cerr << "Error (llama_parquet_dataset_reader::open): Pre-tokenized mode selected, but column '"
-                      << tokens_column_name_ << "' not found in Parquet schema." << std::endl;
+                      << dataset_column_name_ << "' not found in Parquet schema." << std::endl;
             close();
             return false;
         }
         // Validate column type: should be List<Int32>
         if (schema->field(current_column_index_)->type()->id() != arrow::Type::LIST) {
-            std::cerr << "Error (llama_parquet_dataset_reader::open): Column '" << tokens_column_name_
+            std::cerr << "Error (llama_parquet_dataset_reader::open): Column '" << dataset_column_name_
                       << "' is not of LIST type as expected for pre-tokenized data. Actual type: "
                       << schema->field(current_column_index_)->type()->ToString() << std::endl;
             close();
             return false;
         }
         auto list_type = std::static_pointer_cast<arrow::ListType>(schema->field(current_column_index_)->type());
         if (list_type->value_type()->id() != arrow::Type::INT32) {
-            std::cerr << "Error (llama_parquet_dataset_reader::open): List items in column '" << tokens_column_name_
+            std::cerr << "Error (llama_parquet_dataset_reader::open): List items in column '" << dataset_column_name_
                       << "' are not of INT32 type as expected. Actual value type: "
                       << list_type->value_type()->ToString() << std::endl;
             close();
             return false;
         }
 
     } else {
-        current_column_index_ = schema->GetFieldIndex(text_column_name_);  // Use configurable name
+        current_column_index_ = schema->GetFieldIndex(dataset_column_name_);  // Use configurable name
         if (current_column_index_ == -1) {
             std::cerr << "Error (llama_parquet_dataset_reader::open): Raw text mode selected, but column '"
-                      << text_column_name_ << "' not found in Parquet schema." << std::endl;
+                      << dataset_column_name_ << "' not found in Parquet schema." << std::endl;
             close();
             return false;
         }
         // Validate column type: should be String
         if (schema->field(current_column_index_)->type()->id() != arrow::Type::STRING) {
-            std::cerr << "Error (llama_parquet_dataset_reader::open): Column '" << text_column_name_
+            std::cerr << "Error (llama_parquet_dataset_reader::open): Column '" << dataset_column_name_
                       << "' is not of STRING type as expected for raw text. Actual type: "
                       << schema->field(current_column_index_)->type()->ToString() << std::endl;
             close();
Original file line number	Diff line number	Diff line change
`@@ -1,4 +1,4 @@`
`1`		`-include_directories(.)`
	`1`	`+include_directories(. ../../common)`
`2`	`2`
`3`	`3`	`if(LLAMA_PARQUET)`
`4`	`4`	`find_package(Arrow REQUIRED)`