vad : add whisper_vad_init_with_params_no_state

danbev · danbev · commit 3d78d2cc033c · 2025-04-23T16:32:30.000+02:00
This commit extracts the logic of loading the VAD model from a file into
a separate function so that it is more inline with how the whisper model
is loaded.
diff --git a/include/whisper.h b/include/whisper.h
@@ -694,6 +694,9 @@ extern "C" {
         const char * path_model,
         const struct whisper_vad_context_params params);
 
+    WHISPER_API struct whisper_vad_context * whisper_vad_init_with_params_no_state(struct whisper_model_loader * loader,
+            struct whisper_vad_context_params params);
+
     struct whisper_vad_speech {
         int     n_probs;
         float * probs;
diff --git a/src/whisper.cpp b/src/whisper.cpp
@@ -4840,47 +4840,55 @@ whisper_vad_context * whisper_vad_init_from_file_with_params_no_state(
         fin->close();
     };
 
-    // Read the VAD model TODO(danbev) Extract to separate function
+    auto ctx = whisper_vad_init_with_params_no_state(&loader, params);
+    if (ctx) {
+        ctx->path_model = path_model;
+    }
+
+    return ctx;
+}
+
+struct whisper_vad_context * whisper_vad_init_with_params_no_state(struct whisper_model_loader * loader, struct whisper_vad_context_params params) {
+    // Read the VAD model
     {
         uint32_t magic;
-        read_safe(&loader, magic);
+        read_safe(loader, magic);
         if (magic != GGML_FILE_MAGIC) {
             WHISPER_LOG_ERROR("%s: invalid model data (bad magic)\n", __func__);
             return nullptr;
         }
     }
 
     whisper_vad_context * vctx = new whisper_vad_context;
-    vctx->path_model = path_model;
     vctx->n_threads = params.n_threads;
 
     auto & model = vctx->model;
     auto & hparams = model.hparams;
 
     // load model context params.
     {
-        read_safe(&loader, vctx->n_window);
-        read_safe(&loader, vctx->n_context);
+        read_safe(loader, vctx->n_window);
+        read_safe(loader, vctx->n_context);
     }
 
     // load model hyper params (hparams).
     {
-        read_safe(&loader, hparams.n_encoder_layers);
+        read_safe(loader, hparams.n_encoder_layers);
 
         hparams.encoder_in_channels = new int32_t[hparams.n_encoder_layers];
         hparams.encoder_out_channels = new int32_t[hparams.n_encoder_layers];
         hparams.kernel_sizes = new int32_t[hparams.n_encoder_layers];
 
         for (int32_t i = 0; i < hparams.n_encoder_layers; i++) {
-            read_safe(&loader, hparams.encoder_in_channels[i]);
-            read_safe(&loader, hparams.encoder_out_channels[i]);
-            read_safe(&loader, hparams.kernel_sizes[i]);
+            read_safe(loader, hparams.encoder_in_channels[i]);
+            read_safe(loader, hparams.encoder_out_channels[i]);
+            read_safe(loader, hparams.kernel_sizes[i]);
         }
 
-        read_safe(&loader, hparams.lstm_input_size);
-        read_safe(&loader, hparams.lstm_hidden_size);
-        read_safe(&loader, hparams.final_conv_in);
-        read_safe(&loader, hparams.final_conv_out);
+        read_safe(loader, hparams.lstm_input_size);
+        read_safe(loader, hparams.lstm_hidden_size);
+        read_safe(loader, hparams.final_conv_in);
+        read_safe(loader, hparams.final_conv_out);
 
         WHISPER_LOG_INFO("%s: n_encoder_layers = %d\n", __func__, hparams.n_encoder_layers);
         for (int32_t i = 0; i < hparams.n_encoder_layers; i++) {
@@ -5067,24 +5075,24 @@ whisper_vad_context * whisper_vad_init_from_file_with_params_no_state(
             int32_t length;
             int32_t ttype;
 
-            read_safe(&loader, n_dims);
-            read_safe(&loader, length);
-            read_safe(&loader, ttype);
+            read_safe(loader, n_dims);
+            read_safe(loader, length);
+            read_safe(loader, ttype);
 
-            if (loader.eof(loader.context)) {
+            if (loader->eof(loader->context)) {
                 break;
             }
 
             int32_t nelements = 1;
             int32_t ne[4] = { 1, 1, 1, 1 };
             for (int i = 0; i < n_dims; ++i) {
-                read_safe(&loader, ne[i]);
+                read_safe(loader, ne[i]);
                 nelements *= ne[i];
             }
 
             std::string name;
             std::vector<char> tmp(length); // create a buffer
-            loader.read(loader.context, &tmp[0], tmp.size()); // read to buffer
+            loader->read(loader->context, &tmp[0], tmp.size()); // read to buffer
             name.assign(&tmp[0], tmp.size());
 
             if (model.tensors.find(name) == model.tensors.end()) {
@@ -5117,13 +5125,13 @@ whisper_vad_context * whisper_vad_init_from_file_with_params_no_state(
 
             if (ggml_backend_buffer_is_host(tensor->buffer)) {
                 // for the CPU and Metal backend, we can read directly into the tensor
-                loader.read(loader.context, tensor->data, ggml_nbytes(tensor));
+                loader->read(loader->context, tensor->data, ggml_nbytes(tensor));
                 BYTESWAP_TENSOR(tensor);
             } else {
                 // read into a temporary buffer first, then copy to device memory
                 read_buf.resize(ggml_nbytes(tensor));
 
-                loader.read(loader.context, read_buf.data(), read_buf.size());
+                loader->read(loader->context, read_buf.data(), read_buf.size());
 
                 ggml_backend_tensor_set(tensor, read_buf.data(), 0, ggml_nbytes(tensor));
             }