jeejeelee
diff --git a/‎csrc/sampling.cu‎
Lines changed: 86 additions & 50 deletions b/‎csrc/sampling.cu‎
Lines changed: 86 additions & 50 deletions
diff --git a/‎csrc/tvm_ffi_utils.h‎
Lines changed: 12 additions & 0 deletions b/‎csrc/tvm_ffi_utils.h‎
Lines changed: 12 additions & 0 deletions
@@ -49,36 +49,48 @@ void sampling_from_logits(TensorView logits, TensorView output, Optional<TensorV
                           bool deterministic, uint64_t philox_seed, uint64_t philox_offset) {
   CHECK_INPUT(logits);
   CHECK_DIM(2, logits);  // logits: (batch_size, vocab_size)
-  CHECK_MAYBE_INPUT_TYPE(maybe_indices, dl_int32);
+  CHECK_MAYBE_INPUT_TYPES(maybe_indices, dl_int32, dl_int64);
+  CHECK_MAYBE_SAME_DTYPE(maybe_indices, output);
   unsigned int batch_size = output.size(0);
   unsigned int vocab_size = logits.size(1);
 
   ffi::CUDADeviceGuard device_guard(logits.device().device_id);
   auto stream = get_stream(logits.device());
-  cudaError_t status = sampling::SamplingFromLogits(
-      static_cast<float*>(logits.data_ptr()), static_cast<int*>(output.data_ptr()),
-      maybe_indices.has_value() ? static_cast<int*>(maybe_indices.value().data_ptr()) : nullptr,
-      batch_size, vocab_size, deterministic, philox_seed, philox_offset, stream);
-  TVM_FFI_ICHECK(status == cudaSuccess)
-      << "SamplingFromLogits failed with error code " << cudaGetErrorString(status);
+
+  DISPATCH_DLPACK_IDTYPE_TO_CTYPE(output.dtype(), IdType, [&] {
+    cudaError_t status = sampling::SamplingFromLogits<float, IdType>(
+        static_cast<float*>(logits.data_ptr()), static_cast<IdType*>(output.data_ptr()),
+        maybe_indices.has_value() ? static_cast<IdType*>(maybe_indices.value().data_ptr())
+                                  : nullptr,
+        batch_size, vocab_size, deterministic, philox_seed, philox_offset, stream);
+    TVM_FFI_ICHECK(status == cudaSuccess)
+        << "SamplingFromLogits failed with error code " << cudaGetErrorString(status);
+    return true;
+  });
 }
 
 void sampling_from_probs(TensorView probs, TensorView output, Optional<TensorView> maybe_indices,
                          bool deterministic, uint64_t philox_seed, uint64_t philox_offset) {
   CHECK_INPUT(probs);
   CHECK_DIM(2, probs);  // probs: (batch_size, vocab_size)
-  CHECK_MAYBE_INPUT_TYPE(maybe_indices, dl_int32);
+  CHECK_MAYBE_INPUT_TYPES(maybe_indices, dl_int32, dl_int64);
+  CHECK_MAYBE_SAME_DTYPE(maybe_indices, output);
   unsigned int batch_size = output.size(0);
   unsigned int vocab_size = probs.size(1);
 
   ffi::CUDADeviceGuard device_guard(probs.device().device_id);
   auto stream = get_stream(probs.device());
-  cudaError_t status = sampling::SamplingFromProb(
-      static_cast<float*>(probs.data_ptr()), static_cast<int*>(output.data_ptr()),
-      maybe_indices.has_value() ? static_cast<int*>(maybe_indices.value().data_ptr()) : nullptr,
-      batch_size, vocab_size, deterministic, philox_seed, philox_offset, stream);
-  TVM_FFI_ICHECK(status == cudaSuccess)
-      << "SamplingFromProbs failed with error code " << cudaGetErrorString(status);
+
+  DISPATCH_DLPACK_IDTYPE_TO_CTYPE(output.dtype(), IdType, [&] {
+    cudaError_t status = sampling::SamplingFromProb<float, IdType>(
+        static_cast<float*>(probs.data_ptr()), static_cast<IdType*>(output.data_ptr()),
+        maybe_indices.has_value() ? static_cast<IdType*>(maybe_indices.value().data_ptr())
+                                  : nullptr,
+        batch_size, vocab_size, deterministic, philox_seed, philox_offset, stream);
+    TVM_FFI_ICHECK(status == cudaSuccess)
+        << "SamplingFromProbs failed with error code " << cudaGetErrorString(status);
+    return true;
+  });
 }
 
 void top_p_sampling_from_probs(TensorView probs, TensorView output,
@@ -87,21 +99,27 @@ void top_p_sampling_from_probs(TensorView probs, TensorView output,
                                bool deterministic, uint64_t philox_seed, uint64_t philox_offset) {
   CHECK_INPUT(probs);
   CHECK_DIM(2, probs);  // probs: (batch_size, vocab_size)
-  CHECK_MAYBE_INPUT_TYPE(maybe_indices, dl_int32);
+  CHECK_MAYBE_INPUT_TYPES(maybe_indices, dl_int32, dl_int64);
+  CHECK_MAYBE_SAME_DTYPE(maybe_indices, output);
   unsigned int batch_size = output.size(0);
   unsigned int vocab_size = probs.size(1);
   check_tensor_param(maybe_top_p_arr, probs);
   bool has_top_p_arr = maybe_top_p_arr.has_value();
 
   ffi::CUDADeviceGuard device_guard(probs.device().device_id);
   auto stream = get_stream(probs.device());
-  cudaError_t status = sampling::TopPSamplingFromProb<float, int>(
-      static_cast<float*>(probs.data_ptr()), static_cast<int*>(output.data_ptr()),
-      maybe_indices.has_value() ? static_cast<int*>(maybe_indices.value().data_ptr()) : nullptr,
-      has_top_p_arr ? static_cast<float*>(maybe_top_p_arr.value().data_ptr()) : nullptr, batch_size,
-      top_p_val, vocab_size, deterministic, philox_seed, philox_offset, stream);
-  TVM_FFI_ICHECK(status == cudaSuccess)
-      << "TopPSamplingFromProbs failed with error code " << cudaGetErrorString(status);
+
+  DISPATCH_DLPACK_IDTYPE_TO_CTYPE(output.dtype(), IdType, [&] {
+    cudaError_t status = sampling::TopPSamplingFromProb<float, IdType>(
+        static_cast<float*>(probs.data_ptr()), static_cast<IdType*>(output.data_ptr()),
+        maybe_indices.has_value() ? static_cast<IdType*>(maybe_indices.value().data_ptr())
+                                  : nullptr,
+        has_top_p_arr ? static_cast<float*>(maybe_top_p_arr.value().data_ptr()) : nullptr,
+        batch_size, top_p_val, vocab_size, deterministic, philox_seed, philox_offset, stream);
+    TVM_FFI_ICHECK(status == cudaSuccess)
+        << "TopPSamplingFromProbs failed with error code " << cudaGetErrorString(status);
+    return true;
+  });
 }
 
 void top_k_sampling_from_probs(TensorView probs, TensorView output,
@@ -113,21 +131,27 @@ void top_k_sampling_from_probs(TensorView probs, TensorView output,
   CHECK_DEVICE(output, probs);
   CHECK_DIM(2, probs);   // probs: (batch_size, vocab_size)
   CHECK_DIM(1, output);  // output: (batch_size)
-  CHECK_MAYBE_INPUT_TYPE(maybe_indices, dl_int32);
+  CHECK_MAYBE_INPUT_TYPES(maybe_indices, dl_int32, dl_int64);
+  CHECK_MAYBE_SAME_DTYPE(maybe_indices, output);
   unsigned int batch_size = output.size(0);
   unsigned int vocab_size = probs.size(1);
   check_tensor_param(maybe_top_k_arr, probs);
   bool has_top_k_arr = maybe_top_k_arr.has_value();
 
   ffi::CUDADeviceGuard device_guard(probs.device().device_id);
   auto stream = get_stream(probs.device());
-  cudaError_t status = sampling::TopKSamplingFromProb<float, int>(
-      static_cast<float*>(probs.data_ptr()), static_cast<int*>(output.data_ptr()),
-      maybe_indices.has_value() ? static_cast<int*>(maybe_indices.value().data_ptr()) : nullptr,
-      has_top_k_arr ? static_cast<float*>(maybe_top_k_arr.value().data_ptr()) : nullptr, batch_size,
-      top_k_val, vocab_size, deterministic, philox_seed, philox_offset, stream);
-  TVM_FFI_ICHECK(status == cudaSuccess)
-      << "TopKSamplingFromProbs failed with error code " << cudaGetErrorString(status);
+
+  DISPATCH_DLPACK_IDTYPE_TO_CTYPE(output.dtype(), IdType, [&] {
+    cudaError_t status = sampling::TopKSamplingFromProb<float, IdType>(
+        static_cast<float*>(probs.data_ptr()), static_cast<IdType*>(output.data_ptr()),
+        maybe_indices.has_value() ? static_cast<IdType*>(maybe_indices.value().data_ptr())
+                                  : nullptr,
+        has_top_k_arr ? static_cast<float*>(maybe_top_k_arr.value().data_ptr()) : nullptr,
+        batch_size, top_k_val, vocab_size, deterministic, philox_seed, philox_offset, stream);
+    TVM_FFI_ICHECK(status == cudaSuccess)
+        << "TopKSamplingFromProbs failed with error code " << cudaGetErrorString(status);
+    return true;
+  });
 }
 
 void min_p_sampling_from_probs(TensorView probs, TensorView output,
@@ -139,22 +163,28 @@ void min_p_sampling_from_probs(TensorView probs, TensorView output,
   CHECK_DEVICE(output, probs);
   CHECK_DIM(2, probs);   // probs: (batch_size, vocab_size)
   CHECK_DIM(1, output);  // output: (batch_size)
-  CHECK_MAYBE_INPUT_TYPE(maybe_indices, dl_int32);
+  CHECK_MAYBE_INPUT_TYPES(maybe_indices, dl_int32, dl_int64);
+  CHECK_MAYBE_SAME_DTYPE(maybe_indices, output);
   unsigned int batch_size = output.size(0);
   unsigned int vocab_size = probs.size(1);
   check_tensor_param(maybe_min_p_arr, probs);
   bool has_min_p_arr = maybe_min_p_arr.has_value();
 
   ffi::CUDADeviceGuard device_guard(probs.device().device_id);
   auto stream = get_stream(probs.device());
-  cudaError_t status = sampling::MinPSamplingFromProb<float, int>(
-      static_cast<float*>(probs.data_ptr()),
-      has_min_p_arr ? static_cast<float*>(maybe_min_p_arr.value().data_ptr()) : nullptr,
-      static_cast<int*>(output.data_ptr()),
-      maybe_indices.has_value() ? static_cast<int*>(maybe_indices.value().data_ptr()) : nullptr,
-      batch_size, min_p_val, vocab_size, deterministic, philox_seed, philox_offset, stream);
-  TVM_FFI_ICHECK(status == cudaSuccess)
-      << "MinPSamplingFromProb failed with error code " << cudaGetErrorString(status);
+
+  DISPATCH_DLPACK_IDTYPE_TO_CTYPE(output.dtype(), IdType, [&] {
+    cudaError_t status = sampling::MinPSamplingFromProb<float, IdType>(
+        static_cast<float*>(probs.data_ptr()),
+        has_min_p_arr ? static_cast<float*>(maybe_min_p_arr.value().data_ptr()) : nullptr,
+        static_cast<IdType*>(output.data_ptr()),
+        maybe_indices.has_value() ? static_cast<IdType*>(maybe_indices.value().data_ptr())
+                                  : nullptr,
+        batch_size, min_p_val, vocab_size, deterministic, philox_seed, philox_offset, stream);
+    TVM_FFI_ICHECK(status == cudaSuccess)
+        << "MinPSamplingFromProb failed with error code " << cudaGetErrorString(status);
+    return true;
+  });
 }
 
 void top_k_top_p_sampling_from_probs(TensorView probs, TensorView output,
@@ -168,7 +198,8 @@ void top_k_top_p_sampling_from_probs(TensorView probs, TensorView output,
   CHECK_DEVICE(output, probs);
   CHECK_DIM(2, probs);   // probs: (batch_size, vocab_size)
   CHECK_DIM(1, output);  // output: (batch_size)
-  CHECK_MAYBE_INPUT_TYPE(maybe_indices, dl_int32);
+  CHECK_MAYBE_INPUT_TYPES(maybe_indices, dl_int32, dl_int64);
+  CHECK_MAYBE_SAME_DTYPE(maybe_indices, output);
   unsigned int batch_size = output.size(0);
   unsigned int vocab_size = probs.size(1);
   check_tensor_param(maybe_top_k_arr, probs);
@@ -178,16 +209,21 @@ void top_k_top_p_sampling_from_probs(TensorView probs, TensorView output,
 
   ffi::CUDADeviceGuard device_guard(probs.device().device_id);
   auto stream = get_stream(probs.device());
-  cudaError_t status = sampling::TopKTopPSamplingFromProb<float, int>(
-      static_cast<float*>(probs.data_ptr()),
-      has_top_k_arr ? static_cast<int*>(maybe_top_k_arr.value().data_ptr()) : nullptr,
-      has_top_p_arr ? static_cast<float*>(maybe_top_p_arr.value().data_ptr()) : nullptr,
-      static_cast<int*>(output.data_ptr()),
-      maybe_indices.has_value() ? static_cast<int*>(maybe_indices.value().data_ptr()) : nullptr,
-      batch_size, top_k_val, top_p_val, vocab_size, deterministic, philox_seed, philox_offset,
-      stream);
-  TVM_FFI_ICHECK(status == cudaSuccess)
-      << "TopKTopPSamplingFromProbs failed with error code " << cudaGetErrorString(status);
+
+  DISPATCH_DLPACK_IDTYPE_TO_CTYPE(output.dtype(), IdType, [&] {
+    cudaError_t status = sampling::TopKTopPSamplingFromProb<float, IdType>(
+        static_cast<float*>(probs.data_ptr()),
+        has_top_k_arr ? static_cast<IdType*>(maybe_top_k_arr.value().data_ptr()) : nullptr,
+        has_top_p_arr ? static_cast<float*>(maybe_top_p_arr.value().data_ptr()) : nullptr,
+        static_cast<IdType*>(output.data_ptr()),
+        maybe_indices.has_value() ? static_cast<IdType*>(maybe_indices.value().data_ptr())
+                                  : nullptr,
+        batch_size, top_k_val, top_p_val, vocab_size, deterministic, philox_seed, philox_offset,
+        stream);
+    TVM_FFI_ICHECK(status == cudaSuccess)
+        << "TopKTopPSamplingFromProbs failed with error code " << cudaGetErrorString(status);
+    return true;
+  });
 }
 
 void chain_speculative_sampling(TensorView draft_probs, TensorView draft_token_ids,
 
@@ -276,6 +276,18 @@ inline void check_shape(const tvm::ffi::TensorView& a, const tvm::ffi::TensorVie
   if (maybe_x.has_value()) {                \
     CHECK_INPUT_TYPE(maybe_x.value(), st);  \
   }
+#define CHECK_MAYBE_INPUT_TYPES(maybe_x, st1, st2)                                   \
+  if (maybe_x.has_value()) {                                                         \
+    TVM_FFI_ICHECK(maybe_x.value().dtype() == st1 || maybe_x.value().dtype() == st2) \
+        << "Inconsistency of Tensor type: " #maybe_x " must be " #st1 " or " #st2;   \
+  }
+#define CHECK_SAME_DTYPE(x, y)           \
+  TVM_FFI_ICHECK(x.dtype() == y.dtype()) \
+      << "Inconsistency of Tensor type: " #x " dtype must match " #y " dtype";
+#define CHECK_MAYBE_SAME_DTYPE(maybe_x, y) \
+  if (maybe_x.has_value()) {               \
+    CHECK_SAME_DTYPE(maybe_x.value(), y);  \
+  }
 #define CHECK_LAST_DIM_CONTIGUOUS_INPUT(x) \
   CHECK_CUDA(x);                           \
   CHECK_LAST_DIM_CONTIGUOUS(x)