intel
diff --git a/‎examples/heterogeneous_demo copy.ipynb‎
Lines changed: 296 additions & 0 deletions b/‎examples/heterogeneous_demo copy.ipynb‎
Lines changed: 296 additions & 0 deletions
diff --git a/‎omniscidb/CudaMgr/CudaMgr.cpp‎
Lines changed: 11 additions & 0 deletions b/‎omniscidb/CudaMgr/CudaMgr.cpp‎
Lines changed: 11 additions & 0 deletions
diff --git a/‎omniscidb/CudaMgr/CudaMgr.h‎
Lines changed: 5 additions & 0 deletions b/‎omniscidb/CudaMgr/CudaMgr.h‎
Lines changed: 5 additions & 0 deletions
diff --git a/‎omniscidb/CudaMgr/CudaMgrNoCuda.cpp‎
Lines changed: 7 additions & 0 deletions b/‎omniscidb/CudaMgr/CudaMgrNoCuda.cpp‎
Lines changed: 7 additions & 0 deletions
diff --git a/‎omniscidb/DataMgr/Allocators/DeviceAllocator.h‎
Lines changed: 1 addition & 0 deletions b/‎omniscidb/DataMgr/Allocators/DeviceAllocator.h‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎omniscidb/DataMgr/Allocators/GpuAllocator.cpp‎
Lines changed: 4 additions & 0 deletions b/‎omniscidb/DataMgr/Allocators/GpuAllocator.cpp‎
Lines changed: 4 additions & 0 deletions
diff --git a/‎omniscidb/DataMgr/Allocators/GpuAllocator.h‎
Lines changed: 1 addition & 0 deletions b/‎omniscidb/DataMgr/Allocators/GpuAllocator.h‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎omniscidb/DataMgr/BufferMgr/CpuBufferMgr/CpuBuffer.cpp‎
Lines changed: 2 additions & 1 deletion b/‎omniscidb/DataMgr/BufferMgr/CpuBufferMgr/CpuBuffer.cpp‎
Lines changed: 2 additions & 1 deletion
diff --git a/‎omniscidb/DataMgr/DataMgrBufferProvider.cpp‎
Lines changed: 1 addition & 5 deletions b/‎omniscidb/DataMgr/DataMgrBufferProvider.cpp‎
Lines changed: 1 addition & 5 deletions
diff --git a/‎omniscidb/DataMgr/GpuMgr.h‎
Lines changed: 5 additions & 0 deletions b/‎omniscidb/DataMgr/GpuMgr.h‎
Lines changed: 5 additions & 0 deletions
@@ -0,0 +1,296 @@
+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# Initialization\n",
+    "import pyhdk \n",
+    "import pandas\n",
+    "import time\n",
+    "import pyarrow as pa\n",
+    "import pyarrow.csv\n",
+    "import os, sys\n",
+    "\n",
+    "config = pyhdk.buildConfig(enable_heterogeneous=True,\n",
+    "                           force_heterogeneous_distribution=True,\n",
+    "                           enable_multifrag_heterogeneous=True,\n",
+    "                           enable_debug_timer=True,\n",
+    "                           )\n",
+    "pyhdk.initLogger(log_severity=\"INFO\")\n",
+    "storage = pyhdk.storage.ArrowStorage(1)\n",
+    "data_mgr = pyhdk.storage.DataMgr(config)\n",
+    "data_mgr.registerDataProvider(storage)\n",
+    "\n",
+    "calcite = pyhdk.sql.Calcite(storage, config)\n",
+    "executor = pyhdk.Executor(data_mgr, config)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 2,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# Helper Functions\n",
+    "default_step = 50\n",
+    "default_iters = 3\n",
+    "\n",
+    "def get_rel_alg(sql):\n",
+    "    return calcite.process(sql)\n",
+    "\n",
+    "def run_query(sql):\n",
+    "    ra = get_rel_alg(sql)\n",
+    "    # One RelAlgExecutor per query\n",
+    "    rel_alg_executor = pyhdk.sql.RelAlgExecutor(executor, storage, data_mgr, ra)\n",
+    "    return rel_alg_executor.execute()\n",
+    "\n",
+    "\n",
+    "def import_hdk_pyarrow(storage, arrow_table, hdk_table_name, fragment_size, overwrite=True):\n",
+    "    \"\"\"\n",
+    "    Imports a pyarrow table to HDK with the given fragment size.\n",
+    "        overwrite: By default overwrites previously existing table.\n",
+    "    \"\"\"\n",
+    "    opt = pyhdk.storage.TableOptions(fragment_size)\n",
+    "    start_timer = time.perf_counter()\n",
+    "    try:\n",
+    "        storage.importArrowTable(arrow_table, hdk_table_name, opt)\n",
+    "    except:\n",
+    "        if not overwrite:\n",
+    "            raise Exception(f\"Cannot overwrite table{hdk_table_name}, overwrite={overwrite}\")\n",
+    "        storage.dropTable(hdk_table_name)\n",
+    "        storage.importArrowTable(arrow_table, hdk_table_name, opt)\n",
+    "    print(f\"[PyHDK] Importing pyarrow table: {(time.perf_counter()-start_timer):.4f}s\")\n",
+    "\n",
+    "\n",
+    "def run_query_het_all_props(sql, query_name=\"\", prop_step=default_step, n_iters=default_iters, clear_memory_devices=[]):\n",
+    "    \"\"\"\n",
+    "    Runs SQL query multiple times at each proportion, feel free try and experiment with loops order.\n",
+    "        clear_memory_devices: clear memory of the device manager: 1:CPU, 2:GPU \n",
+    "    \"\"\"\n",
+    "    cython_enum_dict = {\"CPU\":1, \"GPU\":2} # May move up to cython for easier interface\n",
+    "    ra = get_rel_alg(sql)\n",
+    "    col_names = [\"GPU_prop\", f\"QueryT_{query_name}\"]\n",
+    "    prop_time = {col_names[0] : [], col_names[1]: []}\n",
+    "    # Walking over proportions\n",
+    "    for gpu_proportion in range(0, 101, prop_step):\n",
+    "        # Multiple iterations\n",
+    "        for _ in range(1, n_iters + 1):\n",
+    "            rel_alg_executor = pyhdk.sql.RelAlgExecutor(executor, storage, data_mgr, ra)\n",
+    "            query_start = time.perf_counter()\n",
+    "            result = rel_alg_executor.execute(forced_gpu_proportion=gpu_proportion)\n",
+    "            query_finish = time.perf_counter()\n",
+    "            prop_time[col_names[0]].append(gpu_proportion)\n",
+    "            prop_time[col_names[1]].append(query_finish - query_start)\n",
+    "            [executor.clearMemory(data_mgr, cython_enum_dict[device]) for device in clear_memory_devices]\n",
+    "\n",
+    "        df_prop_time = pandas.DataFrame(prop_time, columns=col_names)\n",
+    "    # Some metadata to get idea about the output cardinality\n",
+    "    df_output = result.to_arrow().to_pandas()\n",
+    "    output_size_KB = df_output.memory_usage(index=True).sum() // (1024)\n",
+    "    df_prop_time.rename(columns={col_names[1]:f\"{col_names[1]}_{output_size_KB}KB\"}, inplace=True)\n",
+    "    return [df_prop_time, df_output]\n",
+    "\n",
+    "def run_queries_all_props(query_dict, step=default_step, n_iters=default_iters, clear_memory_devices=[]):\n",
+    "    \"\"\"\n",
+    "    Runs query dictionary of SQL queries with the following structure: dict(query_name:{SQL_string})\n",
+    "        clear_memory_devices: clear memory of the device manager after each query: \"CPU\", \"GPU\" \n",
+    "    \"\"\"\n",
+    "    q_timings_dict = dict()\n",
+    "    for q_name in query_dict:\n",
+    "        [df_prop_time, df_output] = run_query_het_all_props(query_dict[q_name], \n",
+    "                                                            query_name=q_name, \n",
+    "                                                            prop_step=step, \n",
+    "                                                            n_iters=n_iters, \n",
+    "                                                            clear_memory_devices=clear_memory_devices)\n",
+    "        df_prop_time.set_index(\"GPU_prop\", inplace=True)\n",
+    "        q_timings_dict[q_name] = (df_prop_time)\n",
+    "    return q_timings_dict\n",
+    "\n",
+    "def fragment_size_calc(num_rows):\n",
+    "    \"\"\"Taken from Modin, you can experiment with it.\"\"\"\n",
+    "    cpu_count = os.cpu_count()\n",
+    "    if cpu_count is not None:\n",
+    "        fragment_size = num_rows // cpu_count\n",
+    "        fragment_size = min(fragment_size, 2**25)\n",
+    "        fragment_size = max(fragment_size, 2**18)\n",
+    "        return fragment_size\n",
+    "    else:\n",
+    "        return None\n",
+    "\n",
+    "def fragment_size_test_range(num_rows):\n",
+    "    \"\"\"\n",
+    "    Take two power of two steps around default frag_size: [x/4,x/2,x,x*2,x*4].\n",
+    "    \"\"\"\n",
+    "    res_range = []\n",
+    "    default_fragment_size = fragment_size_calc(num_rows)\n",
+    "    print(f\"Default fragment_size={default_fragment_size}\")\n",
+    "    power_two_steps = 2\n",
+    "    range_start = default_fragment_size//(2**power_two_steps)\n",
+    "    range_end = default_fragment_size*(2**power_two_steps)\n",
+    "    fragment_size = range_start\n",
+    "    while fragment_size < range_end+1:\n",
+    "        res_range.append(fragment_size)\n",
+    "        fragment_size *= 2\n",
+    "    return res_range\n",
+    "\n",
+    "def test_groups_fragment_sizes(storage, pyarrow_tbl, table_name, get_q_dict_callback, step, n_iters, clear_memory_devices=[]):\n",
+    "    \"\"\" \n",
+    "    Produces the follwing result grouping: fragment_size{query_name{timings_df}}\n",
+    "    \"\"\"\n",
+    "    part_group_timings_dict = dict()\n",
+    "    for frag_size in fragment_size_test_range(pyarrow_tbl.num_rows):\n",
+    "        table_size_MB = pyarrow_tbl.nbytes // (1024*1024)\n",
+    "        print(f\"Testing {table_size_MB}MB Table with Frag.size={frag_size}\")\n",
+    "        refragmented_view_name = f\"{table_name}_{frag_size}\"\n",
+    "        storage.createRefragmentedView(table_name, refragmented_view_name, frag_size)\n",
+    "        part_group_timings_dict[f\"Tbl_size_{table_size_MB}MB_frag_size_{frag_size}\"] = run_queries_all_props(get_q_dict_callback(refragmented_view_name), step, n_iters, clear_memory_devices)\n",
+    "        storage.dropTable(refragmented_view_name)\n",
+    "    return part_group_timings_dict"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 3,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "One column of 100.0 Mil. rows takes 762.939453125 MB\n",
+      "Chunk size: 40000\n"
+     ]
+    }
+   ],
+   "source": [
+    "import numpy as np\n",
+    "\n",
+    "num_groups = [100 * i for i in range(1,8)] #[500, 1000, 2000, 5000, 10000]#, 4000, 30000, 20000, 1000000]\n",
+    "# # num_groups = [200, 512, 513, 1000, 2000, 5000, 10000] #4000, 10000, 20000, 1000000]\n",
+    "total_rows = int(100*1000*1000)\n",
+    "table_columns = []\n",
+    "column_data = []\n",
+    "chunk_size = 40000\n",
+    "for group in num_groups:\n",
+    "    groups = np.random.randint(0, group, total_rows)\n",
+    "    column_name = f\"group_{group}\"\n",
+    "    chunks = [pa.array(groups[i:i+chunk_size], pa.int64()) for i in range(0, len(groups), chunk_size)]\n",
+    "    column = pa.chunked_array(chunks)\n",
+    "    table_columns.append(pa.field(column_name, column.type))\n",
+    "    column_data.append(column)\n",
+    "    \n",
+    "aggregated_data = np.random.uniform(0.0, 1000000.0, total_rows).astype(np.float64)\n",
+    "chunks = [pa.array(aggregated_data[i:i+chunk_size], pa.float64()) for i in range(0, len(aggregated_data), chunk_size)]\n",
+    "aggregated_column = pa.chunked_array(chunks)\n",
+    "\n",
+    "# aggregated_data = np.random.randint(0, 1000000, total_rows)\n",
+    "# aggregated_column = pa.array(aggregated_data, pa.int64())\n",
+    "table_columns.append(pa.field(\"aggregated_data\", aggregated_column.type))\n",
+    "column_data.append(aggregated_column)\n",
+    "\n",
+    "table_schema = pa.schema(table_columns)\n",
+    "groups_tbl = pa.Table.from_arrays(column_data, schema=table_schema)\n",
+    "print(f\"One column of {total_rows/(1000000)} Mil. rows takes {(total_rows*8)/(1024*1024)} MB\")\n",
+    "print(f\"Chunk size: {len(groups_tbl.column(0).chunks[0])}\")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 4,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "[PyHDK] Importing pyarrow table: 0.2104s\n"
+     ]
+    }
+   ],
+   "source": [
+    "default_fragment_size = fragment_size_calc(groups_tbl.num_rows)\n",
+    "import_hdk_pyarrow(storage, groups_tbl, f\"groups_table\", groups_tbl.num_rows//200)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 5,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "      EXPR$0\n",
+      "0  100000000\n",
+      "      EXPR$0\n",
+      "0  100000000\n",
+      "      EXPR$0\n",
+      "0  100000000\n",
+      "      EXPR$0\n",
+      "0  100000000\n",
+      "      EXPR$0\n",
+      "0  100000000\n",
+      "      EXPR$0\n",
+      "0  100000000\n",
+      "      EXPR$0\n",
+      "0  100000000\n"
+     ]
+    }
+   ],
+   "source": [
+    "for group in num_groups[:8]:\n",
+    "    # ra = get_rel_alg(f\"SELECT MIN({groups_tbl.column_names[-1]}), MAX({groups_tbl.column_names[-1]}) FROM groups_table GROUP BY group_{group};\")\n",
+    "    ra = get_rel_alg(f\"SELECT SUM(x) FROM (SELECT COUNT(*) x FROM groups_table GROUP BY group_{group});\")\n",
+    "    gpu_prop = 100\n",
+    "    rel_alg_executor = pyhdk.sql.RelAlgExecutor(executor, storage, data_mgr, ra)\n",
+    "    result = rel_alg_executor.execute(forced_gpu_proportion=50)\n",
+    "    print(result.to_arrow().to_pandas())"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 6,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "executor.clearMemory(data_mgr, 2)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# HDK Cleanup\n",
+    "storage.dropTable(table_name)"
+   ]
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "omnisci-dev",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.9.16"
+  },
+  "orig_nbformat": 4
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}
@@ -112,6 +112,17 @@ void CudaMgr::copyHostToDevice(int8_t* device_ptr,
       cuMemcpyHtoD(reinterpret_cast<CUdeviceptr>(device_ptr), host_ptr, num_bytes));
 }
 
+void CudaMgr::copyHostToDeviceAsyncIfPossible(int8_t* device_ptr,
+                                              const int8_t* host_ptr,
+                                              const size_t num_bytes,
+                                              const int device_num) {
+  if constexpr (async_data_load_available) {
+    copyHostToDeviceAsync(device_ptr, host_ptr, num_bytes, device_num);
+  } else {
+    copyHostToDevice(device_ptr, host_ptr, num_bytes, device_num);
+  }
+}
+
 void CudaMgr::copyHostToDeviceAsync(int8_t* device_ptr,
                                     const int8_t* host_ptr,
                                     const size_t num_bytes,
 
@@ -96,6 +96,11 @@ class CudaMgr : public GpuMgr {
                         const size_t num_bytes,
                         const int device_num) override;
 
+  void copyHostToDeviceAsyncIfPossible(int8_t* device_ptr,
+                                       const int8_t* host_ptr,
+                                       const size_t num_bytes,
+                                       const int device_num) override;
+
   void copyHostToDeviceAsync(int8_t* device_ptr,
                              const int8_t* host_ptr,
                              const size_t num_bytes,
 
@@ -43,6 +43,13 @@ void CudaMgr::copyHostToDeviceAsync(int8_t* device_ptr,
   CHECK(false);
 }
 
+void CudaMgr::copyHostToDeviceAsyncIfPossible(int8_t* device_ptr,
+                                              const int8_t* host_ptr,
+                                              const size_t num_bytes,
+                                              const int device_num) {
+  CHECK(false);
+}
+
 void CudaMgr::synchronizeStream(const int device_num) {
   CHECK(false);
 }
 
@@ -53,4 +53,5 @@ class DeviceAllocator : public Allocator {
   virtual void setDeviceMem(int8_t* device_ptr,
                             unsigned char uc,
                             const size_t num_bytes) const = 0;
+  virtual void sync() = 0;
 };
@@ -84,3 +84,7 @@ void GpuAllocator::setDeviceMem(int8_t* device_ptr,
                                 const size_t num_bytes) const {
   buffer_provider_->setDeviceMem(device_ptr, uc, num_bytes, device_id_);
 }
+
+void GpuAllocator::sync(){
+  buffer_provider_->synchronizeStream(device_id_);
+}
@@ -58,6 +58,7 @@ class GpuAllocator : public DeviceAllocator {
   void setDeviceMem(int8_t* device_ptr,
                     unsigned char uc,
                     const size_t num_bytes) const override;
+  void sync() override;
 
  private:
   std::vector<Data_Namespace::AbstractBuffer*> owned_buffers_;
 
@@ -48,7 +48,8 @@ void CpuBuffer::readData(int8_t* const dst,
     memcpy(dst, mem_ + offset, num_bytes);
   } else if (dst_memory_level == GPU_LEVEL) {
     CHECK_GE(dst_device_id, 0);
-    gpu_mgr_->copyHostToDevice(dst, mem_ + offset, num_bytes, dst_device_id);
+    gpu_mgr_->copyHostToDeviceAsyncIfPossible(
+        dst, mem_ + offset, num_bytes, dst_device_id);
   } else {
     LOG(FATAL) << "Unsupported buffer type";
   }
 
@@ -57,11 +57,7 @@ void DataMgrBufferProvider::copyToDeviceAsyncIfPossible(int8_t* device_ptr,
   CHECK(data_mgr_);
   const auto gpu_mgr = data_mgr_->getGpuMgr();
   CHECK(gpu_mgr);
-  if (gpu_mgr->canLoadAsync()) {
-    gpu_mgr->copyHostToDeviceAsync(device_ptr, host_ptr, num_bytes, device_id);
-  } else {
-    gpu_mgr->copyHostToDevice(device_ptr, host_ptr, num_bytes, device_id);
-  }
+  gpu_mgr->copyHostToDeviceAsyncIfPossible(device_ptr, host_ptr, num_bytes, device_id);
 }
 
 void DataMgrBufferProvider::synchronizeStream(const int device_num) const {
 
@@ -38,6 +38,11 @@ struct GpuMgr {
                                      const size_t num_bytes,
                                      const int device_num) = 0;
 
+  virtual void copyHostToDeviceAsyncIfPossible(int8_t* device_ptr,
+                                               const int8_t* host_ptr,
+                                               const size_t num_bytes,
+                                               const int device_num) = 0;
+
   virtual void synchronizeStream(const int device_num) = 0;
 
   virtual void copyDeviceToHost(int8_t* host_ptr,
Original file line number	Diff line number	Diff line change
`@@ -43,6 +43,13 @@ void CudaMgr::copyHostToDeviceAsync(int8_t* device_ptr,`
`43`	`43`	`CHECK(false);`
`44`	`44`	`}`
`45`	`45`
	`46`	`+void CudaMgr::copyHostToDeviceAsyncIfPossible(int8_t* device_ptr,`
	`47`	`+ const int8_t* host_ptr,`
	`48`	`+ const size_t num_bytes,`
	`49`	`+ const int device_num) {`
	`50`	`+ CHECK(false);`
	`51`	`+}`
	`52`	`+`
`46`	`53`	`void CudaMgr::synchronizeStream(const int device_num) {`
`47`	`54`	`CHECK(false);`
`48`	`55`	`}`
Original file line number	Diff line number	Diff line change
`@@ -84,3 +84,7 @@ void GpuAllocator::setDeviceMem(int8_t* device_ptr,`
`84`	`84`	`const size_t num_bytes) const {`
`85`	`85`	`buffer_provider_->setDeviceMem(device_ptr, uc, num_bytes, device_id_);`
`86`	`86`	`}`
	`87`	`+`
	`88`	`+void GpuAllocator::sync(){`
	`89`	`+ buffer_provider_->synchronizeStream(device_id_);`
	`90`	`+}`