unambiguous executor

akroviakov · kurapov-peter · commit ff6b55e1917b · 2023-09-26T10:50:50.000+02:00
diff --git a/omniscidb/QueryEngine/CostModel/CostModel.h b/omniscidb/QueryEngine/CostModel/CostModel.h
@@ -49,7 +49,9 @@ class CostModel {
 
   virtual void calibrate(const CaibrationConfig& conf);
   virtual std::unique_ptr<policy::ExecutionPolicy> predict(
-      QueryInfo query_info) const = 0;
+      QueryInfo query_info,
+      const std::map<ExecutorDeviceType, ExecutorDispatchMode>& devices_dispatch_modes)
+      const = 0;
 
  protected:
   struct DeviceExtrapolations {
diff --git a/omniscidb/QueryEngine/CostModel/Dispatchers/DefaultExecutionPolicy.cpp b/omniscidb/QueryEngine/CostModel/Dispatchers/DefaultExecutionPolicy.cpp
@@ -24,7 +24,7 @@ SchedulingAssignment FragmentIDAssignmentExecutionPolicy::scheduleSingleFragment
   int device_id = fragment.deviceIds[static_cast<int>(memory_level)];
   return {dt_, device_id};
 }
-std::vector<ExecutorDeviceType> FragmentIDAssignmentExecutionPolicy::devices() const {
+std::set<ExecutorDeviceType> FragmentIDAssignmentExecutionPolicy::devices() const {
   return {dt_};
 }
 }  // namespace policy
diff --git a/omniscidb/QueryEngine/CostModel/Dispatchers/DefaultExecutionPolicy.h b/omniscidb/QueryEngine/CostModel/Dispatchers/DefaultExecutionPolicy.h
@@ -18,11 +18,14 @@
 namespace policy {
 class FragmentIDAssignmentExecutionPolicy : public ExecutionPolicy {
  public:
-  FragmentIDAssignmentExecutionPolicy(ExecutorDeviceType dt) : dt_(dt){};
+  FragmentIDAssignmentExecutionPolicy(
+      ExecutorDeviceType dt,
+      const std::map<ExecutorDeviceType, ExecutorDispatchMode>& devices_dispatch_modes)
+      : ExecutionPolicy(devices_dispatch_modes), dt_(dt){};
   SchedulingAssignment scheduleSingleFragment(const FragmentInfo&,
                                               size_t frag_id,
                                               size_t frag_num) const override;
-  std::vector<ExecutorDeviceType> devices() const override;
+  std::set<ExecutorDeviceType> devices() const override;
   std::string name() const override { return "ExecutionPolicy::FragmentIDAssignment"; };
 
  private:
diff --git a/omniscidb/QueryEngine/CostModel/Dispatchers/ExecutionPolicy.h b/omniscidb/QueryEngine/CostModel/Dispatchers/ExecutionPolicy.h
@@ -27,28 +27,45 @@ struct SchedulingAssignment {
 };
 
 class ExecutionPolicy {
+  std::map<ExecutorDeviceType, ExecutorDispatchMode> devices_dispatch_modes_;
+
  public:
+  ExecutionPolicy(
+      const std::map<ExecutorDeviceType, ExecutorDispatchMode>& devices_dispatch_modes)
+      : devices_dispatch_modes_(devices_dispatch_modes){};
   virtual SchedulingAssignment scheduleSingleFragment(const FragmentInfo&,
                                                       size_t frag_id,
                                                       size_t frag_num) const = 0;
-  virtual std::vector<ExecutorDeviceType> devices() const {
-    return {ExecutorDeviceType::CPU, ExecutorDeviceType::GPU};
+
+  virtual std::set<ExecutorDeviceType> devices() const {
+    std::set<ExecutorDeviceType> res;
+    for (const auto& dt_mode : devices_dispatch_modes_) {
+      res.insert(dt_mode.first);
+    }
+    return res;
+  }
+
+  virtual bool hasDevice(const ExecutorDeviceType dt) const {
+    return (devices_dispatch_modes_.count(dt) != 0);
+  }
+
+  virtual ExecutorDispatchMode getExecutionMode(const ExecutorDeviceType dt) const {
+    CHECK(hasDevice(dt));
+    return devices_dispatch_modes_.at(dt);
+  }
+
+  virtual std::map<ExecutorDeviceType, ExecutorDispatchMode> getExecutionModes() const {
+    return devices_dispatch_modes_;
   }
   virtual std::string name() const = 0;
 
   virtual ~ExecutionPolicy() = default;
-
-  // Probe/modify modes during kernel building (do not iterate). These are the default
-  // modes.
-  std::unordered_map<ExecutorDeviceType, ExecutorDispatchMode> devices_dispatch_modes{
-      {ExecutorDeviceType::CPU, ExecutorDispatchMode::KernelPerFragment},
-      {ExecutorDeviceType::GPU, ExecutorDispatchMode::KernelPerFragment}};
 };
 
 inline std::ostream& operator<<(std::ostream& os, const ExecutionPolicy& policy) {
   os << policy.name() << "\n";
   os << "Dispatching modes: \n";
-  for (const auto& device_disp_mode : policy.devices_dispatch_modes) {
+  for (const auto& device_disp_mode : policy.getExecutionModes()) {
     os << device_disp_mode.first << " - " << device_disp_mode.second << "\n";
   }
   return os;
diff --git a/omniscidb/QueryEngine/CostModel/Dispatchers/ProportionBasedExecutionPolicy.cpp b/omniscidb/QueryEngine/CostModel/Dispatchers/ProportionBasedExecutionPolicy.cpp
@@ -19,9 +19,11 @@
 namespace policy {
 
 ProportionBasedExecutionPolicy::ProportionBasedExecutionPolicy(
-    std::map<ExecutorDeviceType, unsigned>&& propotion) {
-  CHECK_GT(propotion.size(), 0u);
-  proportion_.merge(propotion);
+    std::map<ExecutorDeviceType, unsigned>&& proportion,
+    const std::map<ExecutorDeviceType, ExecutorDispatchMode>& devices_dispatch_modes)
+    : ExecutionPolicy(devices_dispatch_modes) {
+  CHECK_GT(proportion.size(), 0u);
+  proportion_.merge(proportion);
   total_parts_ = std::accumulate(
       proportion_.begin(), proportion_.end(), 0u, [](unsigned acc, auto& cur) {
         return acc + cur.second;
diff --git a/omniscidb/QueryEngine/CostModel/Dispatchers/ProportionBasedExecutionPolicy.h b/omniscidb/QueryEngine/CostModel/Dispatchers/ProportionBasedExecutionPolicy.h
@@ -24,7 +24,9 @@ namespace policy {
  */
 class ProportionBasedExecutionPolicy : public ExecutionPolicy {
  public:
-  ProportionBasedExecutionPolicy(std::map<ExecutorDeviceType, unsigned>&& proportion);
+  ProportionBasedExecutionPolicy(
+      std::map<ExecutorDeviceType, unsigned>&& proportion,
+      const std::map<ExecutorDeviceType, ExecutorDispatchMode>& devices_dispatch_modes);
   SchedulingAssignment scheduleSingleFragment(const FragmentInfo&,
                                               size_t frag_id,
                                               size_t frag_num) const override;
diff --git a/omniscidb/QueryEngine/CostModel/Dispatchers/RRExecutionPolicy.h b/omniscidb/QueryEngine/CostModel/Dispatchers/RRExecutionPolicy.h
@@ -18,6 +18,10 @@
 namespace policy {
 class RoundRobinExecutionPolicy : public ExecutionPolicy {
  public:
+  RoundRobinExecutionPolicy(
+      const std::map<ExecutorDeviceType, ExecutorDispatchMode>& devices_dispatch_modes)
+      : ExecutionPolicy(devices_dispatch_modes){};
+
   SchedulingAssignment scheduleSingleFragment(const FragmentInfo&,
                                               size_t frag_id,
                                               size_t frag_num) const override;
diff --git a/omniscidb/QueryEngine/CostModel/IterativeCostModel.cpp b/omniscidb/QueryEngine/CostModel/IterativeCostModel.cpp
@@ -31,7 +31,9 @@ IterativeCostModel::IterativeCostModel()
 #endif
 
 std::unique_ptr<policy::ExecutionPolicy> IterativeCostModel::predict(
-    QueryInfo query_info) const {
+    QueryInfo query_info,
+    const std::map<ExecutorDeviceType, ExecutorDispatchMode>& devices_dispatch_modes)
+    const {
   std::shared_lock<std::shared_mutex> l(latch_);
 
   unsigned cpu_prop = 1, gpu_prop = 0;
@@ -74,6 +76,7 @@ std::unique_ptr<policy::ExecutionPolicy> IterativeCostModel::predict(
   proportion[ExecutorDeviceType::GPU] = gpu_prop;
   proportion[ExecutorDeviceType::CPU] = cpu_prop;
 
-  return std::make_unique<policy::ProportionBasedExecutionPolicy>(std::move(proportion));
+  return std::make_unique<policy::ProportionBasedExecutionPolicy>(std::move(proportion),
+                                                                  devices_dispatch_modes);
 }
 }  // namespace costmodel
diff --git a/omniscidb/QueryEngine/CostModel/IterativeCostModel.h b/omniscidb/QueryEngine/CostModel/IterativeCostModel.h
@@ -24,7 +24,10 @@ class IterativeCostModel : public CostModel {
   IterativeCostModel();
   IterativeCostModel(CostModelConfig config) : CostModel(std::move(config)) {}
 
-  virtual std::unique_ptr<policy::ExecutionPolicy> predict(QueryInfo query_info) const;
+  virtual std::unique_ptr<policy::ExecutionPolicy> predict(
+      QueryInfo query_info,
+      const std::map<ExecutorDeviceType, ExecutorDispatchMode>& devices_dispatch_modes)
+      const;
 
  private:
   static constexpr size_t optimization_iterations_ = 1024;
diff --git a/omniscidb/QueryEngine/Descriptors/QueryFragmentDescriptor.cpp b/omniscidb/QueryEngine/Descriptors/QueryFragmentDescriptor.cpp
@@ -99,7 +99,7 @@ void QueryFragmentDescriptor::buildFragmentPerKernelForTable(
     Executor* executor,
     compiler::CodegenTraitsDescriptor cgen_traits_desc) {
   const auto inner_table_id_to_join_condition = executor->getInnerTabIdToJoinCond();
-  LOG(INFO) << *policy;
+  LOG(INFO) << "Building Kernel Fragment table with policy: " << *policy;
   for (size_t frag_id = 0; frag_id < fragments->size(); frag_id++) {
     if (!allowed_outer_fragment_indices_.empty()) {
       if (std::find(allowed_outer_fragment_indices_.begin(),
@@ -162,7 +162,7 @@ void QueryFragmentDescriptor::buildFragmentPerKernelForTable(
         const auto table_id = ra_exe_unit.input_descs[table_desc_idx].getTableId();
         auto table_frags_it = selected_tables_fragments_.find({db_id, table_id});
         CHECK(table_frags_it != selected_tables_fragments_.end());
-        if (policy->devices_dispatch_modes.at(device_type) ==
+        if (policy->getExecutionMode(device_type) ==
             ExecutorDispatchMode::KernelPerFragment) {
           execution_kernel_desc.fragments.emplace_back(
               FragmentsPerTable{db_id, table_id, frag_ids});
@@ -198,7 +198,7 @@ void QueryFragmentDescriptor::buildFragmentPerKernelForTable(
     }
     LOG(DEBUG1) << "Assigning frag_id=" << frag_id << "/" << fragments->size() - 1
                 << " to " << device_type << ", device_id=" << device_id;
-    if (policy->devices_dispatch_modes.at(device_type) ==
+    if (policy->getExecutionMode(device_type) ==
         ExecutorDispatchMode::KernelPerFragment) {
       auto itr = execution_kernels_per_device_[device_type].find(device_id);
       if (itr == execution_kernels_per_device_[device_type].end()) {
@@ -237,31 +237,36 @@ void QueryFragmentDescriptor::buildFragmentPerKernelMapForUnion(
                                    j,
                                    executor,
                                    cgen_traits_desc);
-
-    std::vector<int> table_cpu_ids =
-        std::accumulate(execution_kernels_per_device_[ExecutorDeviceType::CPU][0].begin(),
-                        execution_kernels_per_device_[ExecutorDeviceType::CPU][0].end(),
-                        std::vector<int>(),
-                        [](auto&& vec, auto& exe_kern) {
-                          vec.push_back(exe_kern.fragments[0].table_id);
-                          return vec;
-                        });
-    std::vector<int> table_gpu_ids =
-        std::accumulate(execution_kernels_per_device_[ExecutorDeviceType::GPU][0].begin(),
-                        execution_kernels_per_device_[ExecutorDeviceType::GPU][0].end(),
-                        std::vector<int>(),
-                        [](auto&& vec, auto& exe_kern) {
-                          vec.push_back(exe_kern.fragments[0].table_id);
-                          return vec;
-                        });
-    VLOG(1) << "execution_kernels_per_device_[CPU].size()="
-            << execution_kernels_per_device_[ExecutorDeviceType::CPU].size()
-            << " execution_kernels_per_device_[CPU][0][*].fragments[0].table_id="
-            << shared::printContainer(table_cpu_ids);
-    VLOG(1) << "execution_kernels_per_device_[GPU].size()="
-            << execution_kernels_per_device_[ExecutorDeviceType::GPU].size()
-            << " execution_kernels_per_device_[GPU][0][*].fragments[0].table_id="
-            << shared::printContainer(table_gpu_ids);
+    if (policy->hasDevice(ExecutorDeviceType::CPU)) {
+      CHECK(execution_kernels_per_device_.count(ExecutorDeviceType::CPU));
+      std::vector<int> table_cpu_ids = std::accumulate(
+          execution_kernels_per_device_.at(ExecutorDeviceType::CPU)[0].begin(),
+          execution_kernels_per_device_.at(ExecutorDeviceType::CPU)[0].end(),
+          std::vector<int>(),
+          [](auto&& vec, auto& exe_kern) {
+            vec.push_back(exe_kern.fragments[0].table_id);
+            return vec;
+          });
+      VLOG(1) << "execution_kernels_per_device_[CPU].size()="
+              << execution_kernels_per_device_.at(ExecutorDeviceType::CPU).size()
+              << " execution_kernels_per_device_[CPU][0][*].fragments[0].table_id="
+              << shared::printContainer(table_cpu_ids);
+    }
+    if (policy->hasDevice(ExecutorDeviceType::GPU)) {
+      CHECK(execution_kernels_per_device_.count(ExecutorDeviceType::GPU));
+      std::vector<int> table_gpu_ids = std::accumulate(
+          execution_kernels_per_device_.at(ExecutorDeviceType::GPU)[0].begin(),
+          execution_kernels_per_device_.at(ExecutorDeviceType::GPU)[0].end(),
+          std::vector<int>(),
+          [](auto&& vec, auto& exe_kern) {
+            vec.push_back(exe_kern.fragments[0].table_id);
+            return vec;
+          });
+      VLOG(1) << "execution_kernels_per_device_[GPU].size()="
+              << execution_kernels_per_device_.at(ExecutorDeviceType::GPU).size()
+              << " execution_kernels_per_device_[GPU][0][*].fragments[0].table_id="
+              << shared::printContainer(table_gpu_ids);
+    }
   }
 }
 
diff --git a/omniscidb/QueryEngine/Descriptors/QueryFragmentDescriptor.h b/omniscidb/QueryEngine/Descriptors/QueryFragmentDescriptor.h
@@ -87,12 +87,12 @@ class QueryFragmentDescriptor {
   template <typename DISPATCH_FCN>
   void dispatchKernelsToDevices(DISPATCH_FCN dispatcher_f,
                                 const RelAlgExecutionUnit& ra_exe_unit,
-                                policy::ExecutionPolicy* policy) const {
+                                const policy::ExecutionPolicy* policy) const {
     std::unordered_map<ExecutorDeviceType, std::unordered_map<int, size_t>>
         execution_kernel_index;
     size_t tuple_count = 0;
     for (const auto& device_type_itr : execution_kernels_per_device_) {
-      if (policy->devices_dispatch_modes.at(device_type_itr.first) ==
+      if (policy->getExecutionMode(device_type_itr.first) ==
           ExecutorDispatchMode::KernelPerFragment) {
         for (const auto& device_itr : device_type_itr.second) {
           CHECK(execution_kernel_index[device_type_itr.first]
@@ -103,7 +103,7 @@ class QueryFragmentDescriptor {
     }
 
     for (const auto& device_type_itr : execution_kernels_per_device_) {
-      if (policy->devices_dispatch_modes.at(device_type_itr.first) ==
+      if (policy->getExecutionMode(device_type_itr.first) ==
           ExecutorDispatchMode::MultifragmentKernel) {
         for (const auto& device_itr : device_type_itr.second) {
           const auto& execution_kernels = device_itr.second;
@@ -115,22 +115,21 @@ class QueryFragmentDescriptor {
         bool dispatch_finished = false;
         while (!dispatch_finished) {
           dispatch_finished = true;
-          for (const auto& device_type_itr : execution_kernels_per_device_)
-            for (const auto& device_itr : device_type_itr.second) {
-              auto& kernel_idx =
-                  execution_kernel_index[device_type_itr.first][device_itr.first];
-              if (kernel_idx < device_itr.second.size()) {
-                dispatch_finished = false;
-                const auto& execution_kernel = device_itr.second[kernel_idx++];
-                dispatcher_f(device_itr.first,
-                             execution_kernel.fragments,
-                             rowid_lookup_key_,
-                             device_type_itr.first);
-                if (terminateDispatchMaybe(tuple_count, ra_exe_unit, execution_kernel)) {
-                  return;
-                }
+          for (const auto& device_itr : device_type_itr.second) {
+            auto& kernel_idx =
+                execution_kernel_index[device_type_itr.first][device_itr.first];
+            if (kernel_idx < device_itr.second.size()) {
+              dispatch_finished = false;
+              const auto& execution_kernel = device_itr.second[kernel_idx++];
+              dispatcher_f(device_itr.first,
+                           execution_kernel.fragments,
+                           rowid_lookup_key_,
+                           device_type_itr.first);
+              if (terminateDispatchMaybe(tuple_count, ra_exe_unit, execution_kernel)) {
+                return;
               }
             }
+          }
         }
       }
     }
diff --git a/omniscidb/QueryEngine/Execute.cpp b/omniscidb/QueryEngine/Execute.cpp
diff --git a/omniscidb/QueryEngine/Execute.h b/omniscidb/QueryEngine/Execute.h
diff --git a/omniscidb/QueryEngine/RelAlgExecutor.cpp b/omniscidb/QueryEngine/RelAlgExecutor.cpp

Original file line number	Diff line number	Diff line change
`@@ -24,7 +24,7 @@ SchedulingAssignment FragmentIDAssignmentExecutionPolicy::scheduleSingleFragment`
`24`	`24`	`int device_id = fragment.deviceIds[static_cast<int>(memory_level)];`
`25`	`25`	`return {dt_, device_id};`
`26`	`26`	`}`
`27`		`-std::vector<ExecutorDeviceType> FragmentIDAssignmentExecutionPolicy::devices() const {`
	`27`	`+std::set<ExecutorDeviceType> FragmentIDAssignmentExecutionPolicy::devices() const {`
`28`	`28`	`return {dt_};`
`29`	`29`	`}`
`30`	`30`	`} // namespace policy`