ericniebler
diff --git a/‎examples/nvexec/maxwell/snr.cuh‎
Lines changed: 142 additions & 241 deletions b/‎examples/nvexec/maxwell/snr.cuh‎
Lines changed: 142 additions & 241 deletions
diff --git a/‎include/nvexec/stream/bulk.cuh‎
Lines changed: 23 additions & 16 deletions b/‎include/nvexec/stream/bulk.cuh‎
Lines changed: 23 additions & 16 deletions
diff --git a/‎include/nvexec/stream/common.cuh‎
Lines changed: 57 additions & 31 deletions b/‎include/nvexec/stream/common.cuh‎
Lines changed: 57 additions & 31 deletions
diff --git a/‎include/nvexec/stream/ensure_started.cuh‎
Lines changed: 11 additions & 4 deletions b/‎include/nvexec/stream/ensure_started.cuh‎
Lines changed: 11 additions & 4 deletions
diff --git a/‎include/nvexec/stream/let_xxx.cuh‎
Lines changed: 17 additions & 8 deletions b/‎include/nvexec/stream/let_xxx.cuh‎
Lines changed: 17 additions & 8 deletions
diff --git a/‎include/nvexec/stream/repeat_n.cuh‎
Lines changed: 12 additions & 5 deletions b/‎include/nvexec/stream/repeat_n.cuh‎
Lines changed: 12 additions & 5 deletions
diff --git a/‎include/nvexec/stream/schedule_from.cuh‎
Lines changed: 1 addition & 13 deletions b/‎include/nvexec/stream/schedule_from.cuh‎
Lines changed: 1 addition & 13 deletions
diff --git a/‎include/nvexec/stream/split.cuh‎
Lines changed: 11 additions & 4 deletions b/‎include/nvexec/stream/split.cuh‎
Lines changed: 11 additions & 4 deletions
@@ -401,28 +401,35 @@ namespace nv::execution::_strm
   template <>
   struct transform_sender_for<STDEXEC::bulk_t>
   {
-    template <class Env, class Data, stream_completing_sender<Env> Sender>
+    template <class Env, class Data, class Sender>
     auto operator()(Env const & env, __ignore, Data data, Sender&& sndr) const
     {
-      auto [policy, shape, fun] = static_cast<Data&&>(data);
-      using shape_t             = decltype(shape);
-      using fun_t               = decltype(fun);
-      auto sched                = get_completion_scheduler<set_value_t>(get_env(sndr), env);
-      if constexpr (__std::same_as<decltype(sched), stream_scheduler>)
+      if constexpr (stream_completing_sender<Sender, Env>)
       {
-        // Use the bulk sender for a single GPU
-        using _sender_t = bulk_sender<__decay_t<Sender>, shape_t, fun_t>;
-        return _sender_t{{}, static_cast<Sender&&>(sndr), shape, static_cast<fun_t&&>(fun)};
+        auto [policy, shape, fun] = static_cast<Data&&>(data);
+        using shape_t             = decltype(shape);
+        using fun_t               = decltype(fun);
+        auto sched                = get_completion_scheduler<set_value_t>(get_env(sndr), env);
+        if constexpr (__std::same_as<decltype(sched), stream_scheduler>)
+        {
+          // Use the bulk sender for a single GPU
+          using _sender_t = bulk_sender<__decay_t<Sender>, shape_t, fun_t>;
+          return _sender_t{{}, static_cast<Sender&&>(sndr), shape, static_cast<fun_t&&>(fun)};
+        }
+        else
+        {
+          // Use the bulk sender for a multiple GPUs
+          using _sender_t = multi_gpu_bulk_sender<__decay_t<Sender>, shape_t, fun_t>;
+          return _sender_t{{},
+                           sched.num_devices_,
+                           static_cast<Sender&&>(sndr),
+                           shape,
+                           static_cast<fun_t&&>(fun)};
+        }
       }
       else
       {
-        // Use the bulk sender for a multiple GPUs
-        using _sender_t = multi_gpu_bulk_sender<__decay_t<Sender>, shape_t, fun_t>;
-        return _sender_t{{},
-                         sched.num_devices_,
-                         static_cast<Sender&&>(sndr),
-                         shape,
-                         static_cast<fun_t&&>(fun)};
+        return _strm::_no_stream_scheduler_in_env<STDEXEC::bulk_t, Sender, Env>();
       }
     }
   };
 
@@ -54,7 +54,7 @@ namespace nv::execution
   };
 
 #if defined(__clang__) && defined(__CUDA__) && !defined(STDEXEC_CLANG_TIDY_INVOKED)
-  __host__ inline auto get_device_type() noexcept -> device_type
+  inline __host__ auto get_device_type() noexcept -> device_type
   {
     return device_type::host;
   }
@@ -64,7 +64,7 @@ namespace nv::execution
     return device_type::device;
   }
 #else
-  __host__ __device__ inline auto get_device_type() noexcept -> device_type
+  inline __host__ __device__ auto get_device_type() noexcept -> device_type
   {
     NV_IF_TARGET(NV_IS_HOST, (return device_type::host;), (return device_type::device;));
   }
@@ -75,6 +75,12 @@ namespace nv::execution
     return get_device_type() == device_type::device;
   }
 
+  struct stream_context;
+  struct stream_domain;
+
+  struct CANNOT_DISPATCH_THIS_ALGORITHM_TO_THE_CUDA_STREAM_SCHEDULER;
+  struct BECAUSE_THERE_IS_NO_CUDA_STREAM_SCHEDULER_IN_THE_ENVIRONMENT;
+
   namespace _strm
   {
     // Used by stream_domain to late-customize senders for execution
@@ -84,30 +90,64 @@ namespace nv::execution
 
     template <class Tag>
     struct apply_sender_for;
+
+    struct context;
+
+    template <class Scheduler, class Env>
+    concept gpu_stream_scheduler =
+      scheduler<Scheduler>
+      && __std::derived_from<__result_of<get_completion_domain<set_value_t>, Scheduler, Env>,
+                             stream_domain>
+      && requires(Scheduler sched) {
+           { sched.ctx_ } -> __decays_to<context>;
+         };
+
+    template <class Sender, class Env>
+    concept stream_completing_sender =
+      sender<Sender>
+      && gpu_stream_scheduler<
+        __result_of<get_completion_scheduler<set_value_t>, env_of_t<Sender>, Env>,
+        Env>;
+
+    template <class Sender, class Env>
+    concept has_stream_transform =
+      STDEXEC::__callable<STDEXEC::__structured_apply_t,
+                          transform_sender_for<STDEXEC::tag_of_t<Sender>>,
+                          Sender,
+                          Env const &>;
+
+    template <class Sender, class Env>
+    concept has_nothrow_stream_transform =
+      STDEXEC::__nothrow_callable<STDEXEC::__structured_apply_t,
+                                  transform_sender_for<STDEXEC::tag_of_t<Sender>>,
+                                  Sender,
+                                  Env const &>;
+
+    template <class Tag, class Sender, class Env>
+    auto _no_stream_scheduler_in_env() noexcept
+    {
+      using namespace STDEXEC;
+      return __not_a_sender<_WHAT_(CANNOT_DISPATCH_THIS_ALGORITHM_TO_THE_CUDA_STREAM_SCHEDULER),
+                            _WHY_(BECAUSE_THERE_IS_NO_CUDA_STREAM_SCHEDULER_IN_THE_ENVIRONMENT),
+                            _WHERE_(_IN_ALGORITHM_, Tag),
+                            _WITH_PRETTY_SENDER_<Sender>,
+                            _WITH_ENVIRONMENT_(Env)>{};
+    }
   }  // namespace _strm
 }  // namespace nv::execution
 
 namespace nvexec = nv::execution;
 
 namespace nv::execution
 {
-  struct stream_context;
-
   // The stream_domain is how the stream scheduler customizes the sender algorithms. All of the
   // algorithms use the current scheduler's domain to transform senders before starting them.
   struct stream_domain : STDEXEC::default_domain
   {
     template <::exec::sender_for Sender, class Tag = STDEXEC::tag_of_t<Sender>, class Env>
-      requires STDEXEC::__callable<STDEXEC::__structured_apply_t,
-                                   _strm::transform_sender_for<Tag>,
-                                   Sender,
-                                   Env const &>
+      requires _strm::has_stream_transform<Sender, Env>
     static auto transform_sender(STDEXEC::set_value_t, Sender&& sndr, Env const & env)
-      noexcept(STDEXEC::__nothrow_callable<STDEXEC::__structured_apply_t,
-                                           _strm::transform_sender_for<Tag>,
-                                           Sender,
-                                           Env const &>)
-
+      noexcept(_strm::has_nothrow_stream_transform<Sender, Env>)
     {
       return STDEXEC::__structured_apply(_strm::transform_sender_for<Tag>{},
                                          static_cast<Sender&&>(sndr),
@@ -278,15 +318,6 @@ namespace nv::execution
     template <class Sender, class Shape, class Fn>
     struct multi_gpu_bulk_sender;
 
-    template <class Scheduler, class Env>
-    concept gpu_stream_scheduler =
-      scheduler<Scheduler>
-      && __std::derived_from<__result_of<get_completion_domain<set_value_t>, Scheduler, Env>,
-                             stream_domain>
-      && requires(Scheduler sched) {
-           { sched.ctx_ } -> __decays_to<context>;
-         };
-
     struct stream_sender_base
     {
       using sender_concept = STDEXEC::sender_t;
@@ -907,13 +938,6 @@ namespace nv::execution
         ctx);
     }
 
-    template <class Sender, class Env>
-    concept stream_completing_sender =
-      sender<Sender>
-      && gpu_stream_scheduler<
-        __result_of<get_completion_scheduler<set_value_t>, env_of_t<Sender>, Env>,
-        Env>;
-
     template <class InnerReceiverProvider, class OuterReceiver>
     using inner_receiver_t = __call_result_t<InnerReceiverProvider, opstate_base<OuterReceiver>&>;
 
@@ -957,8 +981,10 @@ namespace nv::execution
   inline constexpr _strm::get_stream_t get_stream{};
 
 #if CUDART_VERSION >= 13'00'0
-  __host__ inline cudaError_t
-  cudaMemPrefetchAsync(const void* dev_ptr, size_t count, int dst_device, cudaStream_t stream = 0)
+  inline __host__ cudaError_t cudaMemPrefetchAsync(void const * dev_ptr,
+                                                   size_t       count,
+                                                   int          dst_device,
+                                                   cudaStream_t stream = 0)
   {
     return ::cudaMemPrefetchAsync(dev_ptr,
                                   count,
 
@@ -409,11 +409,18 @@ namespace nv::execution::_strm
     template <class Sender>
     using _sender_t = ensure_started_sender<__decay_t<Sender>>;
 
-    template <class Env, stream_completing_sender<Env> Sender>
-    auto operator()(Env const & env, __ignore, __ignore, Sender&& sndr) const -> _sender_t<Sender>
+    template <class Env, class Sender>
+    auto operator()(Env const & env, __ignore, __ignore, Sender&& sndr) const
     {
-      auto sched = get_completion_scheduler<set_value_t>(get_env(sndr), env);
-      return _sender_t<Sender>{sched.ctx_, static_cast<Sender&&>(sndr)};
+      if constexpr (stream_completing_sender<Sender, Env>)
+      {
+        auto sched = get_completion_scheduler<set_value_t>(get_env(sndr), env);
+        return _sender_t<Sender>{sched.ctx_, static_cast<Sender&&>(sndr)};
+      }
+      else
+      {
+        return _strm::_no_stream_scheduler_in_env<exec::ensure_started_t, Sender, Env>();
+      }
     }
   };
 }  // namespace nv::execution::_strm
 
@@ -80,11 +80,9 @@ namespace nv::execution::_strm
     using _sch_env_t = __result_of<_mk_sch_env, CvSender, Receiver, SetTag>;
 
     inline constexpr auto _mk_env2 =
-      []<class SchEnv, class Receiver>([[maybe_unused]]
-                                       SchEnv const &                        sch_env,
+      []<class SchEnv, class Receiver>(SchEnv const &                        sch_env,
                                        _strm::opstate_base<Receiver> const & opstate)
     {
-      //return opstate.make_env();
       return __env::__join(sch_env, opstate.make_env());
     };
 
@@ -210,22 +208,25 @@ namespace nv::execution::_strm
       using _mk_opstate_variant_fn = __mtransform<__muncurry<_mk_opstate_fn_t>, __qq<__variant>>;
       using _opstate_variant_t     = __mapply<_mk_opstate_variant_fn, _result_tuples_t>;
       using _propagate_receiver_t  = _let::_propagate_receiver_t<CvSender, Receiver, Fun, SetTag>;
+      using _sch_t =
+        __result_of<get_completion_scheduler<set_value_t>, env_of_t<CvSender>, env_of_t<Receiver>>;
 
       explicit _opstate(CvSender&& sndr, Receiver rcvr, Fun fun)
         : _opstate(static_cast<CvSender&&>(sndr),
                    static_cast<Receiver&&>(rcvr),
                    static_cast<Fun&&>(fun),
+                   get_completion_scheduler<set_value_t>(get_env(sndr), get_env(rcvr)),
                    _mk_sch_env(sndr, rcvr, SetTag{}))
       {}
 
-      explicit _opstate(CvSender&& sndr, Receiver&& rcvr, Fun fun, _env2_t env2)
+      explicit _opstate(CvSender&& sndr, Receiver&& rcvr, Fun fun, _sch_t sch, _env2_t env2)
         : _opstate_base_t<CvSender, Receiver, Fun, SetTag>(
             static_cast<CvSender&&>(sndr),
             static_cast<Receiver&&>(rcvr),
             [this](__ignore) noexcept { return _receiver_t{{}, this}; },
-            get_completion_scheduler<set_value_t>(get_env(sndr), get_env(rcvr)).ctx_)
+            sch.ctx_)
         , fun_(static_cast<Fun&&>(fun))
-        , env2_(env2)
+        , env2_(static_cast<_env2_t&&>(env2))
       {}
 
       STDEXEC_IMMOVABLE(_opstate);
@@ -308,10 +309,18 @@ namespace nv::execution::_strm
   template <class SetTag>
   struct _transform_let_sender
   {
-    template <class Env, class Fun, stream_completing_sender<Env> Sender>
+    template <class Env, class Fun, class Sender>
     auto operator()(Env const &, __ignore, Fun fn, Sender&& sndr) const
     {
-      return let_sender{static_cast<Sender&&>(sndr), static_cast<Fun&&>(fn), SetTag{}};
+      if constexpr (stream_completing_sender<Sender, Env>)
+      {
+        return let_sender{static_cast<Sender&&>(sndr), static_cast<Fun&&>(fn), SetTag{}};
+      }
+      else
+      {
+        using _let_t = decltype(STDEXEC::__let::__let_from_set<SetTag>);
+        return _strm::_no_stream_scheduler_in_env<_let_t, Sender, Env>();
+      }
     }
   };
 
 
@@ -83,14 +83,16 @@ namespace nv::execution::_strm
         , sched_(std::move(sched))
         , count_(count)
       {
-        _connect();
+        if (count_ != 0)
+        {
+          _connect();
+        }
       }
 
-      void _connect()
+      auto& _connect()
       {
         inner_opstate_.__emplace_from(STDEXEC::connect,
                                       exec::sequence(STDEXEC::schedule(sched_), sndr_),
-                                      //STDEXEC::on(sched_, sndr_),
                                       receiver{*this});
       }
 
@@ -114,8 +116,7 @@ namespace nv::execution::_strm
             }
             else
             {
-              _connect();
-              STDEXEC::start(*inner_opstate_);
+              STDEXEC::start(_connect());
             }
           }
           else
@@ -167,6 +168,11 @@ namespace nv::execution::_strm
                                               STDEXEC::set_error_t(cudaError_t)>();
       }
 
+      explicit sender(CvSender&& sndr, std::size_t count)
+        : sndr_(static_cast<CvSender&&>(sndr))
+        , count_(count)
+      {}
+
       template <STDEXEC::receiver Receiver>
       auto connect(Receiver rcvr) && -> repeat_n::opstate<CvSender, Receiver>
       {
@@ -186,6 +192,7 @@ namespace nv::execution::_strm
         return STDEXEC::get_env(sndr_);
       }
 
+     private:
       CvSender    sndr_;  // could be a value or a reference
       std::size_t count_;
     };
 
@@ -27,10 +27,6 @@
 
 namespace nv::execution
 {
-  struct CANNOT_DISPATCH_THE_SCHEDULE_FROM_ALGORITHM_TO_THE_CUDA_STREAM_SCHEDULER;
-  struct BECAUSE_THERE_IS_NO_CUDA_STREAM_SCHEDULER_IN_THE_ENVIRONMENT;
-  struct ADD_A_CONTINUES_ON_TRANSITION_TO_THE_CUDA_STREAM_SCHEDULER_BEFORE_THE_SCHEDULE_FROM_ALGORITHM;
-
   namespace _strm
   {
     namespace _schfr
@@ -188,15 +184,7 @@ namespace nv::execution
         }
         else
         {
-          return STDEXEC::__not_a_sender<
-            STDEXEC::_WHAT_(
-              CANNOT_DISPATCH_THE_SCHEDULE_FROM_ALGORITHM_TO_THE_CUDA_STREAM_SCHEDULER),
-            STDEXEC::_WHY_(BECAUSE_THERE_IS_NO_CUDA_STREAM_SCHEDULER_IN_THE_ENVIRONMENT),
-            STDEXEC::_WHERE_(STDEXEC::_IN_ALGORITHM_, STDEXEC::schedule_from_t),
-            // STDEXEC::_TO_FIX_THIS_ERROR_(
-            //   ADD_A_CONTINUES_ON_TRANSITION_TO_THE_CUDA_STREAM_SCHEDULER_BEFORE_THE_SCHEDULE_FROM_ALGORITHM),
-            STDEXEC::_WITH_PRETTY_SENDER_<Sender>,
-            STDEXEC::_WITH_ENVIRONMENT_(Env)>{};
+          return _strm::_no_stream_scheduler_in_env<STDEXEC::schedule_from_t, Sender, Env>();
         }
       }
     };
 
@@ -391,11 +391,18 @@ namespace nv::execution::_strm
     template <class Sender>
     using _sender_t = split_sender<__decay_t<Sender>>;
 
-    template <class Env, stream_completing_sender<Env> Sender>
-    auto operator()(Env const & env, __ignore, __ignore, Sender&& sndr) const -> _sender_t<Sender>
+    template <class Env, class Sender>
+    auto operator()(Env const & env, __ignore, __ignore, Sender&& sndr) const
     {
-      auto sched = get_completion_scheduler<set_value_t>(get_env(sndr), env);
-      return _sender_t<Sender>{sched.ctx_, static_cast<Sender&&>(sndr)};
+      if constexpr (stream_completing_sender<Sender, Env>)
+      {
+        auto sched = get_completion_scheduler<set_value_t>(get_env(sndr), env);
+        return _sender_t<Sender>{sched.ctx_, static_cast<Sender&&>(sndr)};
+      }
+      else
+      {
+        return _strm::_no_stream_scheduler_in_env<exec::split_t, _sender_t<Sender>, Env>();
+      }
     }
   };
 }  // namespace nv::execution::_strm
Original file line number	Diff line number	Diff line change
`@@ -83,14 +83,16 @@ namespace nv::execution::_strm`
`83`	`83`	`, sched_(std::move(sched))`
`84`	`84`	`, count_(count)`
`85`	`85`	`{`
`86`		`- _connect();`
	`86`	`+ if (count_ != 0)`
	`87`	`+ {`
	`88`	`+ _connect();`
	`89`	`+ }`
`87`	`90`	`}`
`88`	`91`
`89`		`- void _connect()`
	`92`	`+ auto& _connect()`
`90`	`93`	`{`
`91`	`94`	`inner_opstate_.__emplace_from(STDEXEC::connect,`
`92`	`95`	`exec::sequence(STDEXEC::schedule(sched_), sndr_),`
`93`		`- //STDEXEC::on(sched_, sndr_),`
`94`	`96`	`receiver{*this});`
`95`	`97`	`}`
`96`	`98`
`@@ -114,8 +116,7 @@ namespace nv::execution::_strm`
`114`	`116`	`}`
`115`	`117`	`else`
`116`	`118`	`{`
`117`		`- _connect();`
`118`		`- STDEXEC::start(*inner_opstate_);`
	`119`	`+ STDEXEC::start(_connect());`
`119`	`120`	`}`
`120`	`121`	`}`
`121`	`122`	`else`
`@@ -167,6 +168,11 @@ namespace nv::execution::_strm`
`167`	`168`	`STDEXEC::set_error_t(cudaError_t)>();`
`168`	`169`	`}`
`169`	`170`
	`171`	`+ explicit sender(CvSender&& sndr, std::size_t count)`
	`172`	`+ : sndr_(static_cast<CvSender&&>(sndr))`
	`173`	`+ , count_(count)`
	`174`	`+ {}`
	`175`	`+`
`170`	`176`	`template <STDEXEC::receiver Receiver>`
`171`	`177`	`auto connect(Receiver rcvr) && -> repeat_n::opstate<CvSender, Receiver>`
`172`	`178`	`{`
`@@ -186,6 +192,7 @@ namespace nv::execution::_strm`
`186`	`192`	`return STDEXEC::get_env(sndr_);`
`187`	`193`	`}`
`188`	`194`
	`195`	`+ private:`
`189`	`196`	`CvSender sndr_; // could be a value or a reference`
`190`	`197`	`std::size_t count_;`
`191`	`198`	`};`
Original file line number	Diff line number	Diff line change
`@@ -27,10 +27,6 @@`
`27`	`27`
`28`	`28`	`namespace nv::execution`
`29`	`29`	`{`
`30`		`- struct CANNOT_DISPATCH_THE_SCHEDULE_FROM_ALGORITHM_TO_THE_CUDA_STREAM_SCHEDULER;`
`31`		`- struct BECAUSE_THERE_IS_NO_CUDA_STREAM_SCHEDULER_IN_THE_ENVIRONMENT;`
`32`		`- struct ADD_A_CONTINUES_ON_TRANSITION_TO_THE_CUDA_STREAM_SCHEDULER_BEFORE_THE_SCHEDULE_FROM_ALGORITHM;`
`33`		`-`
`34`	`30`	`namespace _strm`
`35`	`31`	`{`
`36`	`32`	`namespace _schfr`
`@@ -188,15 +184,7 @@ namespace nv::execution`
`188`	`184`	`}`
`189`	`185`	`else`
`190`	`186`	`{`
`191`		`- return STDEXEC::__not_a_sender<`
`192`		`- STDEXEC::_WHAT_(`
`193`		`- CANNOT_DISPATCH_THE_SCHEDULE_FROM_ALGORITHM_TO_THE_CUDA_STREAM_SCHEDULER),`
`194`		`- STDEXEC::_WHY_(BECAUSE_THERE_IS_NO_CUDA_STREAM_SCHEDULER_IN_THE_ENVIRONMENT),`
`195`		`- STDEXEC::_WHERE_(STDEXEC::_IN_ALGORITHM_, STDEXEC::schedule_from_t),`
`196`		`- // STDEXEC::_TO_FIX_THIS_ERROR_(`
`197`		`- // ADD_A_CONTINUES_ON_TRANSITION_TO_THE_CUDA_STREAM_SCHEDULER_BEFORE_THE_SCHEDULE_FROM_ALGORITHM),`
`198`		`- STDEXEC::_WITH_PRETTY_SENDER_<Sender>,`
`199`		`- STDEXEC::_WITH_ENVIRONMENT_(Env)>{};`
	`187`	`+ return _strm::_no_stream_scheduler_in_env<STDEXEC::schedule_from_t, Sender, Env>();`
`200`	`188`	`}`
`201`	`189`	`}`
`202`	`190`	`};`