fix(PE): use shared_ptr<BlockingQueue> for cross thread communication (#14136)

reyoung · web-flow · commit c21597cf07d4 · 2018-11-01T10:38:58.000+08:00
It seems that the blocking queue might be destroyed early than Run
method complete. It might because the Run method throw some unhandled
exception. However, it should be shared_ptr when multthread access an
resource. So change BlockingQueue as a shared_ptr.

test=develop
diff --git a/paddle/fluid/framework/details/fast_threaded_ssa_graph_executor.cc b/paddle/fluid/framework/details/fast_threaded_ssa_graph_executor.cc
@@ -92,13 +92,13 @@ FeedFetchList FastThreadedSSAGraphExecutor::Run(
 
   size_t num_complete = 0;
   remaining_ = 0;
-  BlockingQueue<size_t> complete_q;
+  auto complete_q = std::make_shared<BlockingQueue<size_t>>();
   for (auto op : bootstrap_ops_) {
-    RunOpAsync(op_deps.get(), op, &complete_q);
+    RunOpAsync(op_deps.get(), op, complete_q);
   }
 
   while (num_complete != op_deps->size()) {
-    size_t num_comp = complete_q.Pop();
+    size_t num_comp = complete_q->Pop();
     if (num_comp == -1UL) {
       int remaining = 0;
       while (true) {
@@ -107,7 +107,7 @@ FeedFetchList FastThreadedSSAGraphExecutor::Run(
           break;
         }
         for (int i = 0; i < remaining; ++i) {
-          complete_q.Pop();
+          complete_q->Pop();
         }
       }
       exception_.ReThrow();
@@ -120,7 +120,8 @@ FeedFetchList FastThreadedSSAGraphExecutor::Run(
 }
 void FastThreadedSSAGraphExecutor::RunOpAsync(
     std::unordered_map<OpHandleBase *, std::atomic<int>> *op_deps,
-    OpHandleBase *op, BlockingQueue<size_t> *complete_q) {
+    OpHandleBase *op,
+    const std::shared_ptr<BlockingQueue<size_t>> &complete_q) {
   ++remaining_;
   this->pool_.enqueue([=] {
     OpHandleBase *op_to_run = op;
@@ -144,7 +145,7 @@ void FastThreadedSSAGraphExecutor::RunOpAsync(
             if (op_to_run == nullptr) {
               op_to_run = pending_op;
             } else {
-              this->RunOpAsync(op_deps, pending_op, complete_q);
+              RunOpAsync(op_deps, pending_op, complete_q);
             }
           }
         }
@@ -156,8 +157,7 @@ void FastThreadedSSAGraphExecutor::RunOpAsync(
 }
 void FastThreadedSSAGraphExecutor::PrepareAtomicOpDeps() {
   atomic_op_deps_ = pool_.enqueue([&] {
-    std::unordered_map<OpHandleBase *, std::atomic<int>> *op_deps =
-        new std::unordered_map<OpHandleBase *, std::atomic<int>>;
+    auto *op_deps = new std::unordered_map<OpHandleBase *, std::atomic<int>>;
     for (auto &pair : op_deps_) {
       (*op_deps)[pair.first] = pair.second;
     }
diff --git a/paddle/fluid/framework/details/fast_threaded_ssa_graph_executor.h b/paddle/fluid/framework/details/fast_threaded_ssa_graph_executor.h
@@ -50,7 +50,8 @@ class FastThreadedSSAGraphExecutor : public SSAGraphExecutor {
   std::atomic<int> remaining_;
 
   void RunOpAsync(std::unordered_map<OpHandleBase *, std::atomic<int>> *op_deps,
-                  OpHandleBase *op, BlockingQueue<size_t> *complete_q);
+                  OpHandleBase *op,
+                  const std::shared_ptr<BlockingQueue<size_t>> &complete_q);
 
   void PrepareAtomicOpDeps();
 
diff --git a/paddle/fluid/framework/details/threaded_ssa_graph_executor.cc b/paddle/fluid/framework/details/threaded_ssa_graph_executor.cc
@@ -39,7 +39,7 @@ FeedFetchList ThreadedSSAGraphExecutor::Run(
       new platform::RecordEvent("ThreadedSSAGraphExecutorPrepare", nullptr));
   std::unordered_map<OpHandleBase *, size_t> pending_ops;
   std::unordered_set<VarHandleBase *> pending_vars;
-  BlockingQueue<VarHandleBase *> ready_vars;
+  auto ready_vars = std::make_shared<BlockingQueue<VarHandleBase *>>();
   std::unordered_set<OpHandleBase *> ready_ops;
   // For ops (e.g. nccl_all_reduce) that need to coordinate multiple
   // streams from multiple GPUs, it's faster to buffer them and schedule
@@ -51,12 +51,12 @@ FeedFetchList ThreadedSSAGraphExecutor::Run(
   for (auto &var_map : graph_->Get<details::GraphVars>(details::kGraphVars)) {
     for (auto &name_pair : var_map) {
       for (auto &version_pair : name_pair.second) {
-        InsertPendingVar(&pending_vars, &ready_vars, version_pair.get());
+        InsertPendingVar(&pending_vars, ready_vars.get(), version_pair.get());
       }
     }
   }
   for (auto &var : graph_->Get<details::GraphDepVars>(details::kGraphDepVars)) {
-    InsertPendingVar(&pending_vars, &ready_vars, var.get());
+    InsertPendingVar(&pending_vars, ready_vars.get(), var.get());
   }
 
   for (auto &op : graph_->Get<details::GraphOps>(details::kGraphOps)) {
@@ -73,12 +73,12 @@ FeedFetchList ThreadedSSAGraphExecutor::Run(
   FeedFetchList fetch_data(fetch_tensors.size());
 
   InsertFetchOps(fetch_tensors, &fetch_ops, &fetch_dependencies, &pending_ops,
-                 &pending_vars, &ready_vars, &fetch_data);
+                 &pending_vars, ready_vars.get(), &fetch_data);
 
   auto run_all_ops = [&](std::unordered_set<OpHandleBase *> &set) {
     for (auto *op : set) {
       running_ops_++;
-      RunOp(&ready_vars, op);
+      RunOp(ready_vars, op);
     }
     set.clear();
   };
@@ -87,7 +87,6 @@ FeedFetchList ThreadedSSAGraphExecutor::Run(
   run_op_futures_.clear();
   exception_holder_.Clear();
   event.reset(nullptr);
-
   // Step 3. Execution
   while (!pending_vars.empty()) {
     // 1. Run All Ready ops
@@ -103,7 +102,7 @@ FeedFetchList ThreadedSSAGraphExecutor::Run(
 
     // 2. Find ready variable
     bool timeout;
-    auto cur_ready_vars = ready_vars.PopAll(1, &timeout);
+    auto cur_ready_vars = ready_vars->PopAll(1, &timeout);
 
     if (timeout) {
       if (exception_holder_.IsCaught()) {
@@ -133,7 +132,6 @@ FeedFetchList ThreadedSSAGraphExecutor::Run(
     }
   }
   PADDLE_ENFORCE(ready_ops.empty());
-
   // Wait FetchOps.
   ClearFetchOp(graph_.get(), &fetch_ops);
 
@@ -206,7 +204,8 @@ void ThreadedSSAGraphExecutor::InsertPendingVar(
 }
 
 void ThreadedSSAGraphExecutor::RunOp(
-    BlockingQueue<VarHandleBase *> *ready_var_q, details::OpHandleBase *op) {
+    const std::shared_ptr<BlockingQueue<VarHandleBase *>> &ready_var_q,
+    details::OpHandleBase *op) {
   auto op_run = [ready_var_q, op, this] {
     try {
       if (VLOG_IS_ON(10)) {
diff --git a/paddle/fluid/framework/details/threaded_ssa_graph_executor.h b/paddle/fluid/framework/details/threaded_ssa_graph_executor.h
@@ -51,7 +51,7 @@ class ThreadedSSAGraphExecutor : public SSAGraphExecutor {
   ~ThreadedSSAGraphExecutor() {}
 
  private:
-  void RunOp(BlockingQueue<VarHandleBase *> *ready_var_q,
+  void RunOp(const std::shared_ptr<BlockingQueue<VarHandleBase *>> &ready_var_q,
              details::OpHandleBase *op);
 
  private:

Original file line number	Diff line number	Diff line change
`@@ -92,13 +92,13 @@ FeedFetchList FastThreadedSSAGraphExecutor::Run(`
`92`	`92`
`93`	`93`	`size_t num_complete = 0;`
`94`	`94`	`remaining_ = 0;`
`95`		`- BlockingQueue<size_t> complete_q;`
	`95`	`+ auto complete_q = std::make_shared<BlockingQueue<size_t>>();`
`96`	`96`	`for (auto op : bootstrap_ops_) {`
`97`		`- RunOpAsync(op_deps.get(), op, &complete_q);`
	`97`	`+ RunOpAsync(op_deps.get(), op, complete_q);`
`98`	`98`	`}`
`99`	`99`
`100`	`100`	`while (num_complete != op_deps->size()) {`
`101`		`- size_t num_comp = complete_q.Pop();`
	`101`	`+ size_t num_comp = complete_q->Pop();`
`102`	`102`	`if (num_comp == -1UL) {`
`103`	`103`	`int remaining = 0;`
`104`	`104`	`while (true) {`
`@@ -107,7 +107,7 @@ FeedFetchList FastThreadedSSAGraphExecutor::Run(`
`107`	`107`	`break;`
`108`	`108`	`}`
`109`	`109`	`for (int i = 0; i < remaining; ++i) {`
`110`		`- complete_q.Pop();`
	`110`	`+ complete_q->Pop();`
`111`	`111`	`}`
`112`	`112`	`}`
`113`	`113`	`exception_.ReThrow();`
`@@ -120,7 +120,8 @@ FeedFetchList FastThreadedSSAGraphExecutor::Run(`
`120`	`120`	`}`
`121`	`121`	`void FastThreadedSSAGraphExecutor::RunOpAsync(`
`122`	`122`	`std::unordered_map<OpHandleBase , std::atomic<int>> op_deps,`
`123`		`- OpHandleBase op, BlockingQueue<size_t> complete_q) {`
	`123`	`+ OpHandleBase *op,`
	`124`	`+ const std::shared_ptr<BlockingQueue<size_t>> &complete_q) {`
`124`	`125`	`++remaining_;`
`125`	`126`	`this->pool_.enqueue([=] {`
`126`	`127`	`OpHandleBase *op_to_run = op;`
`@@ -144,7 +145,7 @@ void FastThreadedSSAGraphExecutor::RunOpAsync(`
`144`	`145`	`if (op_to_run == nullptr) {`
`145`	`146`	`op_to_run = pending_op;`
`146`	`147`	`} else {`
`147`		`- this->RunOpAsync(op_deps, pending_op, complete_q);`
	`148`	`+ RunOpAsync(op_deps, pending_op, complete_q);`
`148`	`149`	`}`
`149`	`150`	`}`
`150`	`151`	`}`
`@@ -156,8 +157,7 @@ void FastThreadedSSAGraphExecutor::RunOpAsync(`
`156`	`157`	`}`
`157`	`158`	`void FastThreadedSSAGraphExecutor::PrepareAtomicOpDeps() {`
`158`	`159`	`atomic_op_deps_ = pool_.enqueue([&] {`
`159`		`- std::unordered_map<OpHandleBase , std::atomic<int>> op_deps =`
`160`		`- new std::unordered_map<OpHandleBase *, std::atomic<int>>;`
	`160`	`+ auto op_deps = new std::unordered_map<OpHandleBase , std::atomic<int>>;`
`161`	`161`	`for (auto &pair : op_deps_) {`
`162`	`162`	`(*op_deps)[pair.first] = pair.second;`
`163`	`163`	`}`