连续同卡decoder使用同一个stream

ZHEQIUSHUI · ZHEQIUSHUI · commit 16dd6ee3ed97 · 2026-01-06T15:35:47.000+08:00
diff --git a/src/runner/LLM.hpp b/src/runner/LLM.hpp
@@ -893,8 +893,18 @@ class LLM
 
                 auto &output = layer.layer.get_output(_attr.prefill_grpid, "output");
                 axcl_MemcpyAsync(embed_tmp.data(), (void *)output.phyAddr, embed_tmp.size() * sizeof(unsigned short), AXCL_MEMCPY_DEVICE_TO_HOST, stream, layer.layer.get_devid());
+                if (m < _attr.axmodel_num - 1)
+                {
+                    if (llama_layers[m + 1].layer.get_devid() != layer.layer.get_devid())
+                    {
+                        axcl_SynchronizeStream(stream, layer.layer.get_devid());
+                    }
+                }
+                else if (m == _attr.axmodel_num - 1)
+                {
+                    axcl_SynchronizeStream(stream, layer.layer.get_devid());
+                }
 
-                axcl_SynchronizeStream(stream, layer.layer.get_devid());
                 // ALOGI("%f %f %f %f %f", bfloat16(embed[0]).fp32(), bfloat16(embed[1]).fp32(), bfloat16(embed[2]).fp32(), bfloat16(embed[3]).fp32(), bfloat16(embed[4]).fp32());
             }
             if (p == (prefill_split_num - 1))
@@ -1001,7 +1011,6 @@ class LLM
                     {
                         axcl_MemcpyAsync((void *)llama_post.get_input("input").phyAddr,
                                          (void *)layer.layer.get_output(decode_grpid, "output").phyAddr, llama_post.get_input("input").nSize, AXCL_MEMCPY_DEVICE_TO_DEVICE, stream, llama_post.get_devid());
-                        axcl_SynchronizeStream(stream, layer.layer.get_devid());
                     }
                     else
                     {
@@ -1018,7 +1027,6 @@ class LLM
                     {
                         axcl_MemcpyAsync((void *)llama_layers[m + 1].layer.get_input(decode_grpid, "input").phyAddr,
                                          (void *)layer.layer.get_output(decode_grpid, "output").phyAddr, layer.layer.get_input(decode_grpid, "input").nSize, AXCL_MEMCPY_DEVICE_TO_DEVICE, stream, layer.layer.get_devid());
-                        axcl_SynchronizeStream(stream, layer.layer.get_devid());
                     }
                     else
                     {

Original file line number	Diff line number	Diff line change
`@@ -893,8 +893,18 @@ class LLM`
`893`	`893`
`894`	`894`	`auto &output = layer.layer.get_output(_attr.prefill_grpid, "output");`
`895`	`895`	`axcl_MemcpyAsync(embed_tmp.data(), (void )output.phyAddr, embed_tmp.size() sizeof(unsigned short), AXCL_MEMCPY_DEVICE_TO_HOST, stream, layer.layer.get_devid());`
	`896`	`+ if (m < _attr.axmodel_num - 1)`
	`897`	`+ {`
	`898`	`+ if (llama_layers[m + 1].layer.get_devid() != layer.layer.get_devid())`
	`899`	`+ {`
	`900`	`+ axcl_SynchronizeStream(stream, layer.layer.get_devid());`
	`901`	`+ }`
	`902`	`+ }`
	`903`	`+ else if (m == _attr.axmodel_num - 1)`
	`904`	`+ {`
	`905`	`+ axcl_SynchronizeStream(stream, layer.layer.get_devid());`
	`906`	`+ }`
`896`	`907`
`897`		`- axcl_SynchronizeStream(stream, layer.layer.get_devid());`
`898`	`908`	`// ALOGI("%f %f %f %f %f", bfloat16(embed[0]).fp32(), bfloat16(embed[1]).fp32(), bfloat16(embed[2]).fp32(), bfloat16(embed[3]).fp32(), bfloat16(embed[4]).fp32());`
`899`	`909`	`}`
`900`	`910`	`if (p == (prefill_split_num - 1))`
`@@ -1001,7 +1011,6 @@ class LLM`
`1001`	`1011`	`{`
`1002`	`1012`	`axcl_MemcpyAsync((void *)llama_post.get_input("input").phyAddr,`
`1003`	`1013`	`(void *)layer.layer.get_output(decode_grpid, "output").phyAddr, llama_post.get_input("input").nSize, AXCL_MEMCPY_DEVICE_TO_DEVICE, stream, llama_post.get_devid());`
`1004`		`- axcl_SynchronizeStream(stream, layer.layer.get_devid());`
`1005`	`1014`	`}`
`1006`	`1015`	`else`
`1007`	`1016`	`{`
`@@ -1018,7 +1027,6 @@ class LLM`
`1018`	`1027`	`{`
`1019`	`1028`	`axcl_MemcpyAsync((void *)llama_layers[m + 1].layer.get_input(decode_grpid, "input").phyAddr,`
`1020`	`1029`	`(void *)layer.layer.get_output(decode_grpid, "output").phyAddr, layer.layer.get_input(decode_grpid, "input").nSize, AXCL_MEMCPY_DEVICE_TO_DEVICE, stream, layer.layer.get_devid());`
`1021`		`- axcl_SynchronizeStream(stream, layer.layer.get_devid());`
`1022`	`1030`	`}`
`1023`	`1031`	`else`
`1024`	`1032`	`{`