Replies: 1 comment
-
举个例子,我们在做Conv2d的时候就会遇到layout的问题 (NCHW vs NHWC)。 我们知道在GPU上NHWC会比NCHW更快,所以通常我们会将NCHW的网络转换成NHWC来进行运算。但这件事情是专家知识,并不能够被编译器所分析出来(因为在high-level我们并不能去evaluate 不同layout的kernel的性能)。同样,NHWC也并不是“最好”的layout,比如TensorRT用的是packed layout (NCHWc)。 把high-level和low-level信息放在一起,就完全有可能把这种layout的信息传递给图优化 |
Beta Was this translation helpful? Give feedback.
0 replies
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Uh oh!
There was an error while loading. Please reload this page.
-
請教一下, video 中提了很多 (how) 要把low-level destination passing跟high-level computation graph 透過call_tir 連接起來的方式.
但似乎沒有提到 (Why) 為什麼在做high-level optimization at graph level 需要知道 low-level 這些memory allocation 的資訊?
換句話說, 有這些資訊, 在high-level 能做什麼優化? 而且是降到low-level 所做不到的? 謝謝
Beta Was this translation helpful? Give feedback.
All reactions