Fix sampleCudla, update cmake toolchains, improve docs (NVIDIA#4696)

poweiw · poweiw · commit e3e64f5a51ca · 2026-02-12T18:22:03.000-08:00
Signed-off-by: Po-Wei Wang (Vincent) &lt;poweiw@nvidia.com&gt;
diff --git a/README.md b/README.md
@@ -239,6 +239,94 @@ For Linux platforms, we recommend that you generate a docker container for build
   - `GPU_ARCHS`: GPU (SM) architectures to target. By default we generate CUDA code for all major SMs. Specific SM versions can be specified here as a quoted space-separated list to reduce compilation time and binary size. Table of compute capabilities of NVIDIA GPUs can be found [here](https://developer.nvidia.com/cuda-gpus). Examples: - NVidia A100: `-DGPU_ARCHS="80"` - RTX 50 series: `-DGPU_ARCHS="120"` - Multiple SMs: `-DGPU_ARCHS="80 120"`
   - `TRT_PLATFORM_ID`: Bare-metal build (unlike containerized cross-compilation). Currently supported options: `x86_64` (default).
 
+## Building TensorRT DriveOS Samples
+
+- Generate Makefiles and build
+
+  **Example: Cross-Compile for DOS7 Linux (aarch64)**
+
+  ```bash
+  cd $TRT_OSSPATH
+  mkdir -p build && cd build
+  cmake .. -DBUILD_SAMPLES=ON -DBUILD_PLUGINS=OFF -DBUILD_PARSERS=OFF -DTRT_OUT_DIR=`pwd`/bin_dynamic_cross -DTRT_LIB_DIR=$TRT_LIBPATH -DCMAKE_TOOLCHAIN_FILE=$TRT_OSSPATH/cmake/toolchains/cmake_aarch64_dos_cross.toolchain
+  make -j$(nproc)
+  ```
+
+  **Example: Cross-Compile for DOS6.5 Linux (aarch64)**
+
+  ```bash
+  cd $TRT_OSSPATH
+  mkdir -p build && cd build
+  cmake .. -DBUILD_SAMPLES=ON -DBUILD_PLUGINS=OFF -DBUILD_PARSERS=OFF -DTRT_OUT_DIR=`pwd`/bin_dynamic_cross -DTRT_LIB_DIR=$TRT_LIBPATH -DCMAKE_TOOLCHAIN_FILE=$TRT_OSSPATH/cmake/toolchains/cmake_aarch64_dos_cross.toolchain -DCUDA_VERSION=11.4 -DGPU_ARCHS=87
+  make -j$(nproc)
+  ```
+
+  **Example: Native build for DOS6.5 and DOS7 Linux (aarch64)**
+
+  ```bash
+  cd $TRT_OSSPATH
+  mkdir -p build && cd build
+  cmake .. -DTRT_LIB_DIR=$TRT_LIBPATH -DTRT_OUT_DIR=`pwd`/out -DCMAKE_TOOLCHAIN_FILE=$TRT_OSSPATH/cmake/toolchains/cmake_aarch64-native.toolchain -DBUILD_SAMPLES=ON -DBUILD_PLUGINS=OFF -DBUILD_PARSERS=OFF
+  make -j$(nproc)
+  ```
+
+  **Example: Cross-Compile for DOS6.5 QNX (aarch64)**
+
+  ```bash
+  cd $TRT_OSSPATH
+  mkdir -p build && cd build
+  export CUDA_VERSION=11.4
+  export CUDA=cuda-$CUDA_VERSION
+  export CUDA_ROOT=/usr/local/cuda-safe-$CUDA_VERSION
+  export QNX_BASE=/drive/toolchains/qnx_toolchain  # Set to your QNX toolchain installation path
+  export QNX_HOST=$QNX_BASE/host/linux/x86_64/
+  export QNX_TARGET=$QNX_BASE/target/qnx7/
+  export PATH=$PATH:$QNX_HOST/usr/bin
+  cmake .. -DBUILD_SAMPLES=ON -DBUILD_PLUGINS=OFF -DBUILD_PARSERS=OFF -DBUILD_SAFE_SAMPLES=OFF -DCMAKE_CUDA_COMPILER=$CUDA_ROOT/bin/nvcc -DTRT_OUT_DIR=`pwd`/bin_dynamic_cross -DTRT_LIB_DIR=$TRT_LIBPATH -DCMAKE_TOOLCHAIN_FILE=$TRT_OSSPATH/cmake/toolchains/cmake_qnx.toolchain -DCUDA_VERSION=$CUDA_VERSION -DGPU_ARCHS=87
+  make -j$(nproc)
+  ```
+
+  > NOTE: Set `QNX_BASE` to your QNX toolchain installation path.
+  > If your CUDA version is not the same as in the example, set `CUDA_VERSION` (for examples that use it in multiple places) or add `-DCUDA_VERSION=<version>` to the cmake command.
+
+  **Example: Cross-Compile for DOS6.5 QNX Safety (aarch64)**
+
+  ```bash
+  cd $TRT_OSSPATH
+  mkdir -p build && cd build
+  export CUDA_VERSION=11.4
+  export QNX_BASE=/drive/toolchains/qnx_toolchain  # Set to your QNX toolchain installation path
+  export QNX_HOST=$QNX_BASE/host/linux/x86_64/
+  export QNX_TARGET=$QNX_BASE/target/qnx7/
+  export PATH=$PATH:$QNX_HOST/usr/bin
+  export CUDA=cuda-$CUDA_VERSION
+  export CUDA_ROOT=/usr/local/cuda-safe-$CUDA_VERSION
+  cmake .. -DBUILD_SAMPLES=OFF -DBUILD_SAFE_SAMPLES=ON -DBUILD_PLUGINS=OFF -DBUILD_PARSERS=OFF -DTRT_SAFETY_INFERENCE_ONLY=ON -DTRT_OUT_DIR=`pwd`/bin_dynamic_cross -DTRT_LIB_DIR=$TRT_LIBPATH -DCMAKE_TOOLCHAIN_FILE=$TRT_OSSPATH/cmake/toolchains/cmake_qnx_safe.toolchain -DCUDA_VERSION=$CUDA_VERSION -DCMAKE_CUDA_COMPILER=$CUDA_ROOT/bin/nvcc -DGPU_ARCHS=87
+  make -j$(nproc)
+  ```
+
+  > NOTE: Set `QNX_BASE` to your QNX toolchain installation path.
+  > If your CUDA version is not the same as in the example, set `CUDA_VERSION` (for examples that use it in multiple places) or add `-DCUDA_VERSION=<version>` to the cmake command.
+
+  **Example: Cross-Compile for DOS7 QNX (aarch64)**
+
+  ```bash
+  cd $TRT_OSSPATH
+  mkdir -p build && cd build
+  export CUDA_VERSION=13.1
+  export CUDA=cuda-$CUDA_VERSION
+  export CUDA_ROOT=/usr/local/cuda-safe-$CUDA_VERSION
+  export QNX_BASE=/drive/toolchains/qnx_toolchain  # Set to your QNX toolchain installation path
+  export QNX_HOST=$QNX_BASE/host/linux/x86_64/
+  export QNX_TARGET=$QNX_BASE/target/qnx/
+  export PATH=$PATH:$QNX_HOST/usr/bin
+  cmake .. -DBUILD_SAMPLES=ON -DBUILD_PLUGINS=OFF -DBUILD_PARSERS=OFF -DBUILD_SAFE_SAMPLES=OFF -DCMAKE_CUDA_COMPILER=$CUDA_ROOT/bin/nvcc -DTRT_OUT_DIR=`pwd`/bin_dynamic_cross -DTRT_LIB_DIR=$TRT_LIBPATH -DCMAKE_TOOLCHAIN_FILE=$TRT_OSSPATH/cmake/toolchains/cmake_qnx.toolchain -DCUDA_VERSION=$CUDA_VERSION -DGPU_ARCHS=110
+  make -j$(nproc)
+  ```
+
+  > NOTE: Set `QNX_BASE` to your QNX toolchain installation path.
+  > If your CUDA version is not the same as in the example, set `CUDA_VERSION` (for examples that use it in multiple places) or add `-DCUDA_VERSION=<version>` to the cmake command.
+
 # References
 
 ## TensorRT Resources
diff --git a/cmake/toolchains/cmake_aarch64_dos_cross.toolchain b/cmake/toolchains/cmake_aarch64_dos_cross.toolchain
@@ -53,8 +53,10 @@ set(CMAKE_CUDA_HOST_COMPILER ${CMAKE_CXX_COMPILER} CACHE STRING "" FORCE)
 set(CMAKE_CUDA_FLAGS "-I${CUDA_INCLUDE_DIRS} -Xcompiler=\"-fPIC ${CMAKE_CXX_FLAGS}\"" CACHE STRING "" FORCE)
 set(CMAKE_CUDA_COMPILER_FORCED TRUE)
 
-set(CUDA_LIBS -L${CUDA_ROOT}/lib)
-
+set(CUDA_LIBS -L${CUDA_ROOT}/lib/stubs -L${CUDA_ROOT}/lib)
 set(ADDITIONAL_PLATFORM_LIB_FLAGS ${CUDA_LIBS} -lcublas -lcudart -lstdc++ -lm)
 
+link_directories(${CUDA_ROOT}/lib/stubs)
 link_directories(${CUDA_ROOT}/lib)
+
+set(CMAKE_EXE_LINKER_FLAGS "-Wl,-rpath-link,${CUDA_ROOT}/lib/stubs -Wl,--allow-shlib-undefined" CACHE STRING "" FORCE)
diff --git a/cmake/toolchains/cmake_qnx.toolchain b/cmake/toolchains/cmake_qnx.toolchain
@@ -126,6 +126,8 @@ include_directories(BEFORE SYSTEM
     ${CUDA_ROOT}/targets/aarch64-qnx/include
 )
 
+set(CUDA_TARGET_LIB_DIR "${CUDA_ROOT}/targets/aarch64-qnx/lib" CACHE PATH "CUDA target library directory")
+
 # And, well, as another consequence of that weirdness, we need to ensure that the cuda libs are on the link path.
 add_link_options(
     "-L${CUDA_ROOT}/targets/aarch64-qnx/lib"
diff --git a/cmake/toolchains/cmake_qnx_safe.toolchain b/cmake/toolchains/cmake_qnx_safe.toolchain
@@ -121,6 +121,8 @@ include_directories(BEFORE SYSTEM
     ${CUDA_ROOT}/targets/aarch64-qnx-safe/include
 )
 
+set(CUDA_TARGET_LIB_DIR "${CUDA_ROOT}/targets/aarch64-qnx-safe/lib" CACHE PATH "CUDA target library directory")
+
 link_directories(
     ${CUDA_ROOT}/targets/aarch64-qnx-safe/lib
     ${CUDA_ROOT}/targets/aarch64-qnx-safe/lib/stubs
diff --git a/samples/CMakeLists.txt b/samples/CMakeLists.txt
@@ -85,14 +85,24 @@ if(${TRT_BUILD_SAMPLES})
         add_sample(sampleOnnxMnistCoordConvAC)
     endif()
 
+    set(CUDLA_SUPPORTED OFF)
     if(${TRT_BUILD_ENABLE_DLA} AND CMAKE_SYSTEM_PROCESSOR MATCHES "aarch64" AND NOT WIN32)
+        if(CMAKE_SYSTEM_NAME STREQUAL "QNX" AND CUDA_VERSION VERSION_GREATER_EQUAL "12.0")
+            # cuDLA is supported on DOS 6 (CUDA 11.4) but not DOS 7+ (CUDA 12.0+)
+            message(STATUS "Skipping sampleCudla: cuDLA not supported on QNX with CUDA >= 12.0 (DriveOS 7)")
+        else()
+            set(CUDLA_SUPPORTED ON)
+        endif()
+    endif()
+    if(CUDLA_SUPPORTED)
         if(TARGET CUDA::cudla)
             set(CUDLA_TARGET CUDA::cudla CACHE STRING "cuDLA library target")
         else()
             find_library(CUDLA_TARGET cudla HINTS
-                ${CUDA_TOOLKIT_ROOT_DIR}/lib64 ${CUDA_TOOLKIT_ROOT_DIR}/lib
-                ${CUDA_ROOT}/lib64 ${CUDA_ROOT}/lib
-                /usr/local/cuda/targets/aarch64-linux/lib)
+                ${CUDA_TARGET_LIB_DIR}/stubs ${CUDA_TARGET_LIB_DIR}
+                ${CUDA_TOOLKIT_ROOT_DIR}/lib/stubs ${CUDA_TOOLKIT_ROOT_DIR}/lib64 ${CUDA_TOOLKIT_ROOT_DIR}/lib
+                ${CUDA_ROOT}/lib/stubs ${CUDA_ROOT}/lib64 ${CUDA_ROOT}/lib
+                /usr/local/cuda/targets/aarch64-linux/lib/stubs /usr/local/cuda/targets/aarch64-linux/lib)
         endif()
         if(CUDLA_TARGET)
             add_sample(sampleCudla)
@@ -152,11 +162,21 @@ else()
         add_subdirectory(sampleOnnxMnistCoordConvAC)
         add_subdirectory(sampleProgressMonitor)
         add_subdirectory(trtexec)
-        if(TRT_BUILD_ENABLE_DLA AND CMAKE_SYSTEM_PROCESSOR MATCHES "aarch64" AND NOT CMAKE_SYSTEM_NAME STREQUAL "QNX" AND NOT WIN32)
+        set(CUDLA_SUPPORTED OFF)
+        if(TRT_BUILD_ENABLE_DLA AND CMAKE_SYSTEM_PROCESSOR MATCHES "aarch64" AND NOT WIN32)
+            if(CMAKE_SYSTEM_NAME STREQUAL "QNX" AND CUDA_VERSION VERSION_GREATER_EQUAL "12.0")
+                # cuDLA is supported on DOS 6 (CUDA 11.4) but not DOS 7+ (CUDA 12.0+)
+                message(STATUS "Skipping sampleCudla: cuDLA not supported on QNX with CUDA >= 12.0 (DriveOS 7)")
+            else()
+                set(CUDLA_SUPPORTED ON)
+            endif()
+        endif()
+        if(CUDLA_SUPPORTED)
             find_library(CUDLA_TARGET cudla HINTS
-                ${CUDA_TOOLKIT_ROOT_DIR}/lib64 ${CUDA_TOOLKIT_ROOT_DIR}/lib
-                ${CUDA_ROOT}/lib64 ${CUDA_ROOT}/lib
-                /usr/local/cuda/targets/aarch64-linux/lib)
+                ${CUDA_TARGET_LIB_DIR}/stubs ${CUDA_TARGET_LIB_DIR}
+                ${CUDA_TOOLKIT_ROOT_DIR}/lib/stubs ${CUDA_TOOLKIT_ROOT_DIR}/lib64 ${CUDA_TOOLKIT_ROOT_DIR}/lib
+                ${CUDA_ROOT}/lib/stubs ${CUDA_ROOT}/lib64 ${CUDA_ROOT}/lib
+                /usr/local/cuda/targets/aarch64-linux/lib/stubs /usr/local/cuda/targets/aarch64-linux/lib)
             if(CUDLA_TARGET)
                 add_subdirectory(sampleCudla)
             else()
diff --git a/samples/common/CMakeLists.txt b/samples/common/CMakeLists.txt
@@ -62,6 +62,10 @@ target_include_directories(trt_samples_common PUBLIC
 
 # OSS build mode
 if(NOT TRT_BUILD_ENABLE_NEW_SAMPLES_FLOW)
+    target_sources(trt_samples_common PRIVATE
+        ${CMAKE_CURRENT_SOURCE_DIR}/../../shared/utils/cacheUtils.cpp
+        ${CMAKE_CURRENT_SOURCE_DIR}/../../shared/utils/fileLock.cpp
+    )
     target_link_libraries(trt_samples_common PUBLIC
         Threads::Threads
         ${CUDA_LIBRARIES}
diff --git a/samples/common/sampleInference.cpp b/samples/common/sampleInference.cpp
@@ -1,5 +1,5 @@
 /*
- * SPDX-FileCopyrightText: Copyright (c) 1993-2025 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
+ * SPDX-FileCopyrightText: Copyright (c) 1993-2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
  * SPDX-License-Identifier: Apache-2.0
  *
  * Licensed under the Apache License, Version 2.0 (the "License");
diff --git a/samples/sampleCudla/CMakeLists.txt b/samples/sampleCudla/CMakeLists.txt
@@ -14,6 +14,7 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 #
+if (${TRT_BUILD_ENABLE_NEW_SAMPLES_FLOW})
 
 add_executable(sample_cudla sampleCudla.cpp)
 target_link_libraries(sample_cudla PRIVATE trt_samples_common TRT_SAMPLES::tensorrt ${CUDLA_TARGET})
@@ -25,3 +26,14 @@ installLibraries(
     OPTIONAL
     COMPONENT internal
 )
+
+else()
+
+set(SAMPLE_SOURCES sampleCudla.cpp)
+
+include(../CMakeSamplesTemplate.txt)
+
+target_link_libraries(${TARGET_NAME} ${CUDLA_TARGET})
+target_compile_definitions(${TARGET_NAME} PRIVATE ENABLE_DLA=1)
+
+endif()
diff --git a/samples/trtSafeExec/trtSafeExec.cpp b/samples/trtSafeExec/trtSafeExec.cpp
@@ -303,6 +303,7 @@ nvinfer2::safe::TypedArray createTypedArray(
     case DataType::kINT64: return nvinfer2::safe::TypedArray(static_cast<int64_t*>(ptr), bufferSize);
     case DataType::kINT32: return nvinfer2::safe::TypedArray(static_cast<int32_t*>(ptr), bufferSize);
     case DataType::kINT8: return nvinfer2::safe::TypedArray(static_cast<int8_t*>(ptr), bufferSize);
+    case DataType::kUINT8: return nvinfer2::safe::TypedArray(static_cast<uint8_t*>(ptr), bufferSize);
     case DataType::kBOOL: return nvinfer2::safe::TypedArray(static_cast<bool*>(ptr), bufferSize);
     default:
     {

Original file line number	Diff line number	Diff line change
`@@ -126,6 +126,8 @@ include_directories(BEFORE SYSTEM`
`126`	`126`	`${CUDA_ROOT}/targets/aarch64-qnx/include`
`127`	`127`	`)`
`128`	`128`
	`129`	`+set(CUDA_TARGET_LIB_DIR "${CUDA_ROOT}/targets/aarch64-qnx/lib" CACHE PATH "CUDA target library directory")`
	`130`	`+`
`129`	`131`	`# And, well, as another consequence of that weirdness, we need to ensure that the cuda libs are on the link path.`
`130`	`132`	`add_link_options(`
`131`	`133`	`"-L${CUDA_ROOT}/targets/aarch64-qnx/lib"`
Original file line number	Diff line number	Diff line change
`@@ -121,6 +121,8 @@ include_directories(BEFORE SYSTEM`
`121`	`121`	`${CUDA_ROOT}/targets/aarch64-qnx-safe/include`
`122`	`122`	`)`
`123`	`123`
	`124`	`+set(CUDA_TARGET_LIB_DIR "${CUDA_ROOT}/targets/aarch64-qnx-safe/lib" CACHE PATH "CUDA target library directory")`
	`125`	`+`
`124`	`126`	`link_directories(`
`125`	`127`	`${CUDA_ROOT}/targets/aarch64-qnx-safe/lib`
`126`	`128`	`${CUDA_ROOT}/targets/aarch64-qnx-safe/lib/stubs`
Original file line number	Diff line number	Diff line change
`@@ -1,5 +1,5 @@`
`1`	`1`	`/*`
`2`		`- * SPDX-FileCopyrightText: Copyright (c) 1993-2025 NVIDIA CORPORATION & AFFILIATES. All rights reserved.`
	`2`	`+ * SPDX-FileCopyrightText: Copyright (c) 1993-2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.`
`3`	`3`	`* SPDX-License-Identifier: Apache-2.0`
`4`	`4`	`*`
`5`	`5`	`* Licensed under the Apache License, Version 2.0 (the "License");`
Original file line number	Diff line number	Diff line change
`@@ -303,6 +303,7 @@ nvinfer2::safe::TypedArray createTypedArray(`
`303`	`303`	`case DataType::kINT64: return nvinfer2::safe::TypedArray(static_cast<int64_t*>(ptr), bufferSize);`
`304`	`304`	`case DataType::kINT32: return nvinfer2::safe::TypedArray(static_cast<int32_t*>(ptr), bufferSize);`
`305`	`305`	`case DataType::kINT8: return nvinfer2::safe::TypedArray(static_cast<int8_t*>(ptr), bufferSize);`
	`306`	`+ case DataType::kUINT8: return nvinfer2::safe::TypedArray(static_cast<uint8_t*>(ptr), bufferSize);`
`306`	`307`	`case DataType::kBOOL: return nvinfer2::safe::TypedArray(static_cast<bool*>(ptr), bufferSize);`
`307`	`308`	`default:`
`308`	`309`	`{`