remove quant weight format to nz

tqgy6 · tqgy6 · commit 78d70239adc8 · 2025-07-21T09:09:25.000+08:00
diff --git a/ggml/src/ggml-cann/aclnn_ops.cpp b/ggml/src/ggml-cann/aclnn_ops.cpp
@@ -1930,37 +1930,14 @@ static void ggml_cann_mul_mat_quant(ggml_backend_cann_context& ctx,
             int64_t output_ne_offset = 0;
             int64_t output_ne[2] = {weight_ne[0], dst->ne[1]};
 
-            aclTensor* acl_weight_tensor;
-            aclTensor* acl_scale_tensor;
-
-            bool weightToNZ = false;
-#ifdef ASCEND_310P
-            weightToNZ = (getenv("GGML_CANN_WEIGHT_NZ") != nullptr);
-#endif
-            if (weightToNZ) {
-                 int64_t acl_weight_stride[] = {weight_ne[1], 1};
-                std::vector<int64_t> storageDims = {weight_ne[0], weight_ne[1]};
-                acl_weight_tensor = aclCreateTensor(
-                    weight_ne, 2, ggml_cann_type_mapping(type), acl_weight_stride,
-                    weight_ne_offset / ggml_element_size(src0), ACL_FORMAT_FRACTAL_NZ, storageDims.data(), 2,
-                    src0->data);
-                
-                int64_t acl_scale_stride[] = {scale_ne[1], 1};
-                std::vector<int64_t> scaleStorageDims = {scale_ne[0], scale_ne[1]};
-                acl_scale_tensor = aclCreateTensor(
-                    scale_ne, 2, ACL_FLOAT16, acl_scale_stride,
-                    scale_ne_offset, ACL_FORMAT_ND, scaleStorageDims.data(), 2,
-                    scale_offset + batch0 * scale_stride);
-            } else {
-                acl_weight_tensor = ggml_cann_create_tensor(
+            aclTensor* acl_weight_tensor = ggml_cann_create_tensor(
                     (char*)src0->data + batch0 * weight_stride,
                     ggml_cann_type_mapping(type), weight_elem_size, weight_ne,
                     weight_nb, 2, ACL_FORMAT_ND, weight_ne_offset);
-                acl_scale_tensor = ggml_cann_create_tensor(
+            aclTensor* acl_scale_tensor = ggml_cann_create_tensor(
                     scale_offset + batch0 * scale_stride, ACL_FLOAT16,
                     scale_elem_size, scale_ne, scale_nb, 2, ACL_FORMAT_ND,
                     scale_ne_offset);
-            }
             aclTensor* acl_output_tensor = ggml_cann_create_tensor(
                 (char*)output_buffer + batch1 * output_stride, ACL_FLOAT16,
                 output_elem_size, output_ne, output_nb, 2, ACL_FORMAT_ND,
diff --git a/ggml/src/ggml-cann/ggml-cann.cpp b/ggml/src/ggml-cann/ggml-cann.cpp
@@ -1158,8 +1158,6 @@ static int CreateAclTensorWeight(const void *hostData, const std::vector<int64_t
         strides[i] = shape[i + 1] * strides[i + 1];
     }
 
-    // std::vector<int64_t> storageShape;
-    // storageShape.push_back(size);
     *tensor = aclCreateTensor(shape.data(), shape.size(), dataType, strides.data(), 0, aclFormat::ACL_FORMAT_ND,
                               shape.data(), shape.size(), *deviceAddr);
     return 0;
@@ -1169,13 +1167,9 @@ static void weight_format_to_nz(ggml_tensor *tensor, const void *data, size_t of
     aclrtStream stream;
     ACL_CHECK(aclrtCreateStream(&stream));
 
-    std::vector<int64_t> weightShape = {tensor->ne[0], tensor->ne[1]};
     std::vector<int64_t> weightTransposedShape = {tensor->ne[1], tensor->ne[0]};
-    void *weightDeviceAddr = nullptr;
     void *weightTransposedDeviceAddr = nullptr;
-    aclTensor *weight = nullptr;
     aclTensor *weightTransposed = nullptr;
-    CreateAclTensorWeight(data, weightShape, &weightDeviceAddr, ggml_cann_type_mapping(tensor->type), &weight);
     CreateAclTensorWeight(data, weightTransposedShape, &weightTransposedDeviceAddr,
                           ggml_cann_type_mapping(tensor->type), &weightTransposed);
     
@@ -1196,13 +1190,8 @@ static void weight_format_to_nz(ggml_tensor *tensor, const void *data, size_t of
 
     aclrtMemcpy((char *)tensor->data + offset, size,
                 weightTransposedDeviceAddr, size, ACL_MEMCPY_HOST_TO_DEVICE);
-    ACL_CHECK(aclDestroyTensor(weight));
     ACL_CHECK(aclDestroyTensor(weightTransposed));
-    aclrtFree(weightDeviceAddr);
     aclrtFree(weightTransposedDeviceAddr);
-    if (workspaceSize > 0) {
-        aclrtFree(workspaceAddr);
-    }
 }
 
 // TODO: need handle tensor which has paddings.
@@ -1246,9 +1235,6 @@ static void ggml_backend_cann_buffer_set_tensor(
         ACL_CHECK(aclrtMemcpy((char *)tensor->data + offset, size,
                               transform_buffer, size,
                               ACL_MEMCPY_HOST_TO_DEVICE));
-        if (weightToNZ && is_matmul_weight((const ggml_tensor*)tensor)) {
-            weight_format_to_nz(tensor, transform_buffer, offset);
-        }
         free(transform_buffer);
     }
 }