Programming examples small fixes (#2031)

hunhoffe · web-flow · commit 44bc92688353 · 2025-02-01T00:12:18.000Z
diff --git a/programming_examples/basic/matrix_multiplication/single_core/single_core_iron.py b/programming_examples/basic/matrix_multiplication/single_core/single_core_iron.py
@@ -190,14 +190,14 @@ def core_fn(of_a, of_b, of_c, zero, matmul):
     rows_per_block = 4
 
     # Define tensor access patterns for inputs/outputs
-    A_taps = TensorTiler2D.group_tiler(
+    A_tiles = TensorTiler2D.group_tiler(
         (M, K), (m, k), (1, K_div_k), pattern_repeat=N_div_n
     )
     # There is only one access pattern for B - it tiles the entire matrix in (k x n) tiles.
     b_tap = TensorTiler2D.group_tiler(
         (K, N), (k, n), (K_div_k, N_div_n), tile_group_col_major=True
     )[0]
-    C_taps = TensorTiler2D.group_tiler((M, N), (m, n), (rows_per_block // 2, N_div_n))
+    C_tiles = TensorTiler2D.group_tiler((M, N), (m, n), (rows_per_block // 2, N_div_n))
     c_index = 0
 
     # Runtime operations to move data to/from the AIE-array
@@ -221,19 +221,19 @@ def core_fn(of_a, of_b, of_c, zero, matmul):
                 tgs.append(rt.task_group())
                 for tile_row in range(num_tile_rows):
                     # -- A --
-                    tile_offset = (row_base + tile_row) % len(A_taps)
-                    rt.fill(inA.prod(), A, tap=A_taps[tile_offset], task_group=tgs[-1])
-                    A_taps.append(A_taps[tile_offset])
+                    tile_offset = (row_base + tile_row) % len(A_tiles)
+                    rt.fill(inA.prod(), A, tap=A_tiles[tile_offset], task_group=tgs[-1])
+                    A_taps.append(A_tiles[tile_offset])
 
                     # -- B --
                     rt.fill(inB.prod(), B, tap=b_tap, task_group=tgs[-1])
                     B_taps.append(b_tap)
 
                 # -- C --
                 rt.drain(
-                    outC.cons(), C, tap=C_taps[c_index], task_group=tgs[-1], wait=True
+                    outC.cons(), C, tap=C_tiles[c_index], task_group=tgs[-1], wait=True
                 )
-                C_taps.append(C_taps[c_index])
+                C_taps.append(C_tiles[c_index])
                 c_index += 1
 
                 if tile_row_block > 0 or (tile_row_block == 0 and pingpong > 0):
diff --git a/programming_examples/basic/vector_scalar_mul/vector_scalar_mul.py b/programming_examples/basic/vector_scalar_mul/vector_scalar_mul.py
@@ -51,6 +51,7 @@ def core_body(of_in, of_factor, of_out, scale_fn):
             scale_fn(elem_in, elem_out, elem_factor, n)
             of_in.release(1)
             of_out.release(1)
+        of_factor.release(1)
 
     # Create a worker to run the task on a compute tile
     worker = Worker(
diff --git a/programming_examples/basic/vector_vector_add/vector_vector_add.py b/programming_examples/basic/vector_vector_add/vector_vector_add.py
@@ -63,7 +63,7 @@ def core_body(of_in1, of_in2, of_out):
         rt.drain(of_out.cons(), C, wait=True)
 
     # Place program components (assign them resources on the device) and generate an MLIR module
-    return Program(NPU1Col1(), rt).resolve_program(SequentialPlacer())
+    return Program(dev, rt).resolve_program(SequentialPlacer())
 
 
 module = my_vector_add()
diff --git a/programming_examples/basic/vector_vector_mul/vector_vector_mul.py b/programming_examples/basic/vector_vector_mul/vector_vector_mul.py
@@ -63,7 +63,7 @@ def core_body(of_in1, of_in2, of_out):
         rt.drain(of_out.cons(), C, wait=True)
 
     # Place program components (assign them resources on the device) and generate an MLIR module
-    return Program(NPU1Col1(), rt).resolve_program(SequentialPlacer())
+    return Program(dev, rt).resolve_program(SequentialPlacer())
 
 
 module = my_vector_mul()