Changes

Elmanjhg · Elmanjhg · commit fdb32c352eee · 2026-01-19T13:36:26.000+01:00
- implemented the new method matrixMultDenseDenseMM, where using different iterations, when dealing with transposes, trying to achieve a speedup

- added one test class for the correctness of the implementation

- added on test class to check, wether the running time has improved
diff --git a/src/main/java/org/apache/sysds/runtime/matrix/data/LibMatrixMult.java b/src/main/java/org/apache/sysds/runtime/matrix/data/LibMatrixMult.java
@@ -1026,6 +1026,146 @@ public static void matrixMultWuMM(MatrixBlock mW, MatrixBlock mU, MatrixBlock mV
 	// optimized matrix mult implementation //
 	//////////////////////////////////////////
 
+	public static void matrixMultDenseDenseMM(DenseBlock a, DenseBlock b, DenseBlock c, boolean transA, boolean transB, int n, int cd, int rl, int ru, int cl, int cu) {
+		// C = A %*% B
+		if (!transA && !transB) {
+			matrixMultDenseDenseMM(a, b, c, n, cd, rl, ru, cl, cu);
+			return;
+		}
+		// C = t(A) %*% B
+		if (transA && !transB) {
+			multDenseDenseTransA(a, b, c, n, cd, rl, ru, cl, cu);
+			return;
+		}
+		// C = A %*% t(B)
+		if (!transA && transB) {
+			multDenseDenseTransB(a, b, c, n, cd, rl, ru, cl, cu);
+			return;
+		}
+		// C = t(A) %*% t(B)
+		if (transA && transB) {
+			multDenseDenseTransATransB(a, b, c, n, cd, rl, ru, cl, cu);
+			return;
+		}
+	}
+
+	private static void multDenseDenseTransA(DenseBlock a, DenseBlock b, DenseBlock c, int n, int cd, int rl, int ru, int cl, int cu) {
+		final int blocksizeI = 32;
+		final int blocksizeK = 24;
+
+		for (int bi = rl; bi < ru; bi += blocksizeI) {
+			int bimin = Math.min(ru, bi + blocksizeI);
+			for (int bk = 0; bk < cd; bk += blocksizeK) {
+				int bkmin = Math.min(cd, bk + blocksizeK);
+
+				int k = bk;
+				for (; k < bkmin - 3; k += 4) {
+					if (b.isContiguous()) {
+						double[] bvals = b.values(0);
+						int bix0 = b.pos(k, cl), bix1 = b.pos(k+1, cl);
+						int bix2 = b.pos(k+2, cl), bix3 = b.pos(k+3, cl);
+
+						for (int i = bi; i < bimin; i++) {
+							double[] cvals = c.values(i);
+							int cix = c.pos(i, cl);
+							double val0 = a.values(k)[a.pos(k) + i];
+							double val1 = a.values(k+1)[a.pos(k+1) + i];
+							double val2 = a.values(k+2)[a.pos(k+2) + i];
+							double val3 = a.values(k+3)[a.pos(k+3) + i];
+
+							vectMultiplyAdd4(val0, val1, val2, val3,
+								bvals, cvals,
+								bix0, bix1, bix2, bix3, cix, cu - cl);
+						}
+					} else {
+						for (int i = bi; i < bimin; i++) {
+							double[] cvals = c.values(i);
+							int cix = c.pos(i, cl);
+							double val0 = a.values(k)[a.pos(k) + i];
+							if(val0!=0) vectMultiplyAdd(val0, b.values(k), cvals, b.pos(k, cl), cix, cu - cl);
+							double val1 = a.values(k+1)[a.pos(k+1) + i];
+							if(val1!=0) vectMultiplyAdd(val1, b.values(k+1), cvals, b.pos(k+1, cl), cix, cu - cl);
+							double val2 = a.values(k+2)[a.pos(k+2) + i];
+							if(val2!=0) vectMultiplyAdd(val2, b.values(k+2), cvals, b.pos(k+2, cl), cix, cu - cl);
+							double val3 = a.values(k+3)[a.pos(k+3) + i];
+							if(val3!=0) vectMultiplyAdd(val3, b.values(k+3), cvals, b.pos(k+3, cl), cix, cu - cl);
+						}
+					}
+				}
+				for (; k < bkmin; k++) {
+					double[] bvals = b.values(k);
+					int bix = b.pos(k, cl);
+					double[] avals = a.values(k);
+					int apos = a.pos(k);
+					for (int i = bi; i < bimin; i++) {
+						double val = avals[apos + i];
+						if (val != 0) {
+							vectMultiplyAdd(val, bvals, c.values(i), bix, c.pos(i, cl), cu - cl);
+						}
+					}
+				}
+			}
+		}
+	}
+
+	private static void multDenseDenseTransB(DenseBlock a, DenseBlock b, DenseBlock c, int n, int cd, int rl, int ru, int cl, int cu) {
+		final int blocksizeK = 24;
+		double[] bufB = new double[blocksizeK * (cu - cl)];
+
+		for (int bk = 0; bk < cd; bk += blocksizeK) {
+			int bkmin = Math.min(cd, bk + blocksizeK);
+			int bklen = bkmin - bk;
+
+
+			for (int j = cl; j < cu; j++) {
+				double[] bvals = b.values(j);
+				int bpos = b.pos(j);
+
+				for (int k = 0; k < bklen; k++) {
+					bufB[k * (cu-cl) + (j-cl)] = bvals[bpos + bk + k];
+				}
+			}
+
+			for (int i = rl; i < ru; i++) {
+				double[] avals = a.values(i);
+				int apos = a.pos(i);
+				double[] cvals = c.values(i);
+				int cix = c.pos(i, cl);
+
+				for (int k = 0; k < bklen; k++) {
+					double val = avals[apos + bk + k];
+					if (val != 0) {
+						int bufIx = k * (cu-cl);
+						vectMultiplyAdd(val, bufB, cvals, bufIx, cix, cu - cl);
+					}
+				}
+			}
+		}
+	}
+
+	private static void multDenseDenseTransATransB(DenseBlock a, DenseBlock b, DenseBlock c, int n, int cd, int rl, int ru, int cl, int cu) {
+		double[] d_row = new double[ru];
+
+		for (int j = cl; j < cu; j++) {
+			java.util.Arrays.fill(d_row, rl, ru, 0);
+
+			for (int k = 0; k < cd; k++) {
+				double valB = b.get(j, k);
+				if (valB != 0) {
+					double[] avals = a.values(k);
+					int apos = a.pos(k);
+					vectMultiplyAdd(valB, avals, d_row, apos + rl, rl, ru - rl);
+				}
+			}
+
+			for (int i = rl; i < ru; i++) {
+				double[] cvals = c.values(i);
+				int cix = c.pos(i);
+				cvals[cix + j] += d_row[i];
+			}
+		}
+	}
+
 	private static void matrixMultDenseDense(MatrixBlock m1, MatrixBlock m2, MatrixBlock ret, boolean tm2, boolean pm2, int rl, int ru, int cl, int cu) {
 		DenseBlock a = m1.getDenseBlock();
 		DenseBlock b = m2.getDenseBlock();
diff --git a/src/test/java/org/apache/sysds/test/component/matrixmult/MatrixMultTransposedPerformanceTest.java b/src/test/java/org/apache/sysds/test/component/matrixmult/MatrixMultTransposedPerformanceTest.java
@@ -0,0 +1,91 @@
+package org.apache.sysds.test.component.matrixmult;
+
+import org.apache.sysds.runtime.matrix.data.LibMatrixMult;
+import org.apache.sysds.runtime.matrix.data.LibMatrixReorg;
+import org.apache.sysds.runtime.matrix.data.MatrixBlock;
+import org.junit.Assert;
+import org.junit.Test;
+
+public class MatrixMultTransposedPerformanceTest {
+	private final int m = 500;
+	private final int n = 500;
+	private final int k = 500;
+
+
+	@Test
+	public void testPerf_1_NoTransA_TransB() {
+		System.out.println("Case: C = A %*% t(B)");
+		runTest(false, true);
+		System.out.println();
+	}
+
+	@Test
+	public void testPerf_2_TransA_NoTransB() {
+		System.out.println("Case: C = t(A) %*% B");
+		runTest(true, false);
+		System.out.println();
+	}
+
+	@Test
+	public void testPerf_3_TransA_TransB() {
+		System.out.println("Case: C = t(A) %*% t(B)");
+		runTest(true, true);
+	}
+
+	private void runTest(boolean tA, boolean tB) {
+		int REP = 50;
+
+		// setup Dimensions
+		int rowsA = tA ? k : m;
+		int colsA = tA ? m : k;
+		int rowsB = tB ? n : k;
+		int colsB = tB ? k : n;
+
+		MatrixBlock A = MatrixBlock.randOperations(rowsA, colsA, 1.0, -1, 1, "uniform", 7);
+		MatrixBlock B = MatrixBlock.randOperations(rowsB, colsB, 1.0, -1, 1, "uniform", 3);
+		MatrixBlock C = new MatrixBlock(m, n, false);
+		C.allocateDenseBlock();
+
+
+		for(int i=0; i<50; i++) {
+			runOldMethod(A, B, tA, tB);
+			runNewKernel(A, B, C, tA, tB);
+		}
+
+
+		long startTimeOld = System.nanoTime();
+		for(int i = 0; i < REP; i++) {
+			runOldMethod(A, B, tA, tB);
+		}
+		double avgTimeOld = (System.nanoTime() - startTimeOld) / 1e6 / REP;
+
+
+		double startTimeNew = System.nanoTime();
+		for(int i = 0; i < REP; i++) {
+			runNewKernel(A, B, C, tA, tB);
+		}
+		double avgTimeNew = (System.nanoTime() - startTimeNew) / 1e6 / REP;
+
+		System.out.printf("Old Method: %.3f ms | New Kernel: %.3f ms", avgTimeOld, avgTimeNew);
+
+		Assert.assertTrue(avgTimeNew < avgTimeOld);
+	}
+
+	private void runNewKernel(MatrixBlock A, MatrixBlock B, MatrixBlock C, boolean tA, boolean tB) {
+		C.reset();
+
+		LibMatrixMult.matrixMultDenseDenseMM(A.getDenseBlock(), B.getDenseBlock(), C.getDenseBlock(), tA, tB, m, k, 0, m, 0, n);
+	}
+
+	private void runOldMethod(MatrixBlock A, MatrixBlock B, boolean tA, boolean tB) {
+		// do transpose if needed
+		MatrixBlock A_in = tA ? LibMatrixReorg.transpose(A) : A;
+		MatrixBlock B_in = tB ? LibMatrixReorg.transpose(B) : B;
+
+		MatrixBlock C = new MatrixBlock(m, n, false);
+		C.allocateDenseBlock();
+
+		LibMatrixMult.matrixMultDenseDenseMM(A_in.getDenseBlock(), B_in.getDenseBlock(), C.getDenseBlock(), false,
+				false, m, k, 0, m, 0, n);
+	}
+}
diff --git a/src/test/java/org/apache/sysds/test/component/matrixmult/MatrixMultTransposedTest.java b/src/test/java/org/apache/sysds/test/component/matrixmult/MatrixMultTransposedTest.java
@@ -0,0 +1,72 @@
+package org.apache.sysds.test.component.matrixmult;
+
+import org.apache.sysds.runtime.data.DenseBlock;
+import org.apache.sysds.runtime.matrix.data.LibMatrixMult;
+import org.apache.sysds.runtime.matrix.data.LibMatrixReorg;
+import org.apache.sysds.runtime.matrix.data.MatrixBlock;
+import org.apache.sysds.test.TestUtils;
+import org.junit.Test;
+
+import java.util.Random;
+
+public class MatrixMultTransposedTest {
+
+    // run multiple random scenarios
+    @Test
+    public void testCase_noTransA_TransB() {
+        for(int i=0; i<10; i++) {
+            runTest(false, true);
+        }
+    }
+
+    @Test
+    public void testCase_TransA_NoTransB() {
+        for(int i=0; i<10; i++) {
+            runTest(true, false);
+        }
+    }
+
+    @Test
+    public void testCase_TransA_TransB() {
+        for(int i=0; i<10; i++) {
+            runTest(true, true);
+        }
+    }
+
+    private void runTest(boolean tA, boolean tB) {
+        Random rand = new Random();
+
+        // generate random dimensions between 1 and 300
+        int m = rand.nextInt(300) + 1;
+        int n = rand.nextInt(300) + 1;
+        int k = rand.nextInt(300) + 1;
+
+
+        int rowsA = tA ? k : m;
+        int colsA = tA ? m : k;
+        int rowsB = tB ? n : k;
+        int colsB = tB ? k : n;
+
+        MatrixBlock ma = MatrixBlock.randOperations(rowsA, colsA, 1.0, -1, 1, "uniform", 7);
+        MatrixBlock mb = MatrixBlock.randOperations(rowsB, colsB, 1.0, -1, 1, "uniform", 3);
+
+        MatrixBlock mc = new MatrixBlock(m, n, false);
+        mc.allocateDenseBlock();
+
+        DenseBlock a = ma.getDenseBlock();
+        DenseBlock b = mb.getDenseBlock();
+        DenseBlock c = mc.getDenseBlock();
+
+        LibMatrixMult.matrixMultDenseDenseMM(a, b, c, tA, tB, n, k, 0, m, 0, n);
+
+        mc.recomputeNonZeros();
+
+        // calc true result with existing methods
+        MatrixBlock ma_in = tA ? LibMatrixReorg.transpose(ma) : ma;
+        MatrixBlock mb_in = tB ? LibMatrixReorg.transpose(mb) : mb;
+        MatrixBlock expected = LibMatrixMult.matrixMult(ma_in, mb_in);
+
+        // compare results
+        TestUtils.compareMatrices(expected, mc, 1e-8);
+    }
+}