Cleanup dbg buffers functionality

orionpapadakis · orionpapadakis · commit 4a29063e745d · 2025-07-30T16:04:17.000+03:00
diff --git a/src/main/java/com/example/inference/state/Qwen3State.java b/src/main/java/com/example/inference/state/Qwen3State.java
@@ -18,13 +18,6 @@ public final class Qwen3State extends State {
     public FloatArray tempQcur;
     public FloatArray tempKcur;
 
-    // dbg buffer
-    public FloatArray dbgQ;
-    public FloatArray dbgKeyCache;
-    public FloatArray dbgValueCache;
-    public FloatArray dbgX;
-    public FloatArray dbgXb;
-
     public Qwen3State(Configuration config, int batchsize) {
         super(config, batchsize);
         // Initialize Qwen3-specific field
@@ -33,20 +26,6 @@ public Qwen3State(Configuration config, int batchsize) {
         this.kq = ArrayFloatTensor.allocate(config.numberOfHeads(), 32, 15);
         this.tempQcur = new FloatArray(nEmbdHead);
         this.tempKcur = new FloatArray(nEmbdHead);
-
-        // dbg buffers
-        int nHeadKv = qwen3config.numberOfKeyValueHeads();
-        int nEmbdHeadK = qwen3config.numberOfHeadsKey();
-        int nEmbdKGqa = nEmbdHeadK * nHeadKv;
-        int nEmbdHeadV = qwen3config.numberOfHeadsValue();
-        int nEmbdVGqa = nEmbdHeadV * nHeadKv;
-        int nEmbdGqa = nEmbdVGqa;
-
-        this.dbgQ = new FloatArray(nEmbdHeadK * qwen3config.numberOfHeads());
-        this.dbgKeyCache = new FloatArray(qwen3config.contextLength() * nEmbdGqa * qwen3config.numberOfLayers());
-        this.dbgValueCache = new FloatArray(qwen3config.contextLength() * nEmbdGqa * qwen3config.numberOfLayers());
-        this.dbgX = new FloatArray(config.dim());
-        this.dbgXb = new FloatArray(nEmbdHeadK * qwen3config.numberOfHeads());
     }
 
     @Override
diff --git a/src/main/java/com/example/tornadovm/Qwen3TornadoVMLayerPlanner.java b/src/main/java/com/example/tornadovm/Qwen3TornadoVMLayerPlanner.java
@@ -51,17 +51,14 @@ protected TaskGraph configureLayerDataTransfers(TaskGraph unifiedLayer, int laye
                     context, state.wrapXb, state.wrapXb2, //
                     state.wrapQ, state.wrapK, state.wrapV, //
                     state.wrapKeyCache, state.wrapValueCache, //
-                    state.wrapAtt, state.wrapHb);//,
-                    // dbg buffers
-                    //state.dbgQ, state.dbgKeyCache, state.dbgValueCache, state.dbgXb, state.dbgX); //
+                    state.wrapAtt, state.wrapHb);//
         } else {
             // Subsequent layers: Consume data already on device from previous layer
             unifiedLayer.consumeFromDevice(context, state.wrapXb, state.wrapXb2, //
                     state.wrapQ, state.wrapK, state.wrapV, //
                     state.wrapKeyCache, state.wrapValueCache, //
                     state.wrapAtt, state.wrapHb, //
                     state.positionHolder //
-                    //state.dbgQ, state.dbgKeyCache, state.dbgValueCache, state.dbgXb, state.dbgX
             );
         }
         return unifiedLayer;
@@ -76,10 +73,6 @@ public Tuple2<List<ImmutableTaskGraph>, GridScheduler> setupTornadoForwardPlanLa
         state.tempLogits.init(0.0f);
         state.wrapLogits.init(0.0f);
 
-//        state.dbgQ.init(0.0f);
-//        state.dbgKeyCache.init(0.0f);
-//        state.dbgValueCache.init(0.0f);
-
         // @formatter:off
         TaskGraph activationUpdate = new TaskGraph("activationUpdate")
                 .transferToDevice(DataTransferMode.EVERY_EXECUTION, state.wrapX)
@@ -108,12 +101,6 @@ public Tuple2<List<ImmutableTaskGraph>, GridScheduler> setupTornadoForwardPlanLa
                     weights.w3Layered[layerIndex]
             );
             unifiedLayer = configureLayerDataTransfers(unifiedLayer, layerIndex);
-//            unifiedLayer.task("dbg_copy_out_x",
-//                    Qwen3Kernels::dbgCopy,
-//                    state.wrapX,
-//                    state.dbgX,
-//                    state.positionHolder,
-//                    layerIndex);
             unifiedLayer.task("reductionsOneBlock",
                                     TransformerComputeKernelsLayered::reductionOneBlockWithLayer,
                                     context,
@@ -170,13 +157,6 @@ public Tuple2<List<ImmutableTaskGraph>, GridScheduler> setupTornadoForwardPlanLa
                             kvDim0,
                             LOCAL_WORK_GROUP_SIZE_ALLOC);
 
-//            unifiedLayer.task("dbg_copy_out_wrapQ",
-//                    Qwen3Kernels::dbgCopy,
-//                    state.wrapQ,
-//                    state.dbgQ,
-//                    state.positionHolder,
-//                    layerIndex);
-
             // dbg copy out
 //            unifiedLayer.transferToHost(DataTransferMode.EVERY_EXECUTION, state.wrapQ);
 //            unifiedLayer.transferToHost(DataTransferMode.EVERY_EXECUTION, state.wrapK);
@@ -205,13 +185,6 @@ public Tuple2<List<ImmutableTaskGraph>, GridScheduler> setupTornadoForwardPlanLa
                             weights.rms_att_QNormLayered[layerIndex],
                             nEmbdHead,
                             state.tempQcur);
-
-//            unifiedLayer.task("dbg_copy_out_wrapQ",
-//                    Qwen3Kernels::dbgCopy,
-//                    state.wrapQ,
-//                    state.dbgQ,
-//                    state.positionHolder,
-//                    layerIndex);
 //            unifiedLayer.transferToHost(DataTransferMode.EVERY_EXECUTION, state.wrapQ);
 //            unifiedLayer.transferToHost(DataTransferMode.EVERY_EXECUTION, state.wrapK);
 //
@@ -253,13 +226,6 @@ public Tuple2<List<ImmutableTaskGraph>, GridScheduler> setupTornadoForwardPlanLa
                             config.numberOfKeyValueHeads(),
                             nEmbdHead);
 
-//            unifiedLayer.task("dbg_copy_out_wrapQ",
-//                    Qwen3Kernels::dbgCopy,
-//                    state.wrapQ,
-//                    state.dbgQ,
-//                    state.positionHolder,
-//                    layerIndex);
-
             // dbg copy out
             //unifiedLayer.transferToHost(DataTransferMode.EVERY_EXECUTION, state.wrapQ);
             //unifiedLayer.transferToHost(DataTransferMode.EVERY_EXECUTION, state.wrapK);
@@ -275,27 +241,6 @@ public Tuple2<List<ImmutableTaskGraph>, GridScheduler> setupTornadoForwardPlanLa
                     layerIndex,
                     config.contextLength());
 
-//            unifiedLayer.task("dbg_copy_out_q",
-//                    Qwen3Kernels::dbgCopy,
-//                    state.wrapQ,
-//                    state.dbgQ,
-//                    state.positionHolder,
-//                    layerIndex);
-//
-//            unifiedLayer.task("dbg_copy_out_keyCache",
-//                    Qwen3Kernels::dbgCopy,
-//                    state.wrapKeyCache,
-//                    state.dbgKeyCache,
-//                    state.positionHolder,
-//                    layerIndex);
-//
-//            unifiedLayer.task("dbg_copy_out_ValueCache",
-//                    Qwen3Kernels::dbgCopy,
-//                    state.wrapValueCache,
-//                    state.dbgValueCache,
-//                    state.positionHolder,
-//                    layerIndex);
-
             // global size = numberOfHeads * 8 = 16 * 8 = 128
             unifiedLayer.task("parallel-attention",
                     TransformerComputeKernelsLayered::processHeadsFlashAttentionOpt,
@@ -312,20 +257,6 @@ public Tuple2<List<ImmutableTaskGraph>, GridScheduler> setupTornadoForwardPlanLa
                     layerIndex,
                     config.contextLength());
 
-//            unifiedLayer.task("dbg_copy_out_x",
-//                    Qwen3Kernels::dbgCopy,
-//                    state.wrapX,
-//                    state.dbgX,
-//                    state.positionHolder,
-//                    layerIndex);
-//
-//            unifiedLayer.task("dbg_copy_out_xb",
-//                    Qwen3Kernels::dbgCopy,
-//                    state.wrapXb,
-//                    state.dbgXb,
-//                    state.positionHolder,
-//                    layerIndex);
-
             //unifiedLayer.transferToHost(DataTransferMode.EVERY_EXECUTION, state.wrapXb);
             unifiedLayer.task("matmul1", Qwen3Kernels::matrixVectorGenericWithResidual,
                     context,
@@ -336,13 +267,6 @@ public Tuple2<List<ImmutableTaskGraph>, GridScheduler> setupTornadoForwardPlanLa
                     config.dim(),                           // dim0 = 1024
                     LOCAL_WORK_GROUP_SIZE_ALLOC);
 
-//            unifiedLayer.task("dbg_copy_out_x",
-//                    Qwen3Kernels::dbgCopy,
-//                    state.wrapX,
-//                    state.dbgX,
-//                    state.positionHolder,
-//                    layerIndex);
-
             //unifiedLayer.transferToHost(DataTransferMode.EVERY_EXECUTION, state.wrapX);
             unifiedLayer.task("reductionsOneBlockFFN", TransformerComputeKernelsLayered::reductionOneBlockWithLayer,
                             context, state.tempFFN, state.wrapX, config.dim(), config.rmsNormEps(), state.localSize)
@@ -351,22 +275,11 @@ public Tuple2<List<ImmutableTaskGraph>, GridScheduler> setupTornadoForwardPlanLa
                     .task("mapContextFFN", TransformerComputeKernelsLayered::reductionOneBlock2WithLayer, context, state.wrapXb,
                             state.wrapX, weights.rms_ffn_weightLayered[layerIndex], state.tempFFN);
 
-//            unifiedLayer.task("dbg_copy_out_xb",
-//                    Qwen3Kernels::dbgCopy,
-//                    state.wrapXb,
-//                    state.dbgXb,
-//                    state.positionHolder,
-//                    layerIndex);
-
             unifiedLayer.task("fused_ffn_w1_w3", TransformerComputeKernelsLayered::fusedFeedForwardWithSiLUAndGLUActivation, context,
                             state.wrapXb,   state.wrapHb, weights.w1Layered[layerIndex], weights.w3Layered[layerIndex], config.dim(), config.hiddenDim(),  LOCAL_WORK_GROUP_SIZE_ALLOC)
                     .task("projectionTwo", TransformerComputeKernelsLayered::matrixVectorGenericWithResidual, context,
                             state.wrapHb, state.wrapX, weights.w2Layered[layerIndex], config.hiddenDim(), config.dim(),  LOCAL_WORK_GROUP_SIZE_ALLOC)
                     //.transferToHost(DataTransferMode.EVERY_EXECUTION, state.wrapX)
-                    // dbg copy out
-                    //.transferToHost(DataTransferMode.EVERY_EXECUTION, state.dbgQ, state.dbgKeyCache, state.dbgValueCache)
-                    //.transferToHost(DataTransferMode.EVERY_EXECUTION, state.dbgX)//, state.dbgXb)
-                    //.transferToHost(DataTransferMode.EVERY_EXECUTION, state.dbgValueCache)
                     .persistOnDevice(
                             state.wrapX
                     );