Add HMT execution model stub

bigjr-mkkong · bigjr-mkkong · commit dbb638402706 · 2025-09-30T13:48:01.000-04:00
diff --git a/PIMbench/vec-add/PIM/vec-add.cpp b/PIMbench/vec-add/PIM/vec-add.cpp
@@ -3,6 +3,7 @@
 // This file is licensed under the MIT License.
 // See the LICENSE file in the root of this repository for more details.
 
+
 #include <iostream>
 #include <vector>
 #include <getopt.h>
diff --git a/libpimeval/src/pimCmd.cpp b/libpimeval/src/pimCmd.cpp
@@ -716,6 +716,8 @@ pimCmdFunc2::sanityCheck() const
 bool
 pimCmdFunc2::computeRegion(unsigned index)
 {
+  //HMT
+  //This function will compute region $index for each src, region can be row?
   const pimObjInfo& objSrc1 = m_device->getResMgr()->getObjInfo(m_src1);
   const pimObjInfo& objSrc2 = m_device->getResMgr()->getObjInfo(m_src2);
   pimObjInfo& objDest = m_device->getResMgr()->getObjInfo(m_dest);
diff --git a/libpimeval/src/pimPerfEnergyBankLevel.cpp b/libpimeval/src/pimPerfEnergyBankLevel.cpp
@@ -178,6 +178,8 @@ pimPerfEnergyBankLevel::getPerfEnergyForFunc2(PimCmdEnum cmdType, const pimObjIn
   unsigned numPass = obj.getMaxNumRegionsPerCore();
   unsigned bitsPerElement = obj.getBitsPerElement(PimBitWidth::ACTUAL);
   unsigned numCoresUsed = obj.isLoadBalanced() ? obj.getNumCoreAvailable() : obj.getNumCoresUsed();
+  double m_ttrans = HMT_model.get_m_ttrans();
+  double m_etrans = HMT_model.get_m_etrans();
 
   unsigned maxElementsPerRegion = obj.getMaxElementsPerRegion();
   double numberOfOperationPerElement = ((double)bitsPerElement / m_blimpCoreBitWidth);
@@ -196,12 +198,12 @@ pimPerfEnergyBankLevel::getPerfEnergyForFunc2(PimCmdEnum cmdType, const pimObjIn
     case PimCmdEnum::MUL:
     case PimCmdEnum::DIV:
     {
-      msRead = ((2 * (m_tACT + m_tPRE)) + (maxGDLItr * m_tGDL)) * (numPass - 1) + ((2 * (activateMS + m_tPRE)) + (minGDLItr * m_tGDL));
-      msWrite = ((m_tACT + m_tPRE) + (maxGDLItr * m_tGDL)) * (numPass - 1) + ((activateMS + m_tPRE) + (minGDLItr * m_tGDL));
+      msRead = ((2 * (m_tACT + m_tPRE + m_ttrans)) + (maxGDLItr * m_tGDL)) * (numPass - 1) + ((2 * (activateMS + m_tPRE)) + (minGDLItr * m_tGDL));
+      msWrite = ((m_tACT + m_tPRE + m_ttrans) + (maxGDLItr * m_tGDL)) * (numPass - 1) + ((activateMS + m_tPRE) + (minGDLItr * m_tGDL));
       msCompute = (maxElementsPerRegion * m_blimpLatency * numberOfOperationPerElement * (numPass - 1)) + (minElementPerRegion * m_blimpLatency * numberOfOperationPerElement);
       msRuntime = msRead + msWrite + msCompute;
-      mjEnergy = (((m_eACT + m_ePRE) * 3) + (maxElementsPerRegion * m_blimpArithmeticEnergy * numberOfOperationPerElement)) * numCoresUsed * (numPass - 1);
-      mjEnergy += (((m_eACT + m_ePRE) * 3) + (minElementPerRegion * m_blimpArithmeticEnergy * numberOfOperationPerElement)) * numCoresUsed;
+      mjEnergy = (((m_eACT + m_ePRE + m_etrans) * 3) + (maxElementsPerRegion * m_blimpArithmeticEnergy * numberOfOperationPerElement)) * numCoresUsed * (numPass - 1);
+      mjEnergy += (((m_eACT + m_ePRE + m_etrans) * 3) + (minElementPerRegion * m_blimpArithmeticEnergy * numberOfOperationPerElement)) * numCoresUsed;
       mjEnergy += ((m_eR * 2 * maxGDLItr * (numPass-1)) + (m_eR * 2 * minGDLItr)) * numBankPerChip * m_numRanks;
       mjEnergy += ((m_eW * maxGDLItr * (numPass-1)) + (m_eW * minGDLItr)) * numBankPerChip * m_numRanks;
       mjEnergy += m_pBChip * m_numChipsPerRank * m_numRanks * msRuntime;
@@ -250,12 +252,12 @@ pimPerfEnergyBankLevel::getPerfEnergyForFunc2(PimCmdEnum cmdType, const pimObjIn
     case PimCmdEnum::COND_SELECT:
     case PimCmdEnum::COND_SELECT_SCALAR:
     {
-      msRead = ((2 * (m_tACT + m_tPRE)) + (maxGDLItr * m_tGDL)) * (numPass - 1) + ((2 * (activateMS + m_tPRE)) + (minGDLItr * m_tGDL));
-      msWrite = ((m_tACT + m_tPRE) + (maxGDLItr * m_tGDL)) * (numPass - 1) + ((activateMS + m_tPRE) + (minGDLItr * m_tGDL));
+      msRead = ((2 * (m_tACT + m_tPRE + m_ttrans)) + (maxGDLItr * m_tGDL)) * (numPass - 1) + ((2 * (activateMS + m_tPRE)) + (minGDLItr * m_tGDL));
+      msWrite = ((m_tACT + m_tPRE + m_ttrans) + (maxGDLItr * m_tGDL)) * (numPass - 1) + ((activateMS + m_tPRE) + (minGDLItr * m_tGDL));
       msCompute = (maxElementsPerRegion * m_blimpLatency * numberOfOperationPerElement * (numPass - 1)) + (minElementPerRegion * m_blimpLatency * numberOfOperationPerElement);
       msRuntime = msRead + msWrite + msCompute;
-      mjEnergy = (((m_eACT + m_ePRE) * 3) + (maxElementsPerRegion * m_blimpLogicalEnergy * numberOfOperationPerElement)) * numCoresUsed * (numPass - 1);
-      mjEnergy += (((m_eACT + m_ePRE) * 3) + (minElementPerRegion * m_blimpLogicalEnergy * numberOfOperationPerElement)) * numCoresUsed;
+      mjEnergy = (((m_eACT + m_ePRE + m_etrans) * 3) + (maxElementsPerRegion * m_blimpLogicalEnergy * numberOfOperationPerElement)) * numCoresUsed * (numPass - 1);
+      mjEnergy += (((m_eACT + m_ePRE + m_etrans) * 3) + (minElementPerRegion * m_blimpLogicalEnergy * numberOfOperationPerElement)) * numCoresUsed;
       mjEnergy += ((m_eR * 2 * maxGDLItr * (numPass-1)) + (m_eR * 2 * minGDLItr)) * numBankPerChip * m_numRanks;
       mjEnergy += ((m_eW * maxGDLItr * (numPass-1)) + (m_eW * minGDLItr)) * numBankPerChip * m_numRanks;
       mjEnergy += m_pBChip * m_numChipsPerRank * m_numRanks * msRuntime;
@@ -289,6 +291,8 @@ pimPerfEnergyBankLevel::getPerfEnergyForReduction(PimCmdEnum cmdType, const pimO
   uint64_t totalOp = 0;
   unsigned numBankPerChip = numCore / m_numChipsPerRank;
   double activateMS = minGDLItr * m_tGDL < m_tRAS * m_tCK ? m_tRAS * m_tCK : m_tACT; // Use tRAS if GDL is less than tRAS
+  double m_ttrans = HMT_model.get_m_ttrans();
+  double m_etrans = HMT_model.get_m_etrans();
 
   switch (cmdType) {
     case PimCmdEnum::REDSUM:
@@ -300,15 +304,15 @@ pimPerfEnergyBankLevel::getPerfEnergyForReduction(PimCmdEnum cmdType, const pimO
     {
       // How many iteration require to read / write max elements per region
       double numberOfOperationPerElement = ((double)bitsPerElement / m_blimpCoreBitWidth);
-      msRead = (m_tACT + m_tPRE) * (numPass - 1) + (activateMS + m_tPRE);
+      msRead = (m_tACT + m_tPRE + m_ttrans) * (numPass - 1) + (activateMS + m_tPRE);
       // reduction for all regions assuming 16 core AMD EPYC 9124
       double aggregateMs = static_cast<double>(obj.getNumCoresUsed()) / 2300000;
       msCompute = (maxElementsPerRegion * m_blimpLatency * numberOfOperationPerElement * (numPass - 1)) + (minElementPerRegion * m_blimpLatency * numberOfOperationPerElement) + aggregateMs;
       msRuntime = msRead + msWrite + msCompute;
 
       // Refer to fulcrum documentation
-      mjEnergy = ((m_eACT + m_ePRE) + (maxElementsPerRegion * m_blimpArithmeticEnergy * numberOfOperationPerElement)) * (numPass - 1) * numCore;
-      mjEnergy += ((m_eACT + m_ePRE) + (minElementPerRegion * m_blimpArithmeticEnergy * numberOfOperationPerElement)) * numCore;
+      mjEnergy = ((m_eACT + m_ePRE + m_etrans) + (maxElementsPerRegion * m_blimpArithmeticEnergy * numberOfOperationPerElement)) * (numPass - 1) * numCore;
+      mjEnergy += ((m_eACT + m_ePRE + m_etrans) + (minElementPerRegion * m_blimpArithmeticEnergy * numberOfOperationPerElement)) * numCore;
       mjEnergy += aggregateMs * cpuTDP;
       mjEnergy += ((m_eR * maxGDLItr * (numPass-1)) + (m_eR * minGDLItr)) * numBankPerChip;
       mjEnergy += m_pBChip * m_numChipsPerRank * m_numRanks * msRuntime;
@@ -342,11 +346,13 @@ pimPerfEnergyBankLevel::getPerfEnergyForBroadcast(PimCmdEnum cmdType, const pimO
   unsigned minGDLItr = std::ceil(minElementPerRegion * bitsPerElement * 1.0 / m_GDLWidth);
   unsigned numBankPerChip = numCore / m_numChipsPerRank;
   double activateMS = minGDLItr * m_tGDL < m_tRAS * m_tCK ? m_tRAS * m_tCK : m_tACT; // Use tRAS if GDL is less than tRAS
+  double m_ttrans = HMT_model.get_m_ttrans();
+  double m_etrans = HMT_model.get_m_etrans();
   uint64_t totalOp = 0;
-  msWrite = ((m_tACT + m_tPRE) + (maxGDLItr * m_tGDL)) * (numPass - 1) + ((activateMS + m_tPRE) + (minGDLItr * m_tGDL));
+  msWrite = ((m_tACT + m_tPRE + m_ttrans) + (maxGDLItr * m_tGDL)) * (numPass - 1) + ((activateMS + m_tPRE) + (minGDLItr * m_tGDL));
 
   msRuntime = msRead + msWrite + msCompute;
-  mjEnergy = (m_eACT + m_ePRE) * numPass * numCore;
+  mjEnergy = (m_eACT + m_ePRE + m_etrans) * numPass * numCore;
   mjEnergy += (m_eW * maxGDLItr * (numPass-1) + m_eW * minGDLItr) * numBankPerChip;
   mjEnergy += m_pBChip * m_numChipsPerRank * m_numRanks * msRuntime;
   return pimeval::perfEnergy(msRuntime, mjEnergy, msRead, msWrite, msCompute, totalOp);
@@ -459,4 +465,4 @@ pimPerfEnergyBankLevel::getPerfEnergyForPrefixSum(PimCmdEnum cmdType, const pimO
       break;
     }
   return pimeval::perfEnergy(msRuntime, mjEnergy, msRead, msWrite, msCompute, totalOp);
-}
+}
diff --git a/libpimeval/src/pimPerfEnergyBase.cpp b/libpimeval/src/pimPerfEnergyBase.cpp
@@ -11,6 +11,7 @@
 #include "pimPerfEnergyBankLevel.h"
 #include "pimPerfEnergyAquabolt.h"
 #include "pimPerfEnergyAim.h"
+#include "pimTLB.h"
 #include <cstdint>
 #include <cstdio>
 
@@ -75,8 +76,10 @@ pimPerfEnergyBase::pimPerfEnergyBase(const pimPerfEnergyModelParams& params)
   m_tRP = m_paramsDram.gettRP();
   m_tCAS = m_paramsDram.getNsTCAS() / m_nano_to_milli; // Convert ns to ms
   m_tRAS = m_paramsDram.gettRAS();
-}
 
+  HMT_model.set_m_etrans(HMT_ETRANS);
+  HMT_model.set_m_ttrans(HMT_TTRANS);
+}
 //! @brief  Perf energy model of data transfer between CPU memory and PIM memory
 pimeval::perfEnergy
 pimPerfEnergyBase::getPerfEnergyForBytesTransfer(PimCmdEnum cmdType, uint64_t numBytes) const
diff --git a/libpimeval/src/pimPerfEnergyBase.h b/libpimeval/src/pimPerfEnergyBase.h
@@ -11,6 +11,7 @@
 #include "pimParamsDram.h"             // for pimParamsDram
 #include "pimCmd.h"                    // for PimCmdEnum
 #include "pimResMgr.h"                 // for pimObjInfo
+#include "pimTLB.h"
 #include <cstdint>
 #include <memory>                      // for std::unique_ptr
 
@@ -106,6 +107,8 @@ class pimPerfEnergyBase
   unsigned m_tRCD; // RCD in cycles
   unsigned m_tRP; // RP in cycles
   unsigned m_tRAS; // RAS in cycles
+
+  HMT HMT_model;
 };
 
 #endif
diff --git a/libpimeval/src/pimTLB.cpp b/libpimeval/src/pimTLB.cpp
@@ -0,0 +1,5 @@
+#include <cstdio>
+#include <cstdlib>
+#include <cassert>
+#include "pimTLB.h"
+
diff --git a/libpimeval/src/pimTLB.h b/libpimeval/src/pimTLB.h
@@ -0,0 +1,38 @@
+#ifndef LAVA_PIM_TLB_H
+#define LAVA_PIM_TLB_H
+
+#include <stddef.h>
+
+// #define HMT_ENABLE
+#define HMT_SZ  64
+
+#define HMT_TTRANS  1
+#define HMT_ETRANS  1
+
+#ifdef HMT_ENABLE
+#define GETSET(T, N) \
+  T get_##N() const { return N; };  \
+  void set_##N(T x) { N = x; }
+#else
+#define GETSET(T, N) \
+  T get_##N() const { return (T)0; };  \
+  void set_##N(T x) { N = (T)0; }
+#endif
+
+
+struct HMT{
+    public:
+    HMT() :\
+        m_ttrans(0.0),\
+        m_etrans(0.0) \
+    {};
+
+    GETSET(double, m_ttrans)
+    GETSET(double, m_etrans)
+
+    private:
+    double m_ttrans;
+    double m_etrans;
+};
+
+#endif

Original file line number	Diff line number	Diff line change
`@@ -716,6 +716,8 @@ pimCmdFunc2::sanityCheck() const`
`716`	`716`	`bool`
`717`	`717`	`pimCmdFunc2::computeRegion(unsigned index)`
`718`	`718`	`{`
	`719`	`+ //HMT`
	`720`	`+ //This function will compute region $index for each src, region can be row?`
`719`	`721`	`const pimObjInfo& objSrc1 = m_device->getResMgr()->getObjInfo(m_src1);`
`720`	`722`	`const pimObjInfo& objSrc2 = m_device->getResMgr()->getObjInfo(m_src2);`
`721`	`723`	`pimObjInfo& objDest = m_device->getResMgr()->getObjInfo(m_dest);`