ggml-org
diff --git a/‎pim/Makefile‎
Lines changed: 52 additions & 0 deletions b/‎pim/Makefile‎
Lines changed: 52 additions & 0 deletions
diff --git a/‎pim/dpu/main.c‎
Lines changed: 117 additions & 0 deletions b/‎pim/dpu/main.c‎
Lines changed: 117 additions & 0 deletions
diff --git a/‎pim/dpu/ops/gemv.c‎
Lines changed: 30 additions & 0 deletions b/‎pim/dpu/ops/gemv.c‎
Lines changed: 30 additions & 0 deletions
diff --git a/‎pim/dpu/ops/gemv.h‎
Lines changed: 10 additions & 0 deletions b/‎pim/dpu/ops/gemv.h‎
Lines changed: 10 additions & 0 deletions
diff --git a/‎pim/dpu/ops/tensor_add.c‎
Lines changed: 31 additions & 0 deletions b/‎pim/dpu/ops/tensor_add.c‎
Lines changed: 31 additions & 0 deletions
diff --git a/‎pim/dpu/ops/tensor_add.h‎
Lines changed: 11 additions & 0 deletions b/‎pim/dpu/ops/tensor_add.h‎
Lines changed: 11 additions & 0 deletions
diff --git a/‎pim/dpu/ops/tensor_get.c‎
Lines changed: 29 additions & 0 deletions b/‎pim/dpu/ops/tensor_get.c‎
Lines changed: 29 additions & 0 deletions
diff --git a/‎pim/dpu/ops/tensor_get.h‎
Lines changed: 12 additions & 0 deletions b/‎pim/dpu/ops/tensor_get.h‎
Lines changed: 12 additions & 0 deletions
diff --git a/‎pim/dpu/sto/g_vars.c‎
Lines changed: 5 additions & 0 deletions b/‎pim/dpu/sto/g_vars.c‎
Lines changed: 5 additions & 0 deletions
diff --git a/‎pim/dpu/sto/g_vars.h‎
Lines changed: 12 additions & 0 deletions b/‎pim/dpu/sto/g_vars.h‎
Lines changed: 12 additions & 0 deletions
@@ -0,0 +1,52 @@
+BUILDDIR ?= build
+
+HOST_BINARY=${BUILDDIR}/host_app
+HOST_SOURCES=$(wildcard host/*.c)
+HOST_SOURCES+=$(wildcard host/mm/*.c)
+HOST_SOURCES+=$(wildcard host/msg/*.c)
+HOST_HEADERS=$(wildcard host/*.h)
+HOST_HEADERS+=$(wildcard host/mm/*.h)
+HOST_HEADERS+=$(wildcard host/msg/*.h)
+
+DPU_BINARY=${BUILDDIR}/dpu_task
+DPU_SOURCES=$(wildcard dpu/*.c)
+DPU_SOURCES+=$(wildcard dpu/ops/*.c)
+DPU_SOURCES+=$(wildcard dpu/sto/*.c)
+DPU_SOURCES+=$(wildcard dpu/util/*.c)
+DPU_HEADERS=$(wildcard dpu/*.h)
+DPU_HEADERS+=$(wildcard dpu/ops/*.h)
+DPU_HEADERS+=$(wildcard dpu/sto/*.h)
+DPU_HEADERS+=$(wildcard dpu/util/*.h)
+
+UTIL_HEADERS=$(wildcard host/util/*.h)
+UTIL_SOURCES=$(wildcard host/util/*.c)
+
+CHECK_FORMAT_FILES=${HOST_SOURCES} ${HOST_HEADERS} ${DPU_SOURCES} ${DPU_HEADERS} ${UTIL_HEADERS} ${UTIL_SOURCES}
+CHECK_FORMAT_DEPENDENCIES=$(addsuffix -check-format,${CHECK_FORMAT_FILES})
+
+NR_TASKLETS ?= 16
+
+__dirs := $(shell mkdir -p ${BUILDDIR})
+
+.PHONY: all clean run plotdata check check-format tools
+
+all: ${HOST_BINARY} ${DPU_BINARY} tools
+clean:
+	rm -rf ${BUILDDIR}
+
+###
+### HOST APPLICATION
+###
+CFLAGS=-g -O3 -std=gnu99 -fgnu89-inline `dpu-pkg-config --cflags --libs dpu` -DNR_TASKLETS=${NR_TASKLETS} -pthread -lstdc++
+LDFLAGS=`dpu-pkg-config --libs dpu`
+
+${HOST_BINARY}: ${HOST_SOURCES} ${HOST_HEADERS} ${UTIL_HEADERS} ${UTIL_SOURCES} ${DPU_BINARY}
+	$(CC) -o $@ ${HOST_SOURCES} ${UTIL_SOURCES} $(LDFLAGS) $(CFLAGS) -DDPU_BINARY=\"$(realpath ${DPU_BINARY})\"
+
+###
+### DPU BINARY
+###
+DPU_FLAGS=-g -O3 -fgnu89-inline -DNR_TASKLETS=${NR_TASKLETS} -DSTACK_SIZE_DEFAULT=1024
+
+${DPU_BINARY}: ${DPU_SOURCES} ${DPU_HEADERS} ${UTIL_HEADERS} ${UTIL_SOURCES}
+	dpu-upmem-dpurte-clang ${DPU_FLAGS} ${DPU_SOURCES} ${UTIL_SOURCES} -o $@
@@ -0,0 +1,117 @@
+#include <assert.h>
+#include <stdint.h>
+#include <stdio.h>
+#include <string.h>
+#include <defs.h>
+#include <mram.h>
+#include <alloc.h>
+#include <barrier.h>
+#include <seqread.h>
+
+#include "./sto/g_vars.h"
+#include "./sto/mram_mm.h"
+#include "./ops/gemv.h"
+#include "./ops/tensor_add.h"
+
+#ifndef NR_TASKLETS
+#define NR_TASKLETS 16
+#endif
+
+#define DPU_MAIN_DEBUG_PRINT 0
+
+BARRIER_INIT(my_barrier, NR_TASKLETS);
+
+static void init()
+{
+    mem_reset(); // reset heap in wram
+    mram_read((__mram_ptr void const *)(MESSAGE_BUFFER_ADDR), &g_msg_header, sizeof(msg_buffer_header));
+
+#if DPU_MAIN_DEBUG_PRINT
+    printf("block_cnt: %d, total_size: %d\n", g_msg_header.block_cnt, g_msg_header.total_size);
+#endif
+
+    assert(g_msg_header.total_size <= 16 * 1024);
+    g_msg_cache_ptr = (char *)mem_alloc(g_msg_header.total_size);
+    mram2wram((__mram_ptr void const *)(MESSAGE_BUFFER_ADDR), g_msg_cache_ptr, g_msg_header.total_size);
+    g_blocks_offset_ptr = (uint32_t *)(g_msg_cache_ptr + g_msg_header.total_size - align8(sizeof(uint32_t) * g_msg_header.block_cnt));
+
+#if DPU_MAIN_DEBUG_PRINT
+    for (int i = 0; i < g_msg_header.block_cnt; i++)
+    {
+        printf("blocks_offset: %d ", g_blocks_offset_ptr[i]);
+    }
+    printf("\n");
+#endif
+}
+
+int main()
+{
+    unsigned int tasklet_id = me();
+
+    if (tasklet_id == 0)
+    {
+        init();
+    }
+
+    barrier_wait(&my_barrier);
+
+    for (int i = 0; i < g_msg_header.block_cnt; i++)
+    {
+        msg_block_header *header_ptr = (msg_block_header *)(g_msg_cache_ptr + g_blocks_offset_ptr[i]);
+#if DPU_MAIN_DEBUG_PRINT
+        if (tasklet_id == 0)
+        {
+            printf("header_ptr->op: %d, src0.dpu_addr: %d, ne0: %d, ne1: %d\n", header_ptr->op, header_ptr->src0.ptr.dpu_addr, 
+            header_ptr->src0.ne[0], header_ptr->src0.ne[1]);
+        }
+#endif
+        switch (header_ptr->op)
+        {
+        case PIM_OP_GEMV:
+            if (tasklet_id == 0)
+            {
+                gemv_prepare();
+            }
+            barrier_wait(&my_barrier);
+            gemv_tasklets_run();
+            barrier_wait(&my_barrier);
+            if (tasklet_id == 0)
+            {
+                gemv_merge();
+            }
+            break;
+
+        case PIM_OP_TENSOR_ADD_FOR_TEST:
+            if (tasklet_id == 0)
+            {
+                tensor_add_prepare(header_ptr);
+            }
+            barrier_wait(&my_barrier);
+            tensor_add_tasklets_run();
+            barrier_wait(&my_barrier);
+            if (tasklet_id == 0)
+            {
+                tensor_add_merge();
+            }
+            break;
+
+        case PIM_OP_TENSOR_GET_FOR_TEST:
+            if (tasklet_id == 0)
+            {
+                tensor_get_prepare(header_ptr);
+            }
+            barrier_wait(&my_barrier);
+            tensor_get_tasklets_run();
+            barrier_wait(&my_barrier);
+            if (tasklet_id == 0)
+            {
+                tensor_get_merge();
+            }
+            break;
+
+        default:
+            break;
+        }
+    }
+    return 0;
+}
@@ -0,0 +1,30 @@
+#include "gemv.h"
+
+__host int16_t mul_table_int4_int8[1 << 4][1 << 8];
+__mram_noinit float table_f32_f16[1 << 16];
+
+static float lookup_fp16_to_fp32(uint16_t f)
+{
+    uint16_t s;
+    memcpy(&s, &f, sizeof(uint16_t));
+    uint16_t alignedOffset;
+    float temp[8];
+
+    alignedOffset = s & 0xfff8;
+    mram_read((__mram_ptr void const *)(table_f32_f16 + alignedOffset), temp, sizeof(float) * 8);
+    return temp[s & 0x7];
+}
+
+#define FP16_TO_FP32(x) lookup_fp16_to_fp32(x)
+
+void gemv_prepare()
+{
+}
+
+void gemv_tasklets_run()
+{
+}
+
+void gemv_merge()
+{
+}
@@ -0,0 +1,10 @@
+#ifndef _GEMV_H
+#define _GEMV_H
+
+#include <mram.h>
+
+void gemv_prepare();
+void gemv_tasklets_run();
+void gemv_merge();
+
+#endif
@@ -0,0 +1,31 @@
+#include "tensor_add.h"
+
+#define OP_TENSOR_ADD_DEBUG_PRINT 0
+
+static pim_tensor_des *src0 = NULL;
+static int32_t *num = 0;
+
+void tensor_add_prepare(msg_block_header *header_ptr)
+{
+    src0 = &header_ptr->src0;
+    num = (int32_t *)((char *)header_ptr + sizeof(msg_block_header));
+
+#if OP_TENSOR_ADD_DEBUG_PRINT
+    printf("src0.dpu_addr: %d, ne0: %d, ne1: %d, num: %d\n", header_ptr->src0.ptr.dpu_addr,
+           header_ptr->src0.ne[0], header_ptr->src0.ne[1], *num);
+#endif
+
+    __mram_ptr int32_t *src0_addr = (__mram_ptr int32_t *)(DPU_MRAM_HEAP_POINTER + header_ptr->src0.ptr.dpu_addr);
+    for (int i = 0; i < header_ptr->src0.ne[0] * header_ptr->src0.ne[1]; i++)
+    {
+        src0_addr[i] += *num;
+    }
+}
+
+void tensor_add_tasklets_run()
+{
+}
+
+void tensor_add_merge()
+{
+}
@@ -0,0 +1,11 @@
+#ifndef _TENSOR_ADD_H
+#define _TENSOR_ADD_H
+
+#include <mram.h>
+#include "../../host/msg/msg_block.h"
+
+void tensor_add_prepare(msg_block_header *header_ptr);
+void tensor_add_tasklets_run();
+void tensor_add_merge();
+
+#endif
@@ -0,0 +1,29 @@
+#include "tensor_get.h"
+
+#define OP_TENSOR_GET_DEBUG_PRINT 0
+
+static pim_tensor_des *src0 = NULL;
+
+void tensor_get_prepare(msg_block_header *header_ptr)
+{
+    src0 = &header_ptr->src0;
+
+#if OP_TENSOR_GET_DEBUG_PRINT
+    printf("src0.dpu_addr: %d, ne0: %d, ne1: %d\n", header_ptr->src0.ptr.dpu_addr,
+           header_ptr->src0.ne[0], header_ptr->src0.ne[1]);
+#endif
+}
+
+void tensor_get_tasklets_run()
+{
+}
+
+void tensor_get_merge()
+{
+    __mram_ptr int32_t *src0_addr = (__mram_ptr int32_t *)(DPU_MRAM_HEAP_POINTER + src0->ptr.dpu_addr);
+    __mram_ptr int32_t *dst = (__mram_ptr int32_t *)RESULT_BUFFER_ADDR;
+    for (int i = 0; i < src0->ne[0] * src0->ne[1]; i++)
+    {
+        dst[i] = src0_addr[i];
+    }
+}
@@ -0,0 +1,12 @@
+#ifndef _TENSOR_GET_H
+#define _TENSOR_GET_H
+
+#include <mram.h>
+#include "../../host/msg/msg_block.h"
+#include "../sto/mram_mm.h"
+
+void tensor_get_prepare(msg_block_header *header_ptr);
+void tensor_get_tasklets_run();
+void tensor_get_merge();
+
+#endif
@@ -0,0 +1,5 @@
+#include "g_vars.h"
+
+__host msg_buffer_header g_msg_header;
+__host char *g_msg_cache_ptr = NULL;
+__host uint32_t *g_blocks_offset_ptr = NULL;
@@ -0,0 +1,12 @@
+#ifndef _G_VARS_H
+#define _G_VARS_H
+
+#include <mram.h>
+#include <stdlib.h>
+#include "../../host/msg/msg_buffer.h"
+
+extern __host msg_buffer_header g_msg_header;
+extern __host char *g_msg_cache_ptr;
+extern __host uint32_t *g_blocks_offset_ptr;
+
+#endif