update notebook

leeyeehoo · leeyeehoo · commit 55c77cba3058 · 2023-09-16T12:18:14.000-05:00
diff --git a/medusa/model/medusa_model.py b/medusa/model/medusa_model.py
@@ -62,7 +62,7 @@ class MedusaModel(nn.Module):
     def __init__(
         self,
         base_model,
-        medusa_num_heads=2,
+        medusa_num_heads=4,
         medusa_num_layers=1,
         base_model_name_or_path="lmsys/vicuna-7b-v1.3",
     ):
diff --git a/notebooks/medusa_inference_explained.ipynb b/notebooks/medusa_inference_explained.ipynb
@@ -16,7 +16,7 @@
    "outputs": [],
    "source": [
     "import os\n",
-    "os.environ[\"CUDA_VISIBLE_DEVICES\"] = \"0\" # define GPU id, remove if you want to use all GPUs available\n",
+    "os.environ[\"CUDA_VISIBLE_DEVICES\"] = \"3\" # define GPU id, remove if you want to use all GPUs available\n",
     "import torch\n",
     "from tqdm import tqdm\n",
     "import time\n",
@@ -26,6 +26,7 @@
     "from medusa.model.medusa_model import MedusaModel\n",
     "from medusa.model.kv_cache import *\n",
     "from medusa.model.utils import *\n",
+    "from medusa.model.medusa_choices import *\n",
     "import transformers\n",
     "from huggingface_hub import hf_hub_download"
    ]
@@ -55,28 +56,83 @@
     "    elapsed_time = end - start\n",
     "    wall_times[key].append(elapsed_time)\n",
     "\n",
-    "def medusa_forward(input_ids, model, tokenizer, medusa_buffers, medusa_topk, temperature, posterior_threshold, posterior_alpha, past_key_values, past_key_values_data, current_length_data, steps = 512):\n",
+    "def medusa_forward(input_ids, model, tokenizer, medusa_choices, temperature, posterior_threshold, posterior_alpha, max_steps = 512):\n",
     "    wall_times = {'medusa': [], 'tree': [], 'posterior': [], 'update': [], 'init': []}\n",
     "    \n",
     "    with timed(wall_times, 'init'):\n",
-    "        reset_medusa_mode(model)\n",
+    "        if hasattr(model, \"medusa_choices\") and model.medusa_choices == medusa_choices:\n",
+    "            # Load the cached medusa buffer\n",
+    "            medusa_buffers = model.medusa_buffers\n",
+    "        else:\n",
+    "            # Initialize the medusa buffer\n",
+    "            medusa_buffers = generate_medusa_buffers(\n",
+    "                medusa_choices, device=model.base_model.device\n",
+    "            )\n",
+    "        model.medusa_buffers = medusa_buffers\n",
+    "        model.medusa_choices = medusa_choices\n",
+    "\n",
+    "        # Initialize the past key and value states\n",
+    "        if hasattr(model, \"past_key_values\"):\n",
+    "            past_key_values = model.past_key_values\n",
+    "            past_key_values_data = model.past_key_values_data\n",
+    "            current_length_data = model.current_length_data\n",
+    "            # Reset the past key and value states\n",
+    "            current_length_data.zero_()\n",
+    "        else:\n",
+    "            (\n",
+    "                past_key_values,\n",
+    "                past_key_values_data,\n",
+    "                current_length_data,\n",
+    "            ) = initialize_past_key_values(model.base_model)\n",
+    "            model.past_key_values = past_key_values\n",
+    "            model.past_key_values_data = past_key_values_data\n",
+    "            model.current_length_data = current_length_data\n",
+    "\n",
     "        input_len = input_ids.shape[1]\n",
-    "        medusa_logits, logits = initialize_medusa(input_ids, model, medusa_buffers['medusa_attn_mask'], past_key_values)\n",
-    "    \n",
+    "        reset_medusa_mode(model)\n",
+    "        medusa_logits, logits = initialize_medusa(\n",
+    "                input_ids, model, medusa_buffers[\"medusa_attn_mask\"], past_key_values\n",
+    "        )\n",
     "    new_token = 0\n",
     "\n",
-    "    for idx in range(steps): \n",
+    "    for idx in range(max_steps): \n",
     "        with timed(wall_times, 'medusa'):\n",
-    "            candidates, tree_candidates = generate_candidates(medusa_logits, logits, medusa_topk, medusa_buffers['tree_indices'], temperature)\n",
+    "            candidates, tree_candidates = generate_candidates(\n",
+    "                    medusa_logits,\n",
+    "                    logits,\n",
+    "                    medusa_buffers[\"tree_indices\"],\n",
+    "                    medusa_buffers[\"retrieve_indices\"],\n",
+    "                )\n",
     "\n",
     "        with timed(wall_times, 'tree'):\n",
-    "            medusa_logits, logits, outputs = tree_decoding(model, tree_candidates, past_key_values, medusa_buffers['medusa_position_ids'], input_ids, medusa_buffers['retrieve_indices'])\n",
+    "            medusa_logits, logits, outputs = tree_decoding(\n",
+    "                    model,\n",
+    "                    tree_candidates,\n",
+    "                    past_key_values,\n",
+    "                    medusa_buffers[\"medusa_position_ids\"],\n",
+    "                    input_ids,\n",
+    "                    medusa_buffers[\"retrieve_indices\"],\n",
+    "                )\n",
     "\n",
     "        with timed(wall_times, 'posterior'):\n",
-    "            best_candidate, accept_length = evaluate_posterior(logits, candidates, temperature, posterior_threshold, posterior_alpha)\n",
+    "            best_candidate, accept_length = evaluate_posterior(\n",
+    "                    logits, candidates, temperature, posterior_threshold, posterior_alpha\n",
+    "                )\n",
     "        \n",
     "        with timed(wall_times, 'update'):\n",
-    "            input_ids, logits, medusa_logits, new_token = update_inference_inputs(input_ids, candidates, best_candidate, accept_length, medusa_buffers['retrieve_indices'], outputs, logits, medusa_logits, new_token, past_key_values_data, current_length_data)\n",
+    "            input_ids, logits, medusa_logits, new_token = update_inference_inputs(\n",
+    "                    input_ids,\n",
+    "                    candidates,\n",
+    "                    best_candidate,\n",
+    "                    accept_length,\n",
+    "                    medusa_buffers[\"retrieve_indices\"],\n",
+    "                    outputs,\n",
+    "                    logits,\n",
+    "                    medusa_logits,\n",
+    "                    new_token,\n",
+    "                    past_key_values_data,\n",
+    "                    current_length_data,\n",
+    "                )\n",
     "\n",
     "        if tokenizer.eos_token_id in input_ids[0, input_len:].tolist():\n",
     "            break\n",
@@ -102,17 +158,15 @@
     "model_name = 'FasterDecoding/medusa-vicuna-7b-v1.3'\n",
     "model = MedusaModel.from_pretrained(\n",
     "    model_name,\n",
+    "    medusa_num_heads = 4,\n",
     "    torch_dtype=torch.float16,\n",
     "    low_cpu_mem_usage=True,\n",
     "    device_map=\"auto\"\n",
     ")\n",
     "tokenizer = model.get_tokenizer()\n",
     "\n",
-    "medusa_choices = torch.tensor([1, 7, 6])\n",
-    "num_heads = len(medusa_choices) - 1\n",
-    "medusa_topk = medusa_choices[1:]\n",
-    "\n",
-    "medusa_buffers = generate_medusa_buffers(medusa_choices, device=model.base_model.device)"
+    "medusa_choices = mc_sim_7b_63\n",
+    "\n"
    ]
   },
   {
@@ -135,24 +189,6 @@
     "posterior_alpha = 0.3"
    ]
   },
-  {
-   "cell_type": "markdown",
-   "metadata": {},
-   "source": [
-    "## Initializing Past Values\n",
-    "\n",
-    "We initialize the dedicated cache for past key values."
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": null,
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "past_key_values, past_key_values_data, current_length_data = initialize_past_key_values(model.base_model)"
-   ]
-  },
   {
    "cell_type": "markdown",
    "metadata": {},
@@ -192,13 +228,10 @@
     "                    torch.as_tensor(input_ids).cuda(),\n",
     "                    model,\n",
     "                    tokenizer,\n",
-    "                    medusa_buffers,\n",
-    "                    medusa_topk,\n",
+    "                    medusa_choices,\n",
     "                    temperature,\n",
     "                    posterior_threshold,\n",
     "                    posterior_alpha,\n",
-    "                    past_key_values,\n",
-    "                    past_key_values_data, current_length_data\n",
     "                )\n",
     "    output_ids = output_ids[0][len(input_ids[0]) :]\n",
     "    print(\"Output length:\", output_ids.size(-1))\n",
@@ -299,7 +332,7 @@
    "name": "python",
    "nbconvert_exporter": "python",
    "pygments_lexer": "ipython3",
-   "version": "3.9.16"
+   "version": "3.9.18"
   },
   "orig_nbformat": 4
  },