Revert "Fix: videos in LLaVa-OV"

kcz358 · web-flow · commit c7cc95c0ed68 · 2024-09-12T09:13:21.000+08:00
diff --git a/docs/LLaVA_OneVision_Tutorials.ipynb b/docs/LLaVA_OneVision_Tutorials.ipynb
@@ -345,7 +345,6 @@
     "\n",
     "input_ids = tokenizer_image_token(prompt_question, tokenizer, IMAGE_TOKEN_INDEX, return_tensors=\"pt\").unsqueeze(0).to(device)\n",
     "image_sizes = [frame.size for frame in video_frames]\n",
-    "modalities = [\"video\"] * len(video_frames)\n",
     "\n",
     "# Generate response\n",
     "cont = model.generate(\n",
@@ -355,7 +354,7 @@
     "    do_sample=False,\n",
     "    temperature=0,\n",
     "    max_new_tokens=4096,\n",
-    "    modalities=modalities,\n",
+    "    modalities=[\"video\"],\n",
     ")\n",
     "text_outputs = tokenizer.batch_decode(cont, skip_special_tokens=True)\n",
     "print(text_outputs[0])"