feat: optional import of decord, fix for sentence feature extractor (#852)

jarulraj · web-flow · commit 95c501df8951 · 2023-06-10T20:47:15.000-04:00
👋 Thanks for submitting a Pull Request to EvaDB! 🙌 We want to make contributing to EvaDB as easy and transparent as possible. Here are a few tips to get you started: - 🔍 Search existing EvaDB [PRs](https://github.com/georgia-tech-db/eva/pulls) to see if a similar PR already exists. - 🔗 Link this PR to a EvaDB [issue](https://github.com/georgia-tech-db/eva/issues) to help us understand what bug fix or feature is being implemented. - 📈 Provide before and after profiling results to help us quantify the improvement your PR provides (if applicable). 👉 Please see our ✅ [Contributing Guide](https://evadb.readthedocs.io/en/stable/source/contribute/index.html) for more details.
diff --git a/.circleci/config.yml b/.circleci/config.yml
@@ -59,9 +59,8 @@ workflows:
             mode: "COV"
         - Windows:
             name: "Windows | v3.10"
-        # test_create_index_doesn't work on MacOS
-        # - MacOS:
-        #    name: "MacOS | v3.10"
+        - MacOS:
+            name: "MacOS | v3.10"
         # missing Torchvision
         #- Linux:
         #    name: "Linux -  v3.11"  
diff --git a/docs/source/overview/faq.rst b/docs/source/overview/faq.rst
@@ -17,6 +17,11 @@ Where does EvaDB store all the data?
 
 By default, EvaDB stores all the data in a local folder named ``evadb_data``.
 
+pip install ray fails because of grpcio
+=======================================
+
+Follow these instructions to install ``ray``:
+https://github.com/ray-project/ray/issues/33039
 
 Why does the EvaDB server not start?
 ====================================
diff --git a/evadb/readers/decord_reader.py b/evadb/readers/decord_reader.py
@@ -21,20 +21,9 @@
 from evadb.expression.abstract_expression import AbstractExpression
 from evadb.expression.expression_utils import extract_range_list_from_predicate
 from evadb.readers.abstract_reader import AbstractReader
+from evadb.utils.generic_utils import try_import_decord
 from evadb.utils.logging_manager import logger
 
-# Lazy import to avoid torch init failures
-_decord = None
-
-
-def _lazy_import_decord():
-    global _decord
-    if _decord is None:
-        import decord
-
-        _decord = decord
-    return _decord
-
 
 class DecordReader(AbstractReader):
     def __init__(
@@ -106,7 +95,9 @@ def _read(self) -> Iterator[Dict]:
                     yield self._get_frame(frame_id)
 
     def initialize_reader(self):
-        decord = _lazy_import_decord()
+        try_import_decord()
+        import decord
+
         if self._read_audio:
             assert (
                 self._sampling_type != IFRAMES
diff --git a/evadb/third_party/huggingface/model.py b/evadb/third_party/huggingface/model.py
@@ -14,12 +14,11 @@
 # limitations under the License.
 from typing import Any
 
-import decord
 import numpy as np
 from PIL import Image
 
 from evadb.udfs.abstract.hf_abstract_udf import AbstractHFUdf
-from evadb.utils.generic_utils import EvaDBEnum
+from evadb.utils.generic_utils import EvaDBEnum, try_import_decord
 
 
 class HFInputTypes(EvaDBEnum):
@@ -64,6 +63,10 @@ def input_formatter(self, inputs: Any):
         # else expect that the user passed an array of video file paths, get audio as numpy array
         audio = []
         files = inputs.iloc[:, 0].tolist()
+
+        try_import_decord()
+        import decord
+
         for file in files:
             # must read audio at 16000Hz because most models were trained at this sampling rate
             reader = decord.AudioReader(file, mono=True, sample_rate=16000)
diff --git a/evadb/udfs/sentence_feature_extractor.py b/evadb/udfs/sentence_feature_extractor.py
@@ -32,6 +32,7 @@ def setup(self):
             "sentence-transformers/all-MiniLM-L6-v2"
         )
         self.model = AutoModel.from_pretrained("sentence-transformers/all-MiniLM-L6-v2")
+        self.model_device = None
 
     def to_device(self, device: str) -> GPUCompatible:
         self.model_device = device
@@ -65,7 +66,8 @@ def _forward(row: pd.Series) -> np.ndarray:
             encoded_input = self.tokenizer(
                 [sentence], padding=True, truncation=True, return_tensors="pt"
             )
-            encoded_input.to(self.model_device)
+            if self.model_device is not None:
+                encoded_input.to(self.model_device)
             with torch.no_grad():
                 model_output = self.model(**encoded_input)
 
diff --git a/evadb/udfs/sentence_transformer_feature_extractor.py b/evadb/udfs/sentence_transformer_feature_extractor.py
diff --git a/evadb/udfs/udf_bootstrap_queries.py b/evadb/udfs/udf_bootstrap_queries.py
@@ -193,6 +193,11 @@
     EvaDB_INSTALLATION_DIR
 )
 
+yolo8n_query = """CREATE UDF IF NOT EXISTS Yolo
+            TYPE  ultralytics
+            'model' 'yolov8n.pt';
+        """
+
 
 def init_builtin_udfs(db: EvaDBDatabase, mode: str = "debug") -> None:
     """Load the built-in UDFs into the system during system bootstrapping.
@@ -234,15 +239,10 @@ def init_builtin_udfs(db: EvaDBDatabase, mode: str = "debug") -> None:
                 DummyObjectDetector_udf_query,
                 DummyMultiObjectDetector_udf_query,
                 DummyFeatureExtractor_udf_query,
+                yolo8n_query,
             ]
         )
 
-        yolo8n = """CREATE UDF IF NOT EXISTS Yolo
-            TYPE  ultralytics
-            'model' 'yolov8n.pt';
-        """
-        queries.append(yolo8n)
-
     # execute each query in the list of UDF queries
     for query in queries:
         execute_query_fetch_all(db, query)
diff --git a/evadb/utils/generic_utils.py b/evadb/utils/generic_utils.py
@@ -218,3 +218,18 @@ def remove_directory_contents(dir_path):
                     shutil.rmtree(file_path)
             except Exception as e:
                 logger.warning(f"Failed to delete {file_path}. Reason: {str(e)}")
+
+
+##############################
+
+## TRY TO IMPORT PACKAGES
+
+
+def try_import_decord():
+    try:
+        import decord  # noqa: F401
+    except ImportError:
+        raise ValueError(
+            """Could not import decord python package.
+                Please install it with `pip install eva-decord`."""
+        )
diff --git a/script/test/package.sh b/script/test/package.sh
@@ -38,6 +38,7 @@ if [ "$test_code" -ne 0 ];
 then
     echo "Server did not start"
     echo "$test_code"
+    cat evadb.log
     exit "$test_code"
 fi
 
@@ -58,6 +59,7 @@ if [ "$?" -ne 1 ];
 then
     echo "Client did not start"
     echo "$test_code"
+    cat client.log
     exit "$test_code"
 fi
 
diff --git a/setup.py b/setup.py
@@ -52,14 +52,12 @@ def read(path, encoding="utf-8"):
     "retry>=0.9.2",
     "aenum>=2.2.0",
     "diskcache>=5.4.0",
-    "eva-decord>=0.6.1",
     "boto3",
     "nest_asyncio",
     "langchain",
     "pymupdf",
     "pdfminer.six",
     "sentence-transformers"
-
 ]
 
 formatter_libs = ["black>=23.1.0", "isort>=5.10.1"]
@@ -120,8 +118,9 @@ def read(path, encoding="utf-8"):
     "norfair>=2.2.0",  # OBJECT TRACKING
 ]
 
-### NEEDED FOR EXPERIMENTAL FEATURES
+### NEEDED FOR A BATTERIES-LOADED EXPERIENCE
 third_party_libs = [
+    "eva-decord>=0.6.1", # for processing videos
     "qdrant-client>=1.1.7",  # Qdrant vector store client
     "kornia",  # SIFT features
     "langchain>=0.0.177",  # langchain document loaders
diff --git a/test/interfaces/relational/test_relational_api.py b/test/interfaces/relational/test_relational_api.py
@@ -334,27 +334,27 @@ def test_pdf_similarity_search(self):
         load_pdf = cursor.load(file_regex=pdf_path2, format="PDF", table_name="PDFs")
         load_pdf.execute()
 
-        udf_check = cursor.drop_udf("SentenceTransformerFeatureExtractor")
+        udf_check = cursor.drop_udf("SentenceFeatureExtractor")
         udf_check.df()
         udf = cursor.create_udf(
-            "SentenceTransformerFeatureExtractor",
+            "SentenceFeatureExtractor",
             True,
-            f"{EvaDB_ROOT_DIR}/evadb/udfs/sentence_transformer_feature_extractor.py",
+            f"{EvaDB_ROOT_DIR}/evadb/udfs/sentence_feature_extractor.py",
         )
         udf.execute()
 
         cursor.create_vector_index(
             "faiss_index",
             table_name="PDFs",
-            expr="SentenceTransformerFeatureExtractor(data)",
+            expr="SentenceFeatureExtractor(data)",
             using="QDRANT",
         ).df()
 
         query = (
             cursor.table("PDFs")
             .order(
                 """Similarity(
-                    SentenceTransformerFeatureExtractor('When was the NATO created?'), SentenceTransformerFeatureExtractor(data)
+                    SentenceFeatureExtractor('When was the NATO created?'), SentenceFeatureExtractor(data)
                 ) DESC"""
             )
             .limit(3)
diff --git a/tutorials/13-privategpt.ipynb b/tutorials/13-privategpt.ipynb