The-OpenROAD-Project
diff --git a/‎.github/workflows/ci.yaml‎
Lines changed: 17 additions & 0 deletions b/‎.github/workflows/ci.yaml‎
Lines changed: 17 additions & 0 deletions
diff --git a/‎.gitignore‎
Lines changed: 4 additions & 2 deletions b/‎.gitignore‎
Lines changed: 4 additions & 2 deletions
diff --git a/‎Makefile‎
Lines changed: 3 additions & 1 deletion b/‎Makefile‎
Lines changed: 3 additions & 1 deletion
diff --git a/‎backend/Dockerfile‎
Lines changed: 1 addition & 1 deletion b/‎backend/Dockerfile‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎backend/src/api/routers/graphs.py‎
Lines changed: 1 addition & 1 deletion b/‎backend/src/api/routers/graphs.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎backend/src/tools/format_docs.py‎
Lines changed: 5 additions & 4 deletions b/‎backend/src/tools/format_docs.py‎
Lines changed: 5 additions & 4 deletions
diff --git a/‎evaluation/Makefile‎
Lines changed: 13 additions & 1 deletion b/‎evaluation/Makefile‎
Lines changed: 13 additions & 1 deletion
diff --git a/‎evaluation/auto_evaluation/__init__.py‎ b/‎evaluation/auto_evaluation/__init__.py‎
diff --git a/‎evaluation/auto_evaluation/content_metrics.json‎
Lines changed: 0 additions & 1 deletion b/‎evaluation/auto_evaluation/content_metrics.json‎
Lines changed: 0 additions & 1 deletion
diff --git a/‎evaluation/auto_evaluation/dataset/hf_pull.py‎
Lines changed: 6 additions & 1 deletion b/‎evaluation/auto_evaluation/dataset/hf_pull.py‎
Lines changed: 6 additions & 1 deletion
@@ -11,6 +11,10 @@ jobs:
   build-backend-docker:
     runs-on: self-hosted
     steps:
+    - name: Setup python
+      uses: actions/setup-python@v5
+      with:
+        python-version: '3.12'
     - name: Checkout code
       uses: actions/checkout@v4
     - name: Setup prereqs
@@ -24,10 +28,23 @@ jobs:
         cp backend/.env.example backend/.env
         sed -i 's|{{GOOGLE_API_KEY}}|${{ secrets.GOOGLE_API_KEY }}|g' backend/.env
         sed -i 's|{{PATH_TO_GOOGLE_APPLICATION_CREDENTIALS}}|src/secret.json|g' backend/.env
+        cp backend/.env evaluation/.env
+        cp backend/.env frontend/.env
         cp ${{ secrets.PATH_TO_GOOGLE_APPLICATION_CREDENTIALS }} backend/src
+        cp ${{ secrets.PATH_TO_GOOGLE_APPLICATION_CREDENTIALS }} evaluation/auto_evaluation/src
     - name: Build Docker image
       run: |
         make docker
+        sleep 900 # TODO: Remove this after docker-compose healthcheck timeout restored fixed.
+    - name: Run LLM CI
+      working-directory: evaluation
+      run: |
+        make llm-tests
+    - name: Create commit comment
+      uses: peter-evans/commit-comment@v3
+      with:
+        token: ${{ secrets.GH_PAT }}
+        body-path: evaluation/auto_evaluation/llm_tests_output.txt
     - name: Teardown
       if: always()
       run: |
 
@@ -4,6 +4,7 @@ __pycache__/
 backend/data/*
 backend/src/*.json
 *.pyc
+*.egg-info/
 frontend/*.json  
 evaluation/human_evaluation/*.json  
 /*.json
@@ -21,7 +22,8 @@ documents.txt
 .venv
 
 # evaluations
-.deepeval_telemtry.txt
+**/.deepeval_telemtry.txt
 *.csv
-*.deepeval-cache.json
+**/.deepeval-cache.json
 temp_test_run_data.json
+**/llm_tests_output.txt
@@ -1,4 +1,6 @@
-FOLDERS=backend frontend
+.PHONY: init init-dev format check
+
+FOLDERS=backend frontend evaluation
 
 init:
 	@for folder in $(FOLDERS); do (cd $$folder && make init && cd ../); done
 
@@ -28,4 +28,4 @@ RUN python /ORAssistant-backend/src/post_install.py
 
 EXPOSE 8000
 
-CMD ["uvicorn", "src.api.main:app", "--host", "0.0.0.0", "--port", "8000"]
+CMD ["uvicorn", "src.api.main:app", "--host", "0.0.0.0", "--port", "8000", "--reload"]
@@ -121,7 +121,7 @@ async def get_agent_response(user_input: UserInput) -> ChatResponse:
         tool_index = 1
         for tool in tools:
             urls.extend(list(output[tool_index].values())[0]["urls"])
-            context.extend(list(set(list(output[tool_index].values())[0]["context"])))
+            context.append(list(output[tool_index].values())[0]["context"])
             tool_index += 1
     else:
         llm_response = "LLM response extraction failed"
 
@@ -5,7 +5,7 @@
 
 def format_docs(docs: list[Document]) -> tuple[str, list[str], list[str]]:
     doc_text = ""
-    doc_texts = ""
+    doc_texts = []
     doc_urls = []
     doc_srcs = []
 
@@ -19,10 +19,11 @@ def format_docs(docs: list[Document]) -> tuple[str, list[str], list[str]]:
                 doc_text = f"{gh_discussion_prompt_template}\n\n{doc.page_content}"
             else:
                 doc_text = doc.page_content
+            doc_texts.append(doc_text)
 
         if "url" in doc.metadata:
             doc_urls.append(doc.metadata["url"])
+    
+    doc_output = "\n\n -------------------------- \n\n".join(doc_texts)
 
-        doc_texts += f"\n\n- - - - - - - - - - - - - - - \n\n{doc_text}"
-
-    return doc_texts, doc_srcs, doc_urls
+    return doc_output, doc_srcs, doc_urls
@@ -1,7 +1,10 @@
+.PHONY: init init-dev format check clean
+
 init:
 	@python3 -m venv .venv && \
 		. .venv/bin/activate && \
-		pip install -r requirements.txt
+		pip install -r requirements.txt && \
+		pip install -e .
 
 init-dev: init
 	@. .venv/bin/activate && \
@@ -15,3 +18,12 @@ format:
 check:
 	@. .venv/bin/activate && \
 		ruff check --fix
+
+clean:
+	@rm -f llm_tests_output.txt
+	@rm -f **/.deepeval-cache.json
+
+llm-tests: clean
+	@. .venv/bin/activate && \
+		cd auto_evaluation && \
+		./llm_tests.sh 2>&1 | tee llm_tests_output.txt
@@ -1,7 +1,8 @@
 from huggingface_hub import snapshot_download
 import os
 
-if __name__ == "__main__":
+
+def main():
     cur_dir = os.path.dirname(os.path.abspath(__file__))
     snapshot_download(
         "The-OpenROAD-Project/ORAssistant_Public_Evals",
@@ -13,3 +14,7 @@
             "README.md",
         ],
     )
+
+
+if __name__ == "__main__":
+    main()
Original file line number	Diff line number	Diff line change
`@@ -28,4 +28,4 @@ RUN python /ORAssistant-backend/src/post_install.py`
`28`	`28`
`29`	`29`	`EXPOSE 8000`
`30`	`30`
`31`		`-CMD ["uvicorn", "src.api.main:app", "--host", "0.0.0.0", "--port", "8000"]`
	`31`	`+CMD ["uvicorn", "src.api.main:app", "--host", "0.0.0.0", "--port", "8000", "--reload"]`