Fix pre-commit errors

fraboniface · fraboniface · commit 04c490b3179d · 2026-01-21T11:50:30.000+01:00
diff --git a/.pre-commit-config.yaml b/.pre-commit-config.yaml
@@ -10,4 +10,4 @@ repos:
     hooks:
       - id: check-merge-conflict
       - id: mixed-line-ending
-exclude: 'rag_system/kotaemon/libs/kotaemon/.*|rag_system/kotaemon/libs/ktem/.*|.*\.ipynb$'
+exclude: 'rag_system/old/.*|library/old/.*|policy_analysis/old/.*|.*\.ipynb$'
diff --git a/library/scraping/download_all_pdfs.py b/library/scraping/download_all_pdfs.py
@@ -15,7 +15,7 @@
 
 from library.database.download_queue_crud import get_papers_to_scrape, mark_paper_failed, mark_paper_scraped
 from library.database.models import ScrapingQueue
-from library.scraping.download_pdf import download_pdf, start_webdriver
+from library.scraping.download_pdf import download_pdf
 from library.scraping.extract_pdf_content import get_markdown_pymupdf
 from selenium import webdriver
 from tqdm import tqdm
diff --git a/library/scraping/extract_sections_from_raw_text.py b/library/scraping/extract_sections_from_raw_text.py
@@ -34,7 +34,7 @@ def process_file(
         with ProcessPoolExecutor(max_workers=num_workers) as executor:
             futures = {
                 executor.submit(process_text, text): (idx, oa_id)
-                for idx, (oa_id, text) in enumerate(zip(df.index, df["text"]))
+                for idx, (oa_id, text) in enumerate(zip(df.index, df["text"], strict=True))
             }
 
             buffer = []
diff --git a/library/src/library/scraping/clean/headers_footers.py b/library/src/library/scraping/clean/headers_footers.py
@@ -1,9 +1,5 @@
-import os
 import re
-import string
 
-import numpy as np
-import pandas as pd
 
 
 class TrieNode:
diff --git a/library/src/library/scraping/download_pdf.py b/library/src/library/scraping/download_pdf.py
@@ -12,7 +12,6 @@
 import tempfile
 
 from selenium import webdriver
-from selenium.common.exceptions import WebDriverException
 from selenium.webdriver.chrome.service import Service
 from webdriver_manager.chrome import ChromeDriverManager
 
diff --git a/policy_analysis/dspy_policies_and_taxonomy_extraction/initial_chunk_cleaning/clean_chunks.py b/policy_analysis/dspy_policies_and_taxonomy_extraction/initial_chunk_cleaning/clean_chunks.py
@@ -1,6 +1,4 @@
 import pyarrow.parquet as pq
-import pyarrow as pa
-import pandas as pd
 import re
 import json
 
@@ -127,7 +125,7 @@ def apply_regex_cleaning(text, regex_rules):
     if TEST_RUN:
         df = df.head(SAMPLE_SIZE)
 
-    for idx, text in enumerate(df[target_col]):
+    for text in df[target_col]:
         cleaned_text, deleted_count, triggered_rules = apply_regex_cleaning(text, REGEX_RULES)
         
         result = {
diff --git a/policy_analysis/dspy_policies_and_taxonomy_extraction/pipeline_policy_and_taxonomy_extraction.py b/policy_analysis/dspy_policies_and_taxonomy_extraction/pipeline_policy_and_taxonomy_extraction.py
@@ -2,7 +2,6 @@
 import os
 import pickle
 import pyarrow.parquet as pq
-import pandas as pd
 from dotenv import load_dotenv
 from tqdm import tqdm
 import json
@@ -108,7 +107,7 @@ def suppress_output():
                 # ----------------------------------------------------
 
                 for (text, (openalex_id, chunk_idx), p_out, g_out) in zip(
-                    batch_texts, batch_meta, policy_outputs, geo_outputs
+                    batch_texts, batch_meta, policy_outputs, geo_outputs, strict=False
                 ):
                     policy_dict = p_out.toDict() if hasattr(p_out, "toDict") else p_out
                     geo_dict = g_out.toDict() if hasattr(g_out, "toDict") else g_out
diff --git a/policy_analysis/dspy_policies_and_taxonomy_extraction/policy_extraction/policy_dspy_model_creation.py b/policy_analysis/dspy_policies_and_taxonomy_extraction/policy_extraction/policy_dspy_model_creation.py
@@ -4,14 +4,11 @@
 import json
 import os
 from dotenv import load_dotenv
-import pandas as pd
 from sentence_transformers import CrossEncoder
 import torch
 from datetime import datetime
-from dspy.adapters import JSONAdapter
 
 
-import math 
 # Load environment variables
 load_dotenv()
 
diff --git a/policy_analysis/dspy_policies_and_taxonomy_extraction/taxonomy_extraction/taxonomy_dspy_model_creation.py b/policy_analysis/dspy_policies_and_taxonomy_extraction/taxonomy_extraction/taxonomy_dspy_model_creation.py
@@ -1,14 +1,10 @@
 import dspy
-import csv
-from enum import Enum
-from typing import List, Dict, Any, Union
 import os
 
 from dspy.teleprompt import MIPROv2
 
 import json
 from dotenv import load_dotenv
-import pandas as pd
 from datetime import datetime
 
 from taxonomy_definition.geographical_taxonomy import (
diff --git a/policy_analysis/dspy_policies_and_taxonomy_extraction/taxonomy_extraction/utils.py b/policy_analysis/dspy_policies_and_taxonomy_extraction/taxonomy_extraction/utils.py
@@ -1,3 +1,4 @@
+import ast
 import re
 NULL_STRINGS = {
     "null",
diff --git a/rag_system/backend/app/generation.py b/rag_system/backend/app/generation.py
@@ -43,7 +43,7 @@ async def generate_response(
         if response_format:
             try:
                 return response_format.model_validate_json(response.choices[0].message.content)
-            except ValidationError as e:
+            except ValidationError:
                 logger.warning("Validation error in query rewrite, retrying...")
                 kwargs["temperature"] = 0  # Retry with deterministic output
                 response = await generation_client.chat.completions.create(**kwargs)
diff --git a/rag_system/backend/app/main.py b/rag_system/backend/app/main.py
@@ -9,7 +9,7 @@
 from .database import create_db_and_tables, get_or_create_session, save_feedback
 from .dependencies import get_logger
 from .models import ChatRequest, FeedbackRequest
-from .rag import generate_dummy_response, simple_rag_pipeline
+from .rag import simple_rag_pipeline
 
 
 # TODO: move ml models init/clean here

Original file line number	Diff line number	Diff line change
`@@ -34,7 +34,7 @@ def process_file(`
`34`	`34`	`with ProcessPoolExecutor(max_workers=num_workers) as executor:`
`35`	`35`	`futures = {`
`36`	`36`	`executor.submit(process_text, text): (idx, oa_id)`
`37`		`- for idx, (oa_id, text) in enumerate(zip(df.index, df["text"]))`
	`37`	`+ for idx, (oa_id, text) in enumerate(zip(df.index, df["text"], strict=True))`
`38`	`38`	`}`
`39`	`39`
`40`	`40`	`buffer = []`
Original file line number	Diff line number	Diff line change
`@@ -1,3 +1,4 @@`
	`1`	`+import ast`
`1`	`2`	`import re`
`2`	`3`	`NULL_STRINGS = {`
`3`	`4`	`"null",`