Corpus Automation Pipeline

This project was developed as part of the SomosNLP Hackathon 2025, focused on advancing Spanish language AI and NLP.

This repository contains a pipeline for processing and analyzing legal exam questions. The pipeline consists of several components that work together to parse, categorize, and evaluate questions.

Pipeline Components

1. PDF Parsing (`parse_pdf.py` and `parse_pdf_mistral.py`)

Purpose: Extracts text and images from PDF files containing exam questions
Features:
- Extracts text with layout information
- Handles tables and formatting
- Can extract images from PDFs
- Supports both synchronous and batch processing
- Uses Mistral's OCR service for high-quality text extraction
Output: Text files, markdown files, and extracted images

2. Text Formatting (`format_text.py`)

Purpose: Processes raw text into structured question format
Features:
- Splits text into manageable chunks
- Uses LLM to identify and structure questions
- Extracts question IDs, question text, and options
- Handles answer parsing
Output: JSON file with structured questions

3. Category Addition (`add_categories.py`)

Purpose: Adds legal categories to questions using LLM
Features:
- Uses predefined legal categories
- Automatically categorizes questions based on content
- Supports multiple LLM providers
Categories:
- Constitucional
- Administrativo
- Civil
- Penal
- Procesal
- Internacional
- Mercantil
- Comunitario Europeo
- Teoría del Derecho y Filosofía del Derecho
- Otros

4. Merge and Filter (`merge_and_filter.py`)

Purpose: Combines questions from multiple sources and filters by category
Features:
- Merges questions from different years/sources
- Filters questions by legal category
- Creates organized datasets for specific categories
Output: Filtered JSON files containing questions by category

5. Evaluation (`evaluate.py`)

Purpose: Evaluates LLM performance on answering questions
Features:
- Tests LLM accuracy on multiple-choice questions
- Provides detailed reasoning for answers
- Calculates accuracy metrics
Output: Accuracy statistics and detailed evaluation results

6. RAG Evaluation (`evaluate_rag.py`)

Purpose: Evaluates Retrieval-Augmented Generation (RAG) system performance
Features:
- Uses context from legal documents
- Implements document retrieval and reranking
- Evaluates answer quality with context
- Provides detailed analysis of performance
Output: Comprehensive evaluation results including accuracy and context usage

Usage

PDF Processing:

python parse_pdf.py <pdf_file> <output_dir>

Text Formatting:

python format_text.py <input_file> <output_file>

Category Addition:

python add_categories.py <input_file> <output_file>

Merge and Filter:

python merge_and_filter.py --input_dir <input_dir> --category <category> --output_path <output_path>

Evaluation:
```
python evaluate.py <questions_file>
```

RAG Evaluation:

python evaluate_rag.py <questions_file> <context_file>

Dependencies

Python 3.x
Required packages:
- pdfplumber
- PyMuPDF
- mistralai
- cohere
- numpy
- tqdm

Configuration

API keys for LLM services (Mistral, Cohere) should be set as environment variables
- Example in Conda: conda env config vars set COHERE_API_KEY=your_key
Input files should be in the specified format
Output directories will be created automatically if they don't exist

Results

The pipeline produces:

Structured question datasets
Categorized questions by legal domain
Evaluation metrics for LLM performance
RAG system performance analysis

Notes

The pipeline is designed for Spanish legal exam questions
LLM models can be configured based on requirements
Processing large datasets may require significant computational resources

Name		Name	Last commit message	Last commit date
Latest commit History 11 Commits
data/raw_small		data/raw_small
dataset		dataset
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
add_categories.py		add_categories.py
evaluate.py		evaluate.py
evaluate_rag.py		evaluate_rag.py
format_text.py		format_text.py
llm.py		llm.py
merge_and_filter.py		merge_and_filter.py
parse_codigo.py		parse_codigo.py
parse_constitution.py		parse_constitution.py
parse_markdown.py		parse_markdown.py
parse_pdf.ipynb		parse_pdf.ipynb
parse_pdf_mistral.ipynb		parse_pdf_mistral.ipynb
somosNLP.svg		somosNLP.svg

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Corpus Automation Pipeline

Pipeline Components

1. PDF Parsing (`parse_pdf.py` and `parse_pdf_mistral.py`)

2. Text Formatting (`format_text.py`)

3. Category Addition (`add_categories.py`)

4. Merge and Filter (`merge_and_filter.py`)

5. Evaluation (`evaluate.py`)

6. RAG Evaluation (`evaluate_rag.py`)

Usage

Dependencies

Configuration

Results

Notes

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

License

amayuelas/corpus-automation

Folders and files

Latest commit

History

Repository files navigation

Corpus Automation Pipeline

Pipeline Components

1. PDF Parsing (parse_pdf.py and parse_pdf_mistral.py)

2. Text Formatting (format_text.py)

3. Category Addition (add_categories.py)

4. Merge and Filter (merge_and_filter.py)

5. Evaluation (evaluate.py)

6. RAG Evaluation (evaluate_rag.py)

Usage

Dependencies

Configuration

Results

Notes

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

1. PDF Parsing (`parse_pdf.py` and `parse_pdf_mistral.py`)

2. Text Formatting (`format_text.py`)

3. Category Addition (`add_categories.py`)

4. Merge and Filter (`merge_and_filter.py`)

5. Evaluation (`evaluate.py`)

6. RAG Evaluation (`evaluate_rag.py`)

Packages