RAG System - TLH Assistant

Sistema de Recuperación Aumentada por Generación (RAG) para el asistente TLH. TLH demo

Estructura de Directorios

RAG/
├── data/                    # PDFs fuente (documentos a vectorizar)
├── qdrant_db/              # Base de datos vectorial Qdrant
│   └── collection/
│       └── tlh_rag/
├── feed_db_docs.py         # PROCESO OFFLINE - Vectorización de PDFs
├── TLH_assistant.py        # Interfaz Streamlit del asistente
├── rag_manager.py          # Gestión del sistema RAG
├── generate_testset.py     # Generación del dataset de pruebas
└── evaluate_ragas.py       # Evaluación con RAGAS

Scripts Principales

`feed_db_docs.py` - PASO MÁS IMPORTANTE

Proceso offline de vectorización de documentos.

Este script:

Lee los PDFs de la carpeta data/
Procesa y divide los documentos en chunks
Genera embeddings vectoriales
Almacena los vectores en la base de datos Qdrant

Ejecutar primero antes de usar el sistema RAG.

`TLH_assistant.py`

Interfaz del asistente con Streamlit.

streamlit run TLH_assistant.py

`rag_manager.py`

Módulo principal que gestiona:

Conexión con la base de datos vectorial
Búsqueda de documentos similares
Integración con el modelo LLM
Generación de respuestas

`generate_testset.py`

Genera el dataset de pruebas (testset) para evaluación.

Ejecutar antes de evaluar con RAGAS.

`evaluate_ragas.py`

Evalúa el rendimiento del sistema RAG utilizando el framework RAGAS.

Prerrequisito: Generar el testset primero con generate_testset.py

Flujo de Trabajo

Vectorización (Offline)
- Colocar PDFs en data/
- Ejecutar feed_db_docs.py
Uso del Asistente (Online en localhost)
- Ejecutar TLH_assistant.py con Streamlit
Evaluación (Opcional)
- Generar testset: generate_testset.py
- Evaluar: evaluate_ragas.py

Requisitos Previos

Documentos PDF de TLH en la carpeta data/
Dependencias Python instaladas, se necesitan las siguientes dependencias:

pip install torch
pip install langchain
pip install langchain-community
pip install langchain-huggingface
pip install langchain-ollama
pip install langchain-qdrant
pip install qdrant-client
pip install sentence-transformers
pip install pypdf
pip install streamlit
pip install pandas
pip install ragas
pip install tqdm

Ollama instalado con el modelo llama3, pasos una vez instalado:
- ollama pull llama3 - Descarga el modelo llama3
- ollama list - Verifica que el modelo está instalado
- ollama run llama3 - Prueba el modelo interactivamente
- Nota: El servidor Ollama debe estar ejecutándose
Base de datos Qdrant (se crea automáticamente al ejecutar feed_db_docs.py)

Nota: La parte más crítica del sistema es la vectorización offline de documentos mediante feed_db_docs.py, ya que sin este paso la base de datos vectorial estará vacía y el RAG no funcionará.

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
.github/workflows		.github/workflows
README.md		README.md
TLH_assistant.py		TLH_assistant.py
evaluate_ragas.py		evaluate_ragas.py
feed_db_docs.py		feed_db_docs.py
generate_testset.py		generate_testset.py
main		main
rag_manager.py		rag_manager.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

RAG System - TLH Assistant

Estructura de Directorios

Scripts Principales

`feed_db_docs.py` - PASO MÁS IMPORTANTE

`TLH_assistant.py`

`rag_manager.py`

`generate_testset.py`

`evaluate_ragas.py`

Flujo de Trabajo

Requisitos Previos

About

Uh oh!

Releases

Packages

Contributors 3

Uh oh!

Languages

raulh82vlc/tlh-assistant

Folders and files

Latest commit

History

Repository files navigation

RAG System - TLH Assistant

Estructura de Directorios

Scripts Principales

feed_db_docs.py - PASO MÁS IMPORTANTE

TLH_assistant.py

rag_manager.py

generate_testset.py

evaluate_ragas.py

Flujo de Trabajo

Requisitos Previos

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Contributors 3

Uh oh!

Languages

`feed_db_docs.py` - PASO MÁS IMPORTANTE

`TLH_assistant.py`

`rag_manager.py`

`generate_testset.py`

`evaluate_ragas.py`

Packages