Esta guía explica cómo orquestar el pipeline ETL usando Apache Airflow y Docker para lograr automatización, monitoreo y escalabilidad.
- Docker Desktop corriendo
- Imagen ETL construida (ver etl-docker.md)
orchestration/
├── docker-compose.yml # Airflow + Postgres
├── dags/
│ └── iot_etl_dag.py # DAG del pipeline
├── logs/ # Logs de ejecución
└── plugins/ # Extensiones (vacío)
-
Edita el archivo
.enven la raíz del proyecto y ajusta las rutas y credenciales necesarias. -
Inicializa la base de datos y el usuario admin de Airflow:
$ docker-compose up airflow-init
-
Levanta los servicios en background:
$ docker-compose up -d
-
Accede a la UI de Airflow:
- URL: http://localhost:8080
- Usuario: admin (por defecto, cambiar en producción)
- Password: admin (por defecto, cambiar en producción)
- El DAG
iot_etl_dag.pyejecuta las fases Extract, Transform y Load en contenedores Docker. - Los logs de cada tarea quedan almacenados en
orchestration/logs/y pueden consultarse desde la UI. - El pipeline puede programarse para ejecución periódica (ej. diaria, horaria, etc.).
- Cambia las credenciales por defecto antes de usar en producción.
- Revisa los logs y el estado de los DAGs regularmente.
- Mantén las imágenes y dependencias actualizadas.
Para detalles sobre el modelo de datos, beneficios y despliegue, consulta: