Biolit — workflow de classification d'espèces (images)

Ce dépôt fournit un template infra + data pour lancer le pipeline de classification et guider les bénévoles sur les 3 tâches ML :

Qualité d'image (filtrage)
YOLOv8 (détection + crop)
Classification hiérarchique (règne → espèce)

Les pipelines existants d'export sont conservés et intégrés.

Architecture (résumé)

Entrée : API quotidienne (à venir) ou CSV (data/raw/observations.csv).
Filtrage qualité (ML) → on garde les images utilisables.
Détection YOLOv8 (ML) → bboxes + crops.
Classification hiérarchique (ML) → taxonomie.
Label Studio : boucle d'annotation/correction si besoin.
Dataviz : CSV compatible Metabase (puis dashboard).
Exports : CSV d'annotations (base de données plus tard).

Structure du repo

biolit/                # Lib Python (taxref, observations, dataviz)
cmd/                   # Script export existant (export INPN)
pipelines/             # Orchestration (ingestion CSV + export)
ml/                    # Dossiers des 3 tâches ML
dataviz/               # Docs dataviz
infra/                 # Docker Compose (Label Studio)
data/                  # Workspace local (non versionné)

Dossiers data (proposés)

data/raw/ : CSV brut + images du jour (dump API)
data/staging/ : images filtrées qualité + métadonnées
data/crops/ : crops issus de YOLOv8
data/label-studio/files/ : images à annoter
data/exports/ : sorties CSV (annotations, qualité, etc.)
data/dataviz/ : CSV pour Metabase

Installation

Ce projet utilise uv pour la gestion des dépendances.

uv sync

Si besoin :

source .venv/bin/activate

Flux quotidien (API → ML → Label Studio)

Récupération quotidienne depuis l'API (à venir) ou CSV local.
Qualité : si l'image est mauvaise → stop.
YOLOv8 : détection + crop.
- si aucune détection → Label Studio (CROP)
- si crop manuel → retour vers annotation
Classification : prédiction + probabilité.
- certitude faible → Label Studio (pré-annotations + probas)
- certitude forte → export direct
Export CSV : data/exports/annotations.csv
Dataviz : data/dataviz/observations.csv (Metabase)

Pipelines (CSV → export + dataviz)

1) Ingestion CSV

Placez votre CSV dans data/raw/observations.csv, puis :

uv run pipelines/run.py ingest-csv --input-path data/raw/observations.csv

Résultat : data/export_biolit.csv (utilisé par biolit.observations).

2) Export INPN + dataviz

uv run pipelines/run.py export-inpn

Sorties principales :

data/biolit_valid_observations.parquet
data/observations_missing_taxref.csv
data/biolit_observation_missing_nom.csv
data/biolit_observation_validated_non_identifiable.csv
data/distribution_images.html

Label Studio (annotation)

docker compose -f infra/docker-compose.yml up

UI : http://localhost:8080

Les images à annoter sont montées depuis data/label-studio/files.

Déploiement local

Il est possible de lancer l'ensemble en local pour les premiers tests. L'objectif est d'étudier les sorties de chaque modèle avant d'automatiser le workflow complet.

Contribution

Pre-commit

pre-commit run --all-files

Tests

tox -vv

Name		Name	Last commit message	Last commit date
Latest commit History 35 Commits
.github/workflows		.github/workflows
biolit		biolit
cmd		cmd
d4g-utils		d4g-utils
data		data
dataviz		dataviz
infra		infra
ml		ml
pipelines		pipelines
sample_data		sample_data
tests		tests
.gitignore		.gitignore
.pre-commit-config.yaml		.pre-commit-config.yaml
LICENSE		LICENSE
README.md		README.md
pyproject.toml		pyproject.toml
tox.ini		tox.ini
uv.lock		uv.lock

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Biolit — workflow de classification d'espèces (images)

Architecture (résumé)

Structure du repo

Dossiers data (proposés)

Installation

Flux quotidien (API → ML → Label Studio)

Pipelines (CSV → export + dataviz)

1) Ingestion CSV

2) Export INPN + dataviz

Label Studio (annotation)

Déploiement local

Contribution

Pre-commit

Tests

About

Uh oh!

Releases

Packages

Contributors 3

Uh oh!

Languages

License

dataforgoodfr/14_Biolit

Folders and files

Latest commit

History

Repository files navigation

Biolit — workflow de classification d'espèces (images)

Architecture (résumé)

Structure du repo

Dossiers data (proposés)

Installation

Flux quotidien (API → ML → Label Studio)

Pipelines (CSV → export + dataviz)

1) Ingestion CSV

2) Export INPN + dataviz

Label Studio (annotation)

Déploiement local

Contribution

Pre-commit

Tests

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Contributors 3

Uh oh!

Languages

Packages