Skip to content
Merged
Show file tree
Hide file tree
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
31 changes: 25 additions & 6 deletions administratives.qmd
Original file line number Diff line number Diff line change
Expand Up @@ -384,12 +384,31 @@ Un enjeu fort existe autour de la production d'un [code statistique non signifia

### Un changement de la place de l'analyste de la donnée

Cette situation change la place du statisticien
dans le processus de production de la statistique officielle.
Il convient de transformer en aval les données pour répondre
aux besoins de l'analyse statistique.
Cela implique un contrôle qualité ex-post, éventuellement
un travail de reconstitution et de consolidation.
Cette situation change la place du statisticien dans le processus de production de la statistique officielle.
En 2025, l'Insee a produit un document de travail proposant un cadre méthodologique général pour la production de statistiques à partir de données administratives ([@koumarianos-25]).
Ce document réaffirme que l’absence de collecte directe ne signifie pas simplicité : l’usage statistique de ces données implique une perte de maîtrise sur les concepts, les définitions, les temporalités et la qualité. Les données administratives sont des sous-produits de processus de gestion, ancrés dans un univers métier spécifique, ce qui génère des « frictions de données » lors de leur réutilisation statistique (par exemple, les administrations fiscales souhaitent connaître le revenu fiscal alors que les statisticiens publics sont généralement plutôt intéressés par le revenu "économique" des ménages).

Pour analyser ces sources, les auteurs proposent une grille en cinq dimensions (objet, champ, variable, domaine, temporalités) et une démarche en trois phases : acquisition, transformation et traitement statistique.

- Objet : un salarié tel qu’il apparaît dans la Déclaration sociale nominative (DSN), c’est-à-dire un individu dans son rôle de salarié pour un employeur donné.

- Champ : l’ensemble des salariés du secteur privé couverts par la DSN sur une année donnée.

- Variable : le salaire brut déclaré pour le salarié.

- Domaine : une valeur numérique positive exprimée en euros, avec des codes spécifiques pour les valeurs manquantes ou nulles.

- Temporalités : le mois auquel se rapporte le salaire (période de référence) et le mois où la déclaration est effectivement transmise à l’administration (période d’acquisition).

De même, voici une illustration simple de chacune des trois phases, dans la continuité de l'exemple précédent :

- Acquisition : l’Insee reçoit les fichiers DSN issus du système d’information de l’Urssaf, les rassemble, documente leur structure, vérifie leur complétude et fige une version stable constituant une « source administrative » exploitable statistiquement.

- Transformation : les données mensuelles, exprimées selon des règles de gestion propres à la paie, sont retraitées pour passer à des concepts statistiques (par exemple reconstitution d’un salaire mensuel comparable entre individus, harmonisation des statuts, gestion des changements d’employeur).

- Traitement statistique : les données transformées sont agrégées pour produire des indicateurs (par exemple salaire moyen par secteur ou par région), avec contrôles de cohérence, analyse des évolutions et validation des résultats avant diffusion.

Le processus est fondamentalement itératif, reposant sur des boucles de rétroaction visant à assurer la qualité et l’interprétabilité des résultats.

Cette situation change également la place des chercheurs dans
le processus de production de la donnée. Comme le statisticien,
Expand Down
18 changes: 18 additions & 0 deletions geolocalized_data.qmd
Original file line number Diff line number Diff line change
Expand Up @@ -114,6 +114,15 @@ L'utilisation de données de téléphonie mobile pour la production de statistiq
- **Questions légales** : les aspects légaux autour des données personnelles sont aussi à prendre en compte, en lien d'ailleurs avec les questions d'éthique et les questions sur la pérennité. Aujourd'hui la législation européenne et son application dans la loi française ne sont pas favorables à l'utilisation de données téléphoniques de signalisation pour la statistique publique. Même si elles venaient à le devenir, il n'y a aucune garantie qu'on ne revienne pas quelques années après à la situation actuelle.
:::

Plus récemment, l'utilisation conjointe de données mobile avec des données de transactions bancaires a permis d'estimer l'effet du télétravail sur la consommation locale ([@gambuli-26]).
Ainsi, au sein de la métropole de Lyon, les auteurs ont pu mettre en exergue :

- un effet local du télétravail sur la consommation (au bénéfice des banlieues et au détriment des centre-villes).
- des effets sectoriels hétérogène (au détriment des restaurant mais au bénéfice des bar et des commerces alimentaires).
- un déplacement temporel de la consommation dans les zones de fort télétravail (davantage la semaine plutôt que les week-end).



### Données de réseaux sociaux

Les réseaux sociaux constituent une source privée de données numériques pouvant, dans certains cas, être associées à une information de localisation. Bien que l’accès à ces données soit aujourd’hui plus restreint qu’auparavant, elles continuent de présenter un potentiel d’intérêt pour la statistique publique, sous réserve de fortes contraintes méthodologiques, juridiques et techniques.
Expand Down Expand Up @@ -157,6 +166,15 @@ Des défis se posent au moment d'utiliser les données AIS :
- La taille des données constitue un fort enjeu. En effet, 310 milliards de transmissions sont effectuées chaque année. Une infrastructure adaptée est indispensable pour pouvoir traiter les données brutes ;
:::


### Et bien d'autres...

La liste pourrait être encore longue. Quelques exemples supplémentaires dans le champ d'investigation de la statistique publique :

- les données de comptages routiers (_car loop_, https://avatar.cerema.fr/).
- les données de transactions bancaires, mentionnées plus haut (https://www.insee.fr/fr/information/8546947?sommaire=8546949).
- les données de billetique des transports en commune.

### References

::: {#refs}
Expand Down
17 changes: 16 additions & 1 deletion references.bib
Original file line number Diff line number Diff line change
Expand Up @@ -386,4 +386,19 @@ @misc{salgado-20
copyright = {Creative Commons Attribution 4.0 International}
}

@book{hacking-90, place={Cambridge}, series={Ideas in Context}, title={The Taming of Chance}, DOI={10.1017/CBO9780511819766}, publisher={Cambridge University Press}, author={Hacking, Ian}, year={1990}, collection={Ideas in Context}}
@book{hacking-90, place={Cambridge}, series={Ideas in Context}, title={The Taming of Chance}, DOI={10.1017/CBO9780511819766}, publisher={Cambridge University Press}, author={Hacking, Ian}, year={1990}, collection={Ideas in Context}}

@article{koumarianos-25,
author = {{Koumarianos. Heïdi et Rivière, Pascal}},
title = {Statistiques fondées sur des données administratives : esquisse d’un cadre général},
year = {2025},
url = {https://www.insee.fr/fr/statistiques/8596376},
journal = {Document de travail, Insee}
}

@article{gambuli-26,
TITLE = {{The Impact of Telework on Local Consumption}},
AUTHOR = {Gabrielle Gambuli, David Bounie, Chloe Breton (Telecom Paris, CREST) and Etienne Come (Universite Gustave Eiffel, GRETTIA)},
URL = {https://gambuligabrielle.github.io/pdf/gambuli_jmp.pdf},
year = {2026}
}