diff --git a/administratives.qmd b/administratives.qmd index d23c3f8..85a1bd0 100644 --- a/administratives.qmd +++ b/administratives.qmd @@ -384,12 +384,31 @@ Un enjeu fort existe autour de la production d'un [code statistique non signifia ### Un changement de la place de l'analyste de la donnée -Cette situation change la place du statisticien -dans le processus de production de la statistique officielle. -Il convient de transformer en aval les données pour répondre -aux besoins de l'analyse statistique. -Cela implique un contrôle qualité ex-post, éventuellement -un travail de reconstitution et de consolidation. +Cette situation change la place du statisticien dans le processus de production de la statistique officielle. +En 2025, l'Insee a produit un document de travail proposant un cadre méthodologique général pour la production de statistiques à partir de données administratives ([@koumarianos-25]). +Ce document réaffirme que l’absence de collecte directe ne signifie pas simplicité : l’usage statistique de ces données implique une perte de maîtrise sur les concepts, les définitions, les temporalités et la qualité. Les données administratives sont des sous-produits de processus de gestion, ancrés dans un univers métier spécifique, ce qui génère des « frictions de données » lors de leur réutilisation statistique (par exemple, les administrations fiscales souhaitent connaître le revenu fiscal alors que les statisticiens publics sont généralement plutôt intéressés par le revenu "économique" des ménages). + +Pour analyser ces sources, les auteurs proposent une grille en cinq dimensions (objet, champ, variable, domaine, temporalités) et une démarche en trois phases : acquisition, transformation et traitement statistique. + +- Objet : un salarié tel qu’il apparaît dans la Déclaration sociale nominative (DSN), c’est-à-dire un individu dans son rôle de salarié pour un employeur donné. + +- Champ : l’ensemble des salariés du secteur privé couverts par la DSN sur une année donnée. + +- Variable : le salaire brut déclaré pour le salarié. + +- Domaine : une valeur numérique positive exprimée en euros, avec des codes spécifiques pour les valeurs manquantes ou nulles. + +- Temporalités : le mois auquel se rapporte le salaire (période de référence) et le mois où la déclaration est effectivement transmise à l’administration (période d’acquisition). + +De même, voici une illustration simple de chacune des trois phases, dans la continuité de l'exemple précédent : + +- Acquisition : l’Insee reçoit les fichiers DSN issus du système d’information de l’Urssaf, les rassemble, documente leur structure, vérifie leur complétude et fige une version stable constituant une « source administrative » exploitable statistiquement. + +- Transformation : les données mensuelles, exprimées selon des règles de gestion propres à la paie, sont retraitées pour passer à des concepts statistiques (par exemple reconstitution d’un salaire mensuel comparable entre individus, harmonisation des statuts, gestion des changements d’employeur). + +- Traitement statistique : les données transformées sont agrégées pour produire des indicateurs (par exemple salaire moyen par secteur ou par région), avec contrôles de cohérence, analyse des évolutions et validation des résultats avant diffusion. + +Le processus est fondamentalement itératif, reposant sur des boucles de rétroaction visant à assurer la qualité et l’interprétabilité des résultats. Cette situation change également la place des chercheurs dans le processus de production de la donnée. Comme le statisticien, diff --git a/geolocalized_data.qmd b/geolocalized_data.qmd index dbbda9f..3a5993a 100644 --- a/geolocalized_data.qmd +++ b/geolocalized_data.qmd @@ -114,6 +114,15 @@ L'utilisation de données de téléphonie mobile pour la production de statistiq - **Questions légales** : les aspects légaux autour des données personnelles sont aussi à prendre en compte, en lien d'ailleurs avec les questions d'éthique et les questions sur la pérennité. Aujourd'hui la législation européenne et son application dans la loi française ne sont pas favorables à l'utilisation de données téléphoniques de signalisation pour la statistique publique. Même si elles venaient à le devenir, il n'y a aucune garantie qu'on ne revienne pas quelques années après à la situation actuelle. ::: +Plus récemment, l'utilisation conjointe de données mobile avec des données de transactions bancaires a permis d'estimer l'effet du télétravail sur la consommation locale ([@gambuli-26]). +Ainsi, au sein de la métropole de Lyon, les auteurs ont pu mettre en exergue : + +- un effet local du télétravail sur la consommation (au bénéfice des banlieues et au détriment des centre-villes). +- des effets sectoriels hétérogène (au détriment des restaurant mais au bénéfice des bar et des commerces alimentaires). +- un déplacement temporel de la consommation dans les zones de fort télétravail (davantage la semaine plutôt que les week-end). + + + ### Données de réseaux sociaux Les réseaux sociaux constituent une source privée de données numériques pouvant, dans certains cas, être associées à une information de localisation. Bien que l’accès à ces données soit aujourd’hui plus restreint qu’auparavant, elles continuent de présenter un potentiel d’intérêt pour la statistique publique, sous réserve de fortes contraintes méthodologiques, juridiques et techniques. @@ -157,6 +166,15 @@ Des défis se posent au moment d'utiliser les données AIS : - La taille des données constitue un fort enjeu. En effet, 310 milliards de transmissions sont effectuées chaque année. Une infrastructure adaptée est indispensable pour pouvoir traiter les données brutes ; ::: + +### Et bien d'autres... + +La liste pourrait être encore longue. Quelques exemples supplémentaires dans le champ d'investigation de la statistique publique : + +- les données de comptages routiers (_car loop_, https://avatar.cerema.fr/). +- les données de transactions bancaires, mentionnées plus haut (https://www.insee.fr/fr/information/8546947?sommaire=8546949). +- les données de billetique des transports en commune. + ### References ::: {#refs} diff --git a/references.bib b/references.bib index 831840f..21b2b62 100644 --- a/references.bib +++ b/references.bib @@ -386,4 +386,19 @@ @misc{salgado-20 copyright = {Creative Commons Attribution 4.0 International} } -@book{hacking-90, place={Cambridge}, series={Ideas in Context}, title={The Taming of Chance}, DOI={10.1017/CBO9780511819766}, publisher={Cambridge University Press}, author={Hacking, Ian}, year={1990}, collection={Ideas in Context}} \ No newline at end of file +@book{hacking-90, place={Cambridge}, series={Ideas in Context}, title={The Taming of Chance}, DOI={10.1017/CBO9780511819766}, publisher={Cambridge University Press}, author={Hacking, Ian}, year={1990}, collection={Ideas in Context}} + +@article{koumarianos-25, + author = {{Koumarianos. Heïdi et Rivière, Pascal}}, + title = {Statistiques fondées sur des données administratives : esquisse d’un cadre général}, + year = {2025}, + url = {https://www.insee.fr/fr/statistiques/8596376}, + journal = {Document de travail, Insee} +} + +@article{gambuli-26, + TITLE = {{The Impact of Telework on Local Consumption}}, + AUTHOR = {Gabrielle Gambuli, David Bounie, Chloe Breton (Telecom Paris, CREST) and Etienne Come (Universite Gustave Eiffel, GRETTIA)}, + URL = {https://gambuligabrielle.github.io/pdf/gambuli_jmp.pdf}, + year = {2026} +} \ No newline at end of file