Skip to content

Commit d2e27e6

Browse files
ntoulemondeRLesur
andauthored
Newsletter 21 (#122)
* newsletter 21 --------- Co-authored-by: Romain Lesur <[email protected]>
1 parent 6a9d4c1 commit d2e27e6

File tree

5 files changed

+174
-9
lines changed

5 files changed

+174
-9
lines changed

.github/workflows/dev.yaml

Lines changed: 9 additions & 9 deletions
Original file line numberDiff line numberDiff line change
@@ -43,17 +43,17 @@ jobs:
4343
with:
4444
node-version: '18'
4545

46-
- name: Set up R
47-
uses: r-lib/actions/setup-r@v2
48-
49-
- name: Install babelquarto
50-
uses: r-lib/actions/setup-r-dependencies@v2
46+
- uses: actions/setup-python@v4 # for post on onyxia
5147
with:
52-
packages: |
53-
github::ropensci-review-tools/babelquarto@a485fea
48+
python-version: '3.10' # Version range or exact version of a Python version to use, using SemVer's version range syntax
49+
50+
- run: pip install jupyter nbformat # for post on onyxia
51+
52+
- name: Set up Quarto
53+
uses: quarto-dev/quarto-actions/setup@v2
5454

55-
- name: Render bilingual project
56-
run: Rscript scripts/render.R
55+
- name: Render Quarto Project
56+
uses: quarto-dev/quarto-actions/render@v2
5757

5858
- name: Deploy preview
5959
id: deploy-preview
986 KB
Loading

infolettre/infolettre_21/index.qmd

Lines changed: 165 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,165 @@
1+
---
2+
title: "Qui pour financer l'open source?"
3+
4+
description: |
5+
Infolettre du mois de __décembre 2025__
6+
7+
# Date published
8+
date: '2025-12-10'
9+
number: 21
10+
11+
authors:
12+
- Nicolas
13+
14+
image: newsletter_21.jpg
15+
16+
tags:
17+
- open source
18+
- souveraineté
19+
- network
20+
21+
categories:
22+
- Infolettre
23+
---
24+
25+
# Bienvenue à la **vingt et unième infolettre** !
26+
27+
Début décembre, c'est le deuxième moment dur de l'année après juin.
28+
En septembre, on se dit qu'on fera tout cela d'ici Noël, large.
29+
Et puis on se réveille, c'est déjà début décembre, la to-do-list est loin d'être finie et la préparation des fêtes de fin d'année arrive à grand pas.
30+
31+
Allez, courage, **dernier sprint** de 2025 !
32+
33+
# L'infographie
34+
35+
Ce mois-ci, découvrez un outil pour visualiser les **panaches de pollution aux particules fines (PM2.5)** émis par 9 500 sites les plus polluants dans plus de 2 500 zones urbaines.
36+
[**ClimateTRACE**](https://climatetrace.org) reconstitue une journée type de pollution par ces sites à partir des conditions météorologiques réelles.
37+
38+
Spoiler : la pollution de la centrale électrique d'Ivry s'envole jusque très très loin ...
39+
40+
![*source: [ClimateTRACE](https://climatetrace.org/air-pollution)*](climatetrace.png){width="800"}
41+
42+
43+
# Actus du réseau
44+
45+
## La troisième journée du réseau a eu lieu le 1^er^ décembre
46+
47+
Le 1^er^ décembre 2025, le réseau a organisé sa troisième journée annuelle.
48+
Avec quatre présentations, deux interventions extérieures et un atelier de partage, cette édition a réuni une soixantaine de participants en présentiel et distanciel pour des échanges riches et constructifs.
49+
Merci à tous les participants pour leur participation active !
50+
51+
### Les présentations
52+
1. **Offre LLM du SSPCloud** : L’Insee (DIIT) a présenté les [nouvelles fonctionnalités](https://llm.lab.sspcloud.fr/) basées sur les modèles de langage (LLM) disponibles sur le SSPCloud, intégrant de manière plus poussée des fonctionnalités de complétion de code et d'analyses de données.
53+
2. **Extraction des compétences dans [JOCAS](https://dares.travail-emploi.gouv.fr/enquete-source/job-offers-collection-and-analysis-system)** : La Dares et l’Insee (DEE) ont partagé une version test de leur projet d’extraction des compétences numériques dans les offres d’emploi, combinant reconnaissance d’entités nommées et classification par LLM.
54+
Ce projet vise à améliorer l’analyse des métiers et des parcours professionnels.
55+
3. **Automatisation des infos rapides justice** : Le SSER (SSM Justice) a présenté son package R `chartegraphique.sser`, conçu pour automatiser la production des [infos rapides justice](https://www.justice.gouv.fr/documentation/etudes-et-statistiques?categories%5B%5D=394&items_per_page=10).
56+
Les détails techniques sont disponibles sur le site des [Journées de Méthodologie Statistique (JMS)](https://journees-methodologie-statistique.insee.net/automatisation-de-la-production-des-infos-rapides-justice-a-la-charte-graphique-du-sser-au-format-pdf-a-laide-dun-outil-combinant-rmarkdown-et-pagedown/).
57+
4. **Package de classification textuelle** : L’Insee (SSPLab) a présenté [torchTextClassifiers](https://pypi.org/project/torchtextclassifiers/), un package Python de classification textuelle, étendant fastText et reposant sur PyTorch.
58+
Ce package permet d’entraîner des modèles maisons à taille réduite en gardant le contrôle de leur architecture.
59+
60+
### Atelier collaboratif
61+
Un atelier d’échange entre les participants a permis de partager nos pratiques quotidiennes d’utilisation des outils d’IA pour les data scientists et statisticiens :
62+
63+
1. Quels sont nos cas d’usage?
64+
2. Quels outils privilégier, et quels sont leurs avantages et limites ?
65+
66+
Nos échanges, riches et nombreux, ont permis de partager des retours d’expérience concrets et nos bonnes (et moins bonnes) pratiques.
67+
68+
### Invités
69+
1. La **Dinum** a présenté les dernières évolutions de [data.gouv.fr](https://www.data.gouv.fr/), dont `data.pass`.
70+
2. L’**INA** a présenté [data.ina](https://data.ina.fr/), un portail pour construire des indicateurs de suivi des médias.
71+
72+
Les présentations et le replay de la journée sont disponibles sur la [page de l'événement](../../talk/2025-12-01-network-day/index.qmd).
73+
74+
## Prochain événement : présentation de Cartographia - 📅 13 janvier 2026 - format mixte (Montrouge et en ligne)
75+
76+
Le prochain événement du réseau sera le **13 janvier 2026**.
77+
[Françoise Bahoken](https://bsky.app/profile/fbahoken.bsky.social) et [Nicolas Lambert](https://bsky.app/profile/neocarto.bsky.social) viendront nous parler de leur livre [**Cartographia**](https://neocarto.hypotheses.org/22669) et des questions de cartographie passionnantes qu'ils y abordent.
78+
79+
Nicolas Lambert était déjà intervenu pour présenter [Observable](https://observablehq.com/), une librairie JavaScript très pratique pour faire des dataviz.
80+
81+
82+
# Actualités
83+
Une foule d'articles a été publiée dernièrement sur l'importance de l'open-source, son interdépendance avec les solutions payantes et le coût caché de sa maintenance.
84+
Et, bizarrement, il y a moins d'articles sur l'IA ce mois-ci 🤷‍♀️.
85+
86+
## Résilience et open-source
87+
88+
### Le monde numérique est très interdépendant
89+
- De récents incidents ont rappelé que **notre monde numérique est très interdépendant** de solutions parfois lointaines.
90+
Un bug dans un logiciel ou service critique, open-source ou payant, se répercute ainsi rapidement à échelle mondiale.
91+
Cloudflare a par exemple connu une [panne le 18 novembre 2025](https://blog.cloudflare.com/18-november-2025-outage/)[^1], mettant KO de nombreux sites, y compris [downdetector](https://downdetector.fr/) qui signale les pannes.
92+
La panne était due à une mise en production (ratée du coup).
93+
De la même manière, une [panne de DNS chez Amazon Web Services](https://www.lemonde.fr/pixels/article/2025/10/21/aws-le-service-cloud-d-amazon-annonce-avoir-resolu-la-panne-qui-a-touche-des-applications-dans-le-monde-entier_6648232_4408997.html) le 20 octobre 2025 a perturbé de nombreuses applications dans le monde.
94+
95+
::: {layout-ncol="2"}
96+
![*En 2020, par [XKCD](https://www.explainxkcd.com/wiki/index.php/2347:_Dependency)*](https://www.explainxkcd.com/wiki/images/d/d7/dependency.png){width="333"}
97+
98+
![*En 2025, par [Timothy A.](https://bsky.app/profile/flipperpa.bsky.social/post/3m63xgtlh4k2d)*](xkcd_2025.jpg){width="350"}
99+
100+
*La dépendance numérique en images*
101+
:::
102+
103+
[^1]: Ils ont même eu la bonne idée d'avoir une deuxième panne, plus rapidement réglée, le jour de la rédaction de cette infolettre 🙃.
104+
105+
### L'open source dépend du travail gratuit d'inconnus
106+
- Au-delà de la simple interdépendance à des logiciels payants, le code open-source est souvent **maintenu bénévolement par des inconnus**, comme les secours en mer ou les pompiers volontaires.
107+
108+
Un [débat](https://thenewstack.io/ffmpeg-to-google-fund-us-or-stop-sending-bugs/) est ainsi apparu après que FFmpeg, un framework open-source vidéo largement utilisé (notamment par Chrome, Firefox ou YouTube), s’est retrouvé submergé de demande de correction de bugs, trouvés par l’IA de Google.
109+
Or dans l'open source, les bugs sont réparés par des mainteneurs, le plus souvent bénévoles, et qui ne peuvent plus suivre le rythme.
110+
Certaines personnes appellent ainsi Google, et plus largement les entreprises qui bénéficient de l'open-source et génèrent des revenus ~~supérieurs aux PIB de certains pays du monde~~, à financer directement la maintenance des logiciels open-source qu'ils utilisent même si ce n'est pas qu'une question de financement.
111+
112+
- Des sous, des sous, des sous, oui mais combien ? On parle étonnamment de sommes plutôt faibles : à titre de comparaison, la fondation qui gère **Python** a un budget annuel de 5 millions de dollars.
113+
On l'apprend notamment dans ce [billet de blog](https://pyfound.blogspot.com/2025/10/NSF-funding-statement.html) où la fondation explique pourquoi elle a refusé un financement de 1,5 million de dollars du gouvernement américain après l'avoir demandé
114+
(si vous n'avez pas le temps: c'est parce que le financement venait avec l'engagement de ne pas faire de promotion sur les thèmes de la diversité, de l'équité et de l'inclusion).
115+
116+
### Des alternatives existent
117+
- **Blois** : La ville a choisi de prendre la fin des mises à jour de Windows 10 comme une opportunité et de basculer vers [PrimTux](https://www.blois.fr/info/2025/11/numeriquelibre-primtux), une distribution Linux éducative.
118+
- **Cour internationale de justice (ICC)** : En 2025, la Cour internationale de justice (qui dépend de l'ONU) et 9 de ses magistrats ont été ciblés par des sanctions américaines.
119+
Cela serait en soit une histoire en termes de souveraineté, mais vous avez déjà plus d'info en bas de page [^4].
120+
Le président de la Cour a ensuite perdu l'accès à ses mails.
121+
Les versions divergent ensuite : Microsoft a-t-il volontairement coupé l'accès du président à ses mails avant de le rétablir ou cela était-il juste un incident?
122+
Toujours est-il que la Cour internationale de justice a annoncé en octobre 2025 son intention de basculer vers **des solutions européennes[^3]**, comme rapporté par le [Handelsblatt (auf Deutsch 🇩🇪)](https://www.handelsblatt.com/technik/it-internet/software-strafgerichtshof-ersetzt-microsoft-durch-deutsche-loesung/100166382.html).
123+
124+
125+
[^3]: L'indépendance complète de ces solutions est par ailleurs sujette à débat.
126+
127+
[^4]: Nicolas Guillou, juge français de la CPI qui faisait partie des juges ayant validé les mandats d’arrêt contre le premier ministre israélien et son ministre de la défense, explique dans [cet article du Monde](https://www.lemonde.fr/international/article/2025/11/19/nicolas-guillou-juge-francais-de-la-cpi-sanctionne-par-les-etats-unis-face-aux-attaques-les-magistrats-de-la-cour-tiendront_6654016_3210.html) et dans son discours au congrès annuel de l'Union Syndicale des Magistrats (USM), [ici](https://www.union-syndicale-magistrats.org/sanctions-americaines-contre-le-juge-francais-de-la-cpi/#flipbook-df_41449/1/), ce que signifie concrètement vivre sous sanction américaine.
128+
Plus de carte Visa ou Mastercard, vos comptes clients dans des entreprises comme Amazon ou Airbnb sont fermés, des banques, même non implantées aux États-Unis, ferment votre compte bancaire par sur-application des règles (_over-compliance_).
129+
Vos proches sont aussi touchés : interdiction de séjourner aux États-Unis, expulsion s'ils y sont et, légalement parlant, vos proches de nationalité américaine ne peuvent plus vous fournir de service sinon ils pourraient être poursuivis pénalement aux États-Unis.
130+
Or, beaucoup de fonctionnaires français ont des enfants américains : il suffit que leurs enfants soient nés aux États-Unis quand les parents travaillaient à l'ambassade de France ou dans les institutions internationales et, grâce au droit du sol, les enfants sont aussi de nationalité américaine.
131+
132+
## IA, IA, IA
133+
134+
### Les modèles de langage seraient inversibles
135+
Une étude récente ([Nikolaou et al., 2025](https://arxiv.org/abs/2510.15511)) montre que les modèles de language sont **injectifs**[^2] : chaque entrée est mappée à une représentation interne unique.
136+
Le papier propose par ailleurs un algorithme, **SipIt**, capable de reconstruire le prompt original avec 100% de réussite et rapidement.
137+
138+
[^2]: vieux rappel de maths : injectif veut dire à peu près que si deux objects transformés sont les mêmes, c'est que les objets avant transformation sont les mêmes.
139+
140+
## Very big data isn't dead
141+
- Du mal à faire tourner des tables de 2 Go ?
142+
Imaginez le CERN, où le laboratoire du LHCb génère **25 millions de collisions de protons par seconde**, soit la paille de 4 To de données par seconde.
143+
Comment faire ?
144+
Comme expliqué dans [ce post](https://lhcb-outreach.web.cern.ch/filtering-data-in-real-time/), ils ont mis en place l'infrastructure pour filtrer les données et ne garder que 10 Go de données générées par seconde.
145+
C'est un peu la citation de Einstein :
146+
147+
> Do not worry about your difficulties in mathematics; I can assure you that mine are still greater.
148+
149+
![*Filtering data in real time, [LHCb](https://lhcb-outreach.web.cern.ch/filtering-data-in-real-time/)*](https://lhcb-outreach.web.cern.ch/wp-content/uploads/2022/08/Run3_Trigger_LHCb-1024x560.png)
150+
151+
## Ressources et fun
152+
153+
### Nouveaux outils
154+
- **R** : [Jarl](https://r-consortium.org/posts/jarl-just-another-r-linter/), un nouveau linter pour R, conçu pour être simple et efficace.
155+
- [**Murmure**](https://murmure.al1x-ai.com/) : Un outil d'IA open-source pour générer des résumés et des analyses de texte hors ligne et en local, développé par [`Al1X-AI`](https://www.al1x-ai.com/).
156+
157+
### Ressources et formation
158+
- **IA** : [Gender Bias in Large Language Models](https://mikexcohen.substack.com/p/gender-bias-in-large-language-models) explique de manière très pédagogique le fonctionnement des LLM
159+
- **Python** : [Python is Not a Great Language for Data Science](https://blog.genesmindsmachines.com/p/python-is-not-a-great-language-for) : comment démarrer en Python, et une comparaison (subjective) entre Python et R
160+
- **Docker** : [Voici un tuto](https://muhammadraza.me/2024/building-container-runtime-python/) pour (un peu) démystifier les conteneurs et en construire un avec Python.
161+
162+
### Fun
163+
- [**Advent of Code**](https://adventofcode.com/) : Un calendrier de l'avent pour développeurs (au niveau certain).
164+
- **GenZ vs Boomers** : Si vous ne savez pas si vous êtes côté boomer ou genZ, allez faire un tour sur [genzplyr](https://github.com/hadley/genzplyr) et [boomerplyr](https://bradlindblad.github.io/boomerplyr/) : vous comprendrez vite qu'il y a l'un des deux packages que vous ne comprenez pas. Je sais de quel côté je suis 👴.
165+
202 KB
Loading
85.3 KB
Loading

0 commit comments

Comments
 (0)