-
Notifications
You must be signed in to change notification settings - Fork 3
Expand file tree
/
Copy pathpresentation-fr.html
More file actions
727 lines (722 loc) · 60.8 KB
/
presentation-fr.html
File metadata and controls
727 lines (722 loc) · 60.8 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
720
721
722
723
724
725
726
727
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="utf-8">
<meta content="width=device-width, initial-scale=1.0" name="viewport">
<title>Sparnatural Archives Nationales : Démonstrateur</title>
<meta content="" name="description">
<meta content="" name="keywords">
<!-- Google Fonts -->
<link
href="https://fonts.googleapis.com/css?family=Montserrat:300,400,500,700|Open+Sans:300,300i,400,400i,700,700i"
rel="stylesheet">
<!-- Vendor CSS Files -->
<link href="assets/vendor/bootstrap/css/bootstrap.min.css" rel="stylesheet">
<link href="assets/vendor/bootstrap-icons/bootstrap-icons.css" rel="stylesheet">
<!-- Template Main CSS File -->
<link href="assets/css/style.css" rel="stylesheet">
<!-- Font Awesome -->
<link rel="stylesheet" href="assets/fa/css/all.min.css" />
<!-- YASGUI CSS -->
<link href="https://unpkg.com/@triply/yasgui/build/yasgui.min.css" rel="stylesheet"
type="text/css" />
<!-- datepicker -->
<link rel="stylesheet"
href="https://cdn.jsdelivr.net/npm/@chenfengyuan/datepicker@1.0.9/dist/datepicker.min.css">
<!-- Sparnatural CSS -->
<link href="sparnatural.css" rel="stylesheet" />
<style>
#sparnatural-section {
padding-top: 115px;
height: auto;
overflow: visible;
}
#contact {
margin-top: 40px;
padding: 0px;
padding-top: 20px;
}</style>
<!-- /Sparnatural-specific -->
</head>
<body>
<!-- ======= Header ======= -->
<header id="header" class="fixed-top d-flex align-items-center">
<div class="container d-flex justify-content-between align-items-center">
<div id="logo"> </div>
<nav id="navbar" class="navbar">
<ul>
<li>
<a class="nav-link" href="index.html">
<span data-i18n="menu.home"></span>
</a>
</li>
<li>
<a class="nav-link" href="index-A.html">
<span data-i18n="menu.demonstrateur-A"></span>
</a>
</li>
<li>
<a class="nav-link" href="index-B.html">
<span data-i18n="menu.demonstrateur-B"></span>
</a>
</li>
<li class="dropdown">
<a href="#"><i style="font-size:25px;" class="fad fa-book"
></i> <span>Documentation</span>
<i class="bi bi-chevron-down"></i></a>
<ul style="width:80%;">
<li>
<a href="presentation-fr.html">Français</a>
</li>
<li>
<a href="presentation-en.html">English</a>
</li>
</ul>
</li>
<li>
<a class="nav-link" href="mentions-legales.html">
<span data-i18n="menu.mentions-legales"></span>
</a>
</li>
<li>
<a class="nav-link" href="http://sparnatural.eu"><span data-i18n="menu.sparnatural"
></span> <i style="font-size:15px;" class="fad fa-external-link-alt"></i></a>
</li>
<li>
<a href="https://www.archives-nationales.culture.gouv.fr/">
<img src="assets/img/archives-nationales.png" style="width:200px;" />
</a>
</li>
</ul>
<i class="bi bi-list mobile-nav-toggle"></i>
</nav>
<!-- .navbar -->
</div>
</header>
<!-- End Header -->
<!-- ======= Sparnatural Section ======= -->
<section id="sparnatural-section">
<div class="container">
<div class="row">
<h1>Le démonstrateur Sparnatural des Archives nationales : documentation</h1>
<div class="col-md">
<p>Auteurs : <i>Florence Clavaud et Pauline Charbonnier (Lab des Archives nationales)</i>.</p>
<p>Date de la présente version : 10 juin 2025.</p>
<p>La présente documentation sera
améliorée dans les prochaines semaines. Elle est placée sous licence Creative Commons « Attribution 4.0 international (CC-BY
4.0) » (<a href="https://creativecommons.org/licenses/by/4.0/deed.fr"
>https://creativecommons.org/licenses/by/4.0/deed.fr</a>).</p>
<p>Ce démonstrateur a été réalisé dans le cadre du travail de développement, entre août 2021 et juin 2022, d’une nouvelle version de l’éditeur visuel open source de requêtes SPARQL <a href="https://sparnatural.eu">Sparnatural</a>, pour lequel le ministère de la Culture français, la Bibliothèque nationale de France et les Archives nationales se sont associés afin de passer un marché avec la société Sparna, développeur principal de Sparnatural.</p>
<p>Ce démonstrateur, qui utilise Sparnatural dans sa version actuelle, est le résultat d’un travail exploratoire sur la transition des
métadonnées archivistiques vers des graphes de données, qui fait suite aux projets de
preuve de concept qualitative <a href="https://piaaf.demo/logilab.fr">PIAAF</a> (publié en février 2018) et de développement du logiciel <a href="https://github.com/ArchivesNationalesFR/Referentiels">RiC-O Converter</a> (version 1.0 publiée en avril 2020). L’enjeu
principal du projet était de <b>proposer aux utilisateurs une interface de recherche
pertinente et compréhensible pour explorer un graphe de métadonnées archivistiques de
taille significative, qui en exploite la nature</b>.</p>
<ul>
<li>
<a href="#objectives">Objectifs</a>
</li>
<li>
<a href="#project_history">Historique rapide</a>
</li>
<li>
<a href="#content">Le contenu actuel du démonstrateur</a>
<ul>
<li><a href="#metadata">Les métadonnées retenues</a></li>
<li><a href="#process">Le processus de production du graphe de données</a></li>
<li><a href="#stats">Éléments statistiques concernant le graphe RDF obtenu</a></li>
</ul>
</li>
<li>
<a href="#interfaces">Les interfaces d’exploration du graphe</a>
<ul>
<li><a href="#design">Choix et méthodes de conception</a></li>
<li><a href="#results">Résultats</a></li>
</ul>
</li>
<li>
<a href="#bilan">Bilan</a>
<ul>
<li><a href="#research_device">Le démonstrateur comme dispositif d’exploration et de recherche</a></li>
<li><a href="#graph_obtained">Le graphe RDF obtenu, un exemple d’utilisation à grande échelle de RiC-O</a></li>
<li><a href="#perspective">Une nouvelle perspective sur les métadonnées utilisées</a></li>
<li><a href="#other_results">Autres résultats concrets du projet</a></li>
</ul>
</li>
<li>
<a href="#conclusion">En guise de conclusion : perspectives</a>
</li>
</ul>
<div id="objectives">
<h2>Objectifs</h2>
<p>Le travail de développement de la version actuelle de Sparnatural a été réalisé par l’équipe projet - c’est-à-dire des représentants des trois institutions partenaires et la société Sparna - dans le but d’apporter des réponses aux questions générales suivantes :</p>
<ul>
<li>Comment valoriser un graphe de connaissances en tant que graphe de connaissances ?
<br />(et non pas derrière un moteur de recherche à facettes ou derrière des liens
de navigation cliquables)</li>
<li>Comment favoriser les interactions exploratoires (essai/erreur) des utilisateurs
pour partir à la découverte des données ?</li>
<li>Comment réconcilier des modèles conceptuels génériques avec les points de vue
spécifiques des utilisateurs ?</li>
</ul>
<p>Du point de vue des Archives nationales, le démonstrateur des Archives nationales devait en particulier servir :</p>
<ul>
<li>à <b>tester les évolutions de Sparnatural</b>, et par là-même à contribuer au travail de développement ;</li>
<li>à <b>mettre en place une toute première application web permettant d’interroger et de consulter une partie significative des métadonnées archivistiques de l’institution</b>, converties en RDF/RiC-O.</li>
</ul>
<p>Ce faisant, il s’agissait aussi pour nous :</p>
<ul><li>d’apporter la preuve que la sémantisation à grande échelle de métadonnées archivistiques “classiques” est possible, et que cela ouvre de nouvelles possibilités de recherche aux utilisateurs</li><li>de voir ce qu’une telle opération permet d’apprendre sur ces métadonnées </li><li>de construire une méthodologie et d’acquérir des compétences sur la mise en œuvre de Sparnatural, susceptibles de servir dans le cadre d’autres projets.</li></ul>
<p>Ces travaux s’inscrivent dans le cadre d’une stratégie globale d’évolution des métadonnées et du système d’information des Archives nationales vers des métadonnées de meilleure qualité, plus accessibles, et des graphes d’entités liées.
</p>
</div>
<div id="project_history">
<h2>Historique rapide</h2>
<ul>
<li>Mise en place par Sparna d’une base RDF (avec le logiciel <a href="https://www.ontotext.com/products/graphdb/graphdb-free/">GraphDB Free</a>) sur la grille de
services de la <a href="https://www.huma-num.fr/">TGIR Huma-Num du CNRS</a>, et d’un dépôt sur GitHub pour stocker le code
du démonstrateur (été 2021) ; la base a été remplie provisoirement avec des données
RDF/RiC-O disponibles depuis longtemps aux Archives nationales.</li>
<li>Début des développements de la version 2 de Sparnatural (août 2021), en mode
agile.</li>
<li>Ateliers entre Sparna et le Lab des Archives pour la prise en main de la méthode
de configuration de Sparnatural.</li>
<li>Sélection du jeu de métadonnées, conversion en données RDF/RiC-O (voir plus bas <a
href="#process">Le processus de production du graphe de données</a>) et import
du jeu de métadonnées dans la base RDF ; premiers traitements complémentaires sur
les données (Lab, automne 2021).</li>
<li>Premières configurations de Sparnatural par le Lab à l’automne 2021 (avec l’aide
de Sparna).</li>
<li>Suite aux développements réalisés dans le projet, une première version des
démonstrateurs a été mise en place, qui a fait l’objet de tests lors d’ateliers
utilisateurs. Deux ateliers ont eu lieu en novembre 2021, rassemblant une vingtaine
de personnes de profils divers (archivistes, chercheurs, généalogistes, ingénieurs HN
etc.), au cours desquels les participants, après présentation du projet et de
l’outil Sparnatural, ont pu tester l’interface. L’équipe projet a recueilli pendant ces ateliers
leurs retours et les besoins qu’ils ont alors exprimés, puis présenté les
évolutions envisagées pour Sparnatural.</li>
<li>Intégration progressive par Sparna des développements de Sparnatural dans le dépôt
GitHub du démonstrateur ; tests et mise en œuvre de ces nouveautés par le Lab dans
l’interface de recherche du démonstrateur.</li>
<li>Deuxième conversion des métadonnées en RDF/RiC-O, et consolidation des
configurations des interfaces de recherche (mai-juin 2022).</li>
<li>Troisième opération de conversion des métadonnées (pour corriger quelques incohérences dans les triplets issus des fichiers EAD) et quelques modifications dans les interfaces (août 2022).</li>
</ul>
</div>
<div id="content">
<h2>Le contenu actuel du démonstrateur</h2>
<p>Les métadonnées des Archives nationales ce sont aujourd’hui principalement :</p>
<ul>
<li>plus de 30 000 instruments de recherche archivistiques (encodés conformément à <a href="https://www.loc.gov/ead/ead2002a.html">la DTD XML/EAD 2002</a>),</li>
<li>plus de 15 400 notices d’autorité (encodés conformément au <a href="https://eac.staatsbibliothek-berlin.de/">schéma XML/EAC-CPF</a>) sur des producteurs,</li>
<li>et des vocabulaires servant à l’indexation de ces fichiers,</li>
</ul>
<p>pour décrire environ 375 km linéaires d’archives papier de tous types, sans compter
les archives nativement numériques. La <a
href="https://www.siv.archives-nationales.culture.gouv.fr">salle des inventaires
virtuelle</a> permet aux utilisateurs de faire des recherches dans l’ensemble de ces
métadonnées.</p>
<p>Étant donné cet important volume, dans le cadre de ce projet, en l’absence
d’application sémantique comme <a href="https://data.bnf.fr/">data.bnf.fr</a> et
compte tenu des moyens humains et financiers disponibles, il a fallu sélectionner un
sous-ensemble de ces métadonnées pour alimenter le démonstrateur Sparnatural.</p>
<div id="metadata">
<h3>Les métadonnées retenues</h3>
<p>Ce sont <b>une partie des métadonnées décrivant les archives des notaires de Paris
conservées aux Archives nationales</b> qui ont été retenues en accord avec le service qui
en est responsable (le Département du Minutier central des notaires de Paris à la
Direction des Fonds - DMC), pour plusieurs raisons :</p>
<ul>
<li>elles forment <b>un tout cohérent</b> (en tout, ce sont les archives de 122 études, produites et préservées sans
rupture depuis la fin du XV<sup>e</sup> jusqu’au début du XX<sup>e</sup> siècle, soit 194 500 cartons, plus de
212 000 cotes, plus de 26 km linéaires et un total estimé à 20 millions d’actes -
nous reprenons ici une partie des éléments donnés par la <a
href="https://www.siv.archives-nationales.culture.gouv.fr/siv/cms/content/helpGuide.action?uuid=2c6d64b0-8395-49a0-a913-4ad39d4c1b94&version=8&preview=false&typeSearch=AideRechercheType&searchString=Suzanne%20Campaux"
>fiche d’aide à la recherche sur les chantiers d’inventaires au DMC</a>) ;</li>
<li><b>leur description est riche</b> (1,6 million d’actes environ y ont déjà fait l’objet
d’analyses) et s’enrichit constamment, <b>tout en présentant globalement les
caractéristiques classiques des répertoires numériques</b> établis par les services
publics français d’archives ;</li>
<li>elles décrivent <b>des documents très consultés par divers types de publics</b> ; les
fonds placés sous la responsabilité du DMC représentaient 26 % des communications
des Archives nationales tous sites confondus en 2019, d’après le <a
href="https://francearchives.fr/fr/file/9d09efcdaad5d47250fb010d7d8c8d3dcab796b5/Rapport_enquete_notaire_Fullenbaum%20Lenfant_2020.pdf"
>rapport d’enquête</a> intitulé <i>La présentation des ressources en archives
notariales et leur valorisation sur les sites Internet des Archives
départementales et nationales</i>, réalisé en avril 2020 par Sandra Fullenbaum
Lenfant, sous la direction de Marie-Françoise Limon-Bonnet ;</li>
<li><b>des fonds d’archives de même nature sont conservés dans chacun des services départementaux d’archives</b>. Le même rapport d’enquête en donne indirectement un aperçu général.</li>
</ul>
<p>Nous avons donc choisi de travailler sur les <b>notices d’autorité des producteurs (en
XML/EAC-CPF) et inventaires (en XML/EAD 2002) relatifs aux archives des 40 premières
études parisiennes</b> (sur les 122 conservées aux Archives nationales, soit le tiers
environ des études). Les fichiers XML/EAC-CPF et EAD 2002 concernés ont été
sélectionnés au sein d’un export complet des fichiers XML validés, réalisé le 11 mars
2022 par le Département des systèmes d’information des Archives nationales. La
sélection a été opérée en suivant les liens établis entre les quarante premières
notices EAC-CPF des études notariales et, d’une part, les notices des notaires, d’autre part les
instruments de recherche. Cette opération a produit un corpus incluant : </p>
<ul>
<li><b>les 40 notices décrivant les études I à XL</b> (et la notice de l’étude LIII, au sein
de laquelle un des notaires de l’étude XV a également travaillé entre 1961 et 1973)
;</li>
<li><b>les 1079 notices décrivant les notaires qui ont exercé au sein de ces quarante
études</b> ;</li>
<li><b>les 1577 instruments de recherche archivistiques décrivant les archives de ces
études</b> (soit 32 % des 4902 instruments de recherche existants et validés en mars
2022 pour le DMC), parmi lesquels 933 répertoires numériques ; 899 de ces
instruments de recherche décrivent des actes ou mentions d’actes (d’après les
résultats d’une requête SPARQL exécutée sur le graphe RDF obtenu).</li>
</ul>
<p>À cet ensemble nous avons ajouté <b>les notices (sur des personnes et organismes sujets
des documents) et vocabulaires (types de documents, mots-matières, activités, lieux de
Paris…) utilisés dans ces notices et inventaires pour les indexer</b>. Ces notices et
vocabulaires sont publiés et disponibles dans un <a
href="https://github.com/ArchivesNationalesFR/Referentiels">dépôt public des
Archives nationales sur GitHub</a>. Notez que les versions des notices de
producteurs qui figurent dans cet entrepôt sont datées de mars 2022.</p>
<p>Dans le cadre du projet, <b>ces jeux de métadonnées ont été quelque peu enrichis</b>. Ainsi,
pour les notaires des études I et II, des relations chronologiques entre notaires ont
été ajoutées dans les notices EAC-CPF, ouvrant la voie à de possibles futurs travaux.
Quelques nouvelles entrées (telle que ‘répertoire de notaire’, ‘liste d’actes’ et
‘mention d’acte’) et définitions (par exemple les définitions assignées au brevet, à
l’acte notarié ou à la minute notariale) ont par ailleurs été ajoutées dans le
référentiel dit des types de documents, avec l’accord du DMC. Le but de ces ajouts
était, non pas de procéder immédiatement à des enrichissements dans les fichiers EAD
source, mais de les rendre possibles par la suite, tout en se dotant de définitions
rigoureuses immédiatement utilisables pour construire le graphe RDF.</p>
</div>
<div id="process">
<h3>Le processus de production du graphe de données</h3>
<p>Les métadonnées sélectionnées ont été converties en graphes de données liées, conformément au
nouveau modèle conceptuel <a
href="https://www.ica.org/sites/default/files/ric-cm-02_july2021_0.pdf">Records in
Contexts</a> (RiC-CM) et à sa transposition technique, l’ontologie <a
href="https://www.ica.org/standards/RiC/ontology">Records in Contexts-Ontology</a> (RiC-O, version 0.2 publiée en
février 2021).</p>
<p>La conversion a été opérée à deux reprises dans le cadre du projet d’amélioration de Sparnatural. La première itération a été réalisée en
novembre 2021, la deuxième en mai 2022, après avoir tiré diverses leçons de la
première et des premiers travaux de configuration du démonstrateur.</p>
<p><b>Pour effectuer la conversion des fichiers XML/EAD et XML/EAC-CPF, nous avons utilisé
le logiciel open source <a href="https://github.com/ArchivesNationalesFR/rico-converter">RiC-O Converter</a></b>, développé pour les Archives nationales en
2019 et disponible sur GitHub depuis avril 2020. RiC-O Converter produit des fichiers
RDF conformes à RiC-O 0.1. <b>Les fichiers obtenus ont donc ensuite été rendus conformes
à RiC-O 0.2 et un peu enrichis ou modifiés par des scripts spécifiques écrits par le
Lab</b>. Parmi les enrichissements et modifications opérés, mentionnons : la propagation de
la relation de provenance depuis la description de chacun des fonds sur la description de
l’ensemble des ressources archivistiques incluses dans ce fonds, la catégorisation (avec la propriété <a href="https://www.ica.org/standards/RiC/ontology#hasDocumentaryFormType">rico:hasDocumentaryFormType</a> et le référentiel des types de documents) des instances de <a href="https://www.ica.org/standards/RiC/ontology#RecordResource">rico:RecordResource</a> identifiables comme étant des répertoires, listes d’actes et mentions d’actes ; le remplacement des relations d’association entre études et
notaires par des relations plus précises d’appartenance. <br /><b>Les vocabulaires et
notices utilisées pour indexer les fichiers EAD et EAC-CPF ont été convertis grâce des
scripts dédiés</b>, écrits et utilisés par le Lab. <br />Enfin, une fois importé dans la base
RDF choisie pour le démonstrateur (actuellement, une instance du logiciel <a href="https://www.ontotext.com/products/graphdb/download/">GraphDB Standard</a>, configurée de façon très simple), <b>le graphe de données a été à nouveau
enrichi</b>, afin de créer des classes spécifiques aux archives notariales et de “peupler”
ces classes par inférence. La copie d’écran ci-desous en montre un exemple : il s’agit des requêtes SPARQL qui ont servi à ajouter dans la base RDF la classe demoanonto:Repertoire et à créer les instances de cette classe. Autrement dit, une ontologie étendant RiC-O 0.2 a été
produite et mise en œuvre. Même si ce travail n’était pas indispensable, il a beaucoup
facilité la conception des configurations du démonstrateur et a aussi permis
d’optimiser son fonctionnement en réduisant le temps d’exécution de certaines
requêtes.</p>
<p>
<img src="assets/img/creationClasseRepertoire.jpg" style="width:1000px;" alt="Exemple de création de classe dans le graphe" id="adding-and-populating-a-class"/></p>
<p><i>Exemple de requête SPARQL de création de classe dans le graphe.</i></p>
</div>
<div id="stats">
<h3>Éléments statistiques concernant le graphe RDF obtenu</h3>
<p>Le graphe obtenu compte actuellement environ <b>57,9 millions de triplets RDF</b>, dont
environ 37 millions de triplets inférés. On peut donc d’ores et déjà estimer que le
graphe RDF résultant de la sémantisation, selon les mêmes modalités, de l’ensemble des
métadonnées des archives notariales aux Archives nationales compterait environ 170
millions de triplets. Par ailleurs, rappelons que les quelques 4900 instruments de
recherche du DMC constituent à peu près 16 % du nombre total d’instruments de recherche. Même
s’il faut se garder d’extrapolations simplistes, et s’il faut notamment avoir en tête
que ces fichiers EAD sont parmi les plus indexés et les plus précis des Archives
nationales, il est désormais prouvé que <b>la sémantisation de l’ensemble des métadonnées
XML de l’institution produirait un jeu de données extrêmement massif</b>.</p>
<p><b>Ce jeu de données est la première opération de sémantisation (conversion en triplets RDF conformément à RiC-O) à grande échelle, réalisée par
les Archives nationales (et en France sauf erreur), de métadonnées archivistiques "classiques".</b> Précisons qu’un autre jeu de données moins massif a par
ailleurs été publié en décembre 2021 par le Lab des Archives nationales (dans un <a
href="https://github.com/ArchivesNationalesFR/ALEGORIA-datasets">dépôt public sur
GitHub</a>) ; ce jeu de données est également accessible via le <a
href="http://data.alegoria-project.fr/sparql/">SPARQL endpoint</a> du projet ALEGORIA).</p>
<p>Dans ce jeu de données, sont employées, parmi les composants définis dans RiC-O 0.2
:</p>
<ul>
<li>34 classes (catégories d’entités) sur 106 (48 en comptant les triplets inférés)
;</li>
<li>25 <i>datatype properties</i> (relations dont la cible est une chaîne de caractères) sur
62 (28 en comptant les triplets inférés) ;</li>
<li>79 <i>object properties</i> (relations dont la cible est une entité) sur 423 (162 en
comptant les triplets inférés).</li>
</ul>
<p>Des requêtes SPARQL exécutées directement dans le SPARQL endpoint de la base RDF
utilisée afin de s’affranchir de la limite des 1000 résultats fixée pour l’interface
Sparnatural donnent <b>les effectifs suivants pour les principales catégories d’objets
décrits dans le graphe</b> :</p>
<ul>
<li>72 665 groupes de documents (fonds, séries, liasses, dossiers de clients…) ;</li>
<li><b>400 570 actes notariés</b> (décrits à ce jour) au sein des liasses ;</li>
<li><b>104 383 mentions d’actes</b> relevées au sein des répertoires ;</li>
<li>3135 répertoires ;</li>
<li><b>13 127 listes d’actes au sein des répertoires</b>, dont 11 670 numérisées ;</li>
<li>629 246 personnes (dont 3 213 personnes dotées d’un IRI) ;</li>
<li>530 organismes (dont 528 dotés d’un identifiant) ;</li>
<li>15 559 lieux (dont 15463 dotés d’un IRI).</li>
</ul>
<p>Comme nous l’expliquons ci-après, si les quantités trouvées pour les actes notariés,
les mentions d’actes et les listes d’actes sont à considérer comme une bonne
approximation (étant donné les raisonnements assez fiables que nous avons tenus pour générer les
données), les effectifs trouvés pour les personnes et pour les répertoires ne sont pas
fiables et peuvent uniquement être considérés comme des ordres de grandeur. Cependant <b>ces
statistiques, telles quelles et à elles seules, montrent à notre sens l’intérêt des
technologies employées</b> (car il est impossible à l’heure actuelle de les obtenir
via la Salle des inventaires virtuelle pour un utilisateur final, et assez peu aisé de les calculer pour un
professionnel compétent dans le domaine des technologies XML). <b>Elles montrent
surtout, si tant est qu’il faille encore la prouver, la très grande richesse de ces
gisements archivistiques.</b></p>
<img src="assets/img/sparnatural_AN_example_diagram.jpg" style="width:1000px;" alt="Vue partielle de la description d'un acte notarié dans le graphe" id="diagramme-acte-notarie"/>
<p><i>Représentation partielle, via un diagramme, de la description d’un acte notarié dans le graphe. <br/>Voir aussi la page <a href="https://rdf.archives-nationales.culture.gouv.fr/lodview/recordResource/041835-c1p6y1e0w26r--183v6ez58hjun.html">https://rdf.archives-nationales.culture.gouv.fr/lodview/recordResource/041835-c1p6y1e0w26r--183v6ez58hjun.html</a> dans le démonstrateur.</i></p>
<p>Nous allons poursuivre le travail sur ces données, comme expliqué ci-dessous.</p>
<p><b>Vous pouvez désormais accéder au dépôt public dans lequel nous gérons le jeu de données RDF sur GitHub : <a href="https://github.com/ArchivesNationalesFR/Sparnatural_prototype_data">https://github.com/ArchivesNationalesFR/Sparnatural_prototype_data</a></b>. N’hésitez pas à nous contacter si vous
avez des questions sur ces données !</p>
</div>
</div>
<div id="interfaces">
<h2>Les interfaces d’exploration du graphe</h2>
<div id="design">
<h3>Choix et méthodes de conception</h3>
<p>Plusieurs options de configuration de Sparnatural sont possibles : configuration via
un Google spreadsheet ou via une ontologie OWL (voir la <a
href="https://docs.sparnatural.eu/index.html">documentation</a>). Le Lab a choisi de
configurer le démonstrateur via une ontologie, avec l’aide de Sparna, et en utilisant
le logiciel libre <a href="https://protege.stanford.edu/">Protégé</a> pour éditer
l’ontologie.</p>
<img src="assets/img/classe_protege.png" style="width:1000px;" alt="Exemple d'édition d'unc classe Sparnatural dans Protégé"/>
<p><i>Édition d’une classe Sparnatural dans Protégé.</i></p>
<p>L’ontologie de configuration d’une interface de recherche Sparnatural importe et
utilise des composants définis dans deux ontologies génériques incluses dans le code
source du logiciel. <br /><b>Il s’agit en fait de spécifier un modèle ontologique pour
la recherche et ses correspondances avec les classes et propriétés de l’ontologie
métier.</b><br /> Cette approche permet de retenir certaines catégories d’objets ou
de relations plutôt que d’autres jugées secondaires pour la recherche, d’en spécifier
de nouvelles - pour regrouper plusieurs composants existants afin de simplifier
l’exploration du graphe ou pour représenter des nœuds de type texte -, de leur donner
des libellés compréhensibles dans la langue qu’on souhaite, de définir un ordre
d’affichage pour les points d’entrée principaux, de spécifier comment les nœuds cibles
d’une relation s’affichent, d’exploiter des vocabulaires SKOS, etc. Si l’on connaît HTML, les données contenues dans le graphe, le modèle métier employé et sa mise en œuvre, SPARQL et
le langage OWL, <b>on peut donc construire et faire évoluer son interface de façon
autonome</b>.</p>
<p>Le but pour le Lab a donc été d’atteindre par ce biais un <b>compromis raisonnable entre
la complexité du modèle métier et la nécessité de produire une interface
compréhensible et performante pour les utilisateurs</b>. Il a fallu beaucoup de temps pour parvenir au
résultat actuel, par itérations successives. Les retours des utilisateurs pendant les
deux ateliers organisés fin 2021 ont été à cet égard précieux et ont véritablement
orienté à la fois les développements du logiciel et les choix que nous avons
faits.</p>
<p>Le travail de configuration des interfaces de recherche a aussi permis de tester les
fonctionnalités développées dans le cadre du projet d’évolution de Sparnatural,
notamment :</p>
<ul>
<li>le support de la clause OPTIONAL (ce qui facilite la découverte, la granularité et
la précision des données étant variable dans un graphe de métadonnées culturelles,
en particulier dans un graphe de métadonnées archivistiques) - nous avons utilisé cette possibilité pour de nombreuses relations, par ex. "a une copie numerique", “a pour intitulé”, “concerne” ;
</li>
<li>le support de FILTER NOT EXISTS (pour exprimer la négation d’une propriété) - nous avons également retenu cette possibilité dans les mêmes cas que pour OPTIONAL ;
</li>
<li>la possibilité de sélectionner des valeurs dans une liste arborescente (de type
thésaurus) - nous avons utilisé cette fonctionnalité pour permettre la sélection
dans le thésaurus des types de documents ;</li>
<li>la possibilité d’ajouter des aides contextuelles (<i>tooltips</i>) - nous avons ainsi pu attacher à chacune
des catégories d’entités utilisables dans l’interface une courte définition utile
dans le contexte du projet ;</li>
<li>la possibilité de pré-enregistrer des requêtes, afin de guider l’utilisateur dans ses
premières requêtes ;</li>
<li>la possiblité de choisir les colonnes à afficher dans les résultats - cela permet à l’utilisateur de
définir à sa guise le contenu de la liste de résultats, pour pouvoir immédiatement
disposer de données textuelles (plutôt que les seules URIS des entités qu’une
requête SPARQL classique retourne par défaut), opérer des tris et ensuite en faire
un export au format CSV ;</li>
<li>la possibilité de traduire l’interface en autant de langues que nécessaire - nous avons
ainsi pu pour l’instant décliner en français et en anglais les interfaces de
recherche du démonstrateur des Archives nationales.</li>
</ul>
</div>
<div id="results">
<h3>Résultats</h3>
<h4>Avertissements</h4>
<p><b>Le démonstrateur est uniquement constitué de deux interfaces de recherche et de la
présente documentation</b>. Les Archives nationales ne disposent pas, comme la BnF (avec
<a href="https://data.bnf.fr">data.bnf.fr</a>), de site web permettant de consulter les graphes de données. Une
fonctionnalité a donc été ajoutée au démonstrateur Sparnatural, pour associer à chaque
entité résultat une page permettant de consulter de façon simple sa description (via
l’application <a href="https://lodview.it/">Lodview</a>). Cette fonctionnalité n’est pas totalement optimale. Par
ailleurs les IRIs des ressources RDF ne sont actuellement pas déréférençables ; en
particulier, aucune page web n’est associée à ces IRIS, dont nous ne pouvons pas non
plus garantir la pérennité du segment racine
(http://data.archives-nationales.culture.gouv.fr/).</p>
<!--THOMAS ? ajouter notamment qques mots sur les limites techniques actuelles ?(incapacité de la base RDF à servir plus de 2 requêtes simultanées). Ce problème pourrait être réglé en opérant une migration vers la version Standard de GraphDB.-->
<p>Les résultats obtenus présentent encore quelques petits défauts techniques que nous
nous efforcerons de corriger. Par ailleurs, <b>nous sommes bien entendu preneurs de toute
remarque ou suggestion d’amélioration</b>. Nous avons conscience qu’après les ateliers
utilisateurs organisés fin 2021, ces interfaces doivent être mises à l’épreuve d’un
plus grand nombre d’usagers. Tout comme les données RDF interrogées, <b>les interfaces
sont susceptibles d’évoluer de façon significative</b>.</p>
<p>Le code source du démonstrateur est disponible dans le dépôt suivant sur GitHub : <a href="https://github.com/sparna-git/sparnatural-demonstrateur-an">https://github.com/sparna-git/sparnatural-demonstrateur-an</a>.</p>
<h4>Configuration A</h4>
<p>La première configuration (<a href="index-A.html">démonstrateur A</a>) est <b>simple et
généraliste</b> ; elle peut quasiment s’appliquer à tout jeu de données archivistiques
conformes à RiC-O, dans la mesure où s’y trouvent indexées des entités de contexte
comme les producteurs, des agents sujets des documents, des lieux. Elle est a priori plutôt <b>destinée à la découverte des métadonnées</b>.</p>
<p>Les principales catégories d’objets (classes) définies dans l’ontologie de
configuration et utilisables dans cette première interface sont :</p>
<ul>
<li>Archives (une classe spécifique au projet, qui rassemble toutes les ressources
archivistiques, donc toutes les instances de la classe <a href="https://www.ica.org/standards/RiC/ontology#RecordResource">RecordResource</a> de RiC-O, à
l’exception des instruments de recherche et notices d’autorité) ;</li>
<li>Personne (qui correspond à la classe <a href="https://www.ica.org/standards/RiC/ontology#Person">rico:Person</a>) ;</li>
<li>Organisme (qui correspond à la classe <a href="https://www.ica.org/standards/RiC/ontology#CorporateBody">rico:CorporateBody</a>) ;</li>
<li>Lieu (qui correspond à la classe <a href="https://www.ica.org/standards/RiC/ontology#Place">rico:Place</a>) ;</li>
<li>Type de document (classe des concepts SKOS définis dans le vocabulaire des types
de documents des Archives nationales, également instances de la classe
<a href="https://www.ica.org/standards/RiC/ontology#DocumentaryFormType">rico:DocumentaryFormType</a>)</li>
<li>Mot-matière (classe des concepts SKOS définis dans le vocabulaire des
mots-matières des Archives nationales, également instances de la classe
<a href="https://www.ica.org/standards/RiC/ontology#Thing">rico:Thing</a>)</li>
<li>Activité (classe des concepts SKOS définis dans le vocabulaire des professions et
fonctions des personnes des Archives nationales, également instances de la classe
<a href="https://www.ica.org/standards/RiC/ontology#OccupationType">rico:OccupationType</a>)</li>
<li>Reproduction numérique (les instances de la classe <a href="https://www.ica.org/standards/RiC/ontology#Instantiation">rico:Instantiation</a> ayant le
format JPEG, générées à partir des éléments daogrp des fichiers EAD)</li>
<li>et d’autres ‘entités’ associées, qui correspondent à des valeurs littérales de
propriétés RiC-O : date, intitulé, nom.</li>
</ul>
<img alt="Les inventaires après décès d’orfèvres au XVIIe siècle" src="assets/img/requetePreenregistree_configA.jpg" style="width:1000px;"/>
<p><i><a href="https://sparna-git.github.io/sparnatural-demonstrateur-an/index-A.html?query=XQAAAALrBgAAAAAAAABtAZjwsLazPu40xYBYT-mEs1jrsFHSKyawaB4tm64mnk1LEjvimzmI68ZUh17ZR6o7k0qE12sGuhSImNMnKXQRrcGUoIIznaU1pDaLdjcvwJRzPF2XJ9-OVkt81t9-jysTtiSLNOj3rXx6HctmwyrCw-UgfXibI-_6jKJn7zidX6quedXR_Cme2qvin3u2geGSj9Nhe3Er1YIOVnr0Tf33WW94S7QRhSlRpdvolyREiMMs0SwQJjU6lXiJEIbRmGIMlxY36nWmZM27fZcmiPcd9lbEf3AgxDj-iO_qRSd-MnxXpklF54k_ePrlOjlS76OShtaSh4U8c1jopP0tw0a4LjSlagYnfrq8bvKJxDjl0-US5xlPCY6ndpdzy2aUA0csOqo0Vwt9jqsDVzmd0-SG8CWqGAjeG0nBKnsJPkav2jFTH_VSNhO-F2iaT24_gVDQx7tvSOnfa6m1bHhY-QYrjo2O8Z8VL6WlCAmvCQSNAnccYdc8an-PvTf22EoTvM1ho7MexhDqRTatTb3_tXDxKsRUMpaIxO22IMCP9evNzD5WuxJd7QWokHE9BEGor94oGkGPvZusTmq38ReHcMU94e_S8OeaPTn2JExBBR52o4jk2Ijz8m-AY3Fs3zGaY6aHUUGgwm3QE5c-Kk_zlvgXUpda3MnNW_f_gLGECA">Une requête préenregistrée de l’interface de recherche A : les inventaires après décès d’orfèvres au XVII<sup>e</sup> siècle</a></i></p>
<h4>Configuration B</h4>
<p>La deuxième configuration (<a href="index-B.html">démonstrateur B</a>) <b>exploite les
spécificités des archives notariales</b>. Elle est a priori <b>plutôt adaptée aux besoins
d’une personne familière de cet univers, archiviste ou usager habitué</b>. C’est la
configuration qui a fait l’objet du plus grand nombre de modifications dans l’histoire
du projet.<br />Outre les catégories d’objets listées plus haut, cette configuration
définit et utilise de nouvelles catégories d’objets, et établit pour ces catégories
d’objets des correspondances avec des classes de l’ontologie étendant RiC-O mentionnée
plus haut :</p>
<ul>
<li>Ensemble de documents (qui correspond à la classe <a href="https://www.ica.org/standards/RiC/ontology#RecordSet">rico:RecordSet</a>), Répertoire,
Liste d’actes, Acte notarié, Mention d’acte, Cote ;</li>
<li>Étude notariale, Numéro d’étude notariale, Notaire ;</li>
<li>Quartier, paroisse ou arrondissement de Paris, Voie de Paris, Édifice parisien, Adresse.</li>
</ul>
<p><b>La plupart de ces entités sont utilisables dès le début de l’écriture d’une requête</b>.</p>
<p>De nouvelles relations sont également présentes, par exemple entre étude et
notaires (Notaire <i>appartient à</i> Étude), entre notaires (Notaire <i>a pour
successeur</i> ou <i>a une relation familiale avec</i> Notaire), entre ressources archivistiques (comme Répertoire
<i>inclut ou mentionne</i> Mention d’acte ou Acte notarié).</p></div></div>
<div id="bilan">
<h2>Bilan</h2>
<div id="research_device">
<h3>Le démonstrateur comme dispositif d’exploration et de recherche</h3>
<p><b>Le bilan est très positif en ce qui concerne les possibilités d’exploration du graphe
et les nouvelles possibilités de recherche offertes par Sparnatural</b>. <br/>Parmi les
principaux points relevés par les utilisateurs pendant les ateliers de novembre 2021,
une fois passé l’effet de surprise, on peut mentionner <b>le caractère à la fois intuitif, souple
et interactif de ce type d’interface</b>, qui demande aussi un plus grand engagement
intellectuel pour l’utilisateur que de remplir un classique formulaire de recherche.
L’utilisateur construit son questionnaire en choisissant parmi les options qui
s’offrent à lui et découvre le contenu du graphe en même temps qu’il construit cette
recherche ; il prend véritablement la main. Il lui est également facile de revenir en
arrière en annulant une étape puis la précédente. Enfin, il peut partager la requête
exécutée ou encore exporter les résultats de sa recherche.</p>
<p>Nous ne pouvons bien évidemment pas nous substituer à l’usager non archiviste, ni à
celui qui ne connaît pas du tout le modèle de données RiC-O. Nous souhaitons juste
présenter ici un exemple des recherches qu’un formulaire de recherche classique dans des fichiers EAD ne permet actuellement pas de faire, et que Sparnatural rend possibles. Cet exemple est celui de la troisième requête préenregistrée dans l’interface de recherche B.</p>
<img style="width:1000px;" src="assets/img/requetePrenregistree_configB.jpg" alt="Une requête préenregistrée de l'interface de recherche B : les types de documents des actes notariés datant de l'année 1848, avec l'indication de leurs cotes"/>
<p><i><a href="https://sparna-git.github.io/sparnatural-demonstrateur-an/index-B.html?query=XQAAAALDBAAAAAAAAABtAROGb_4MAd_6Giyx3QrcHPSeh6sZOI5aHw3O1zgssP3BLbYF5fFCYMIS_dmyPvgkmO2hgHnXczkbYsDaXmHzeBe1FuhtEaV_OBn0SWsjzXc7vz26ryXCgu0pA1xvKNIrts-dRBorCUoyJwwLaNuugLI254tqNDfLxc-w1fGNCOYt0bOb1NG8k-UhGmn7cQsk4MM_cSjQBUP7EsRAz0z-nzf3KRCZ77ALuFTgU_rFcq8Td8aI2y-0Ix7OqE2O8yqIRoLcKWIQsKwlRFx1HKsiaYK4-4369chrIoNAOtuBt09OH7dtB-IgtVQF2ZXbBcqKMedkeptk6heQ8DM4Z7ggCHgtwBagb9UF16t6IKrMr659jYyrnGzOBlpV7nyeCFFERSi53epm2VTW9OOhKLbu-KOJhAMs44L-CUULybYztUK4TOWsycc1w68jCswJzMeb9y9wYwUB43Yq-vO4UJSok_s_Big">Une requête préenregistrée de l’interface de recherche B : les types de documents des actes notariés datant de l’année 1848, avec l’indication de leurs cotes</a></i></p>
<p>Dans cet exemple, on voit tout d’abord que <b>le point d’entrée est une entité de contexte (Type de document), ce qui est rare actuellement dans nos interfaces de recherche archivistiques</b> dans lesquelles le focus est la pupart du temps placé d’entrée de jeu sur les documents d’archives. L’éditeur de requêtes permet ensuite de choisir une catégorie d’entité (ici, le choix s’est porté sur les actes notariés) liée au type de document avant de parcourir de proche en proche le graphe, sur la même page HTML, et en restant dans le contexte de la construction d’un questionnaire (sans avoir à travailler par rebond entre des résultats de recherche qu’on aurait donc dû consulter et dans lesquels on aurait alors cliqué sur des lien hypertexte, pour savoir à quoi on peut s’attendre). On pourrait s’intéresser ainsi au producteur (notaire ou étude) des actes notariés. Une telle question, même si elle n’est pas formulée en langage naturel, nous semble proche de la formulation que pourrait en faire un chercheur en histoire qui souhaiterait, par exemple, constituer un corpus et s’en faire une première idée. Une des particularités notables ici est aussi que <b>l’utilisateur peut, pour de nombreuses relations, soit sélectionner précisément la cible, soit demander toutes les cibles d’une relation donnée</b> (ici, tous les actes notariés, ou toutes les dates), au moins dans un premier temps. <b>La possibilité de déterminer quelles informations figurent dans le tableau de résultats, et de disposer dans ce tableau de valeurs textuelles (libellés des entités), pas seulement d’URIs, est également particulièrement précieuse</b>. Enfin, l’utilisateur peut facilement modifier son questionnaire par étapes, ou encore <b>partager la requête et enregistrer le lien dans ses propres fichiers</b>, afin de rejouer la requête ultérieurement.</p>
<p><b>Les limites fonctionnelles du démonstrateur sont essentiellement celles de
Sparnatural</b>. La première, déjà mentionnée plus haut, est qu’il s’agit d’un outil
permettant de construire une interface d’exploration et de recherche dans un graphe de
données RDF, pas d’afficher, pour les consulter, les données listées dans les tableaux
de résultats. De plus, les Archives nationales ne disposent pas encore de moyen de
déréférencer des URIS. La fonctionnalité d’affichage de page HTML réalisée à l’aide de
Lodview ne remplace bien évidemment pas un véritable travail de conception et de
design d’une interface de consultation, permettant aussi de visualiser des parties du
graphe obtenu, dans la lignée de ce que le prototype PIAAF proposait pour une quantité
bien moins importante de données. Ce n’était pas l’objet du travail accompli dans le
cadre de ce projet.</p>
<p>Une telle interface de recherche n’est par ailleurs pas exclusive d’autres dispositifs tels que recherche
“plein texte” permettant, à partir du mot ou de l’expression saisis, de disposer d’une
liste de suggestions donnant pour chacune d’entre elles le type d’entité concerné ; ou
d’options de navigation de type onglets (un onglet par catégorie d’entités) comme le
propose également le prototype PIAAF.</p>
<p><b>S’ajoute bien évidemment à ces limites le fait que le jeu de données retenu n’offre
pas une couverture homogène des fonds d’archives des 40 premières études notariales :
le travail d’analyse des actes notariés conservés au sein de ces fonds se poursuit au
DMC, comme dans les autres fonds</b>. </p>
</div>
<div id="graph_obtained">
<h3>Le graphe RDF obtenu, un exemple d’utilisation à grande échelle de RiC-O</h3>
<p>Le résultat de la conversion à grande échelle des données sources en XML/EAD et
XML/EAC-CPF en RDF conforme à RiC-O a montré clairement :</p>
<ul>
<li>que cette conversion est tout à fait possible sans forcément apporter de
modifications à ces données ;</li>
<li>que <b>le graphe obtenu en partant de métadonnées archivistiques classiques de ce
type offrira cependant d’autant plus de points d’entrée différents et sera d’autant
plus riche en nœuds (en entités de divers types) que les métadonnées source
emploient des référentiels (notices d’autorité, vocabulaires) pour décrire les
entités de contexte des archives</b> ;</li>
<li>que, <b>même en partant de métadonnées bien indexées, une telle opération n’utilisera
qu’un sous-ensemble des classes et propriétés de RiC-O</b> - ce qui est normal puisque
RiC-O est la transposition technique d’un cadre conceptuel global ;</li>
<li>que, <b>tout en n’employant qu’une partie réduite de RiC-O, mener à bien un tel
projet peut inciter, notamment dans le cas d’un ensemble archivistique homogène
comme le nôtre, à étendre cette ontologie</b>, celle-ci étant un modèle international
très générique qui ne peut prendre en compte la variété des corpus ni toutes les
spécificités et besoins locaux.</li>
</ul>
<p>De tels enseignements peuvent, nous semble-t-il, être utiles à toute institution ou
équipe qui envisagerait de suivre la même voie. Nous serions bien évidemment
intéressées par tout retour d’expérience comparable.</p>
</div>
<div id="perspective">
<h3>Une nouvelle perspective sur les métadonnées utilisées</h3>
<p>À ce stade précoce du travail sur les métadonnées que le démonstrateur permet
d’explorer, nous l’avons déjà dit plus haut, <b>nous disposons grâce aux technologies
sémantiques de nouveaux éléments quantitatifs sur le contenu des archives décrites</b>.
Nous pourrons affiner cette cartographie dans les prochains mois. <br />Par ailleurs,
comme dans tout projet de production et de publication de graphe d’entités liées à
partir de données préexistantes, où un saut plus ou moins important est fait en
précision, <b>le travail sur les données et leur exploration en tant que graphe ont mis
en lumière des problèmes dans les métadonnées sources, certes non inconnus mais
jusqu’ici très peu visibles et difficiles à quantifier</b>. Nous allons prendre ici deux
exemples.</p>
<h4>629 246 personnes dans le graphe ?</h4>
<p>L’indexation essentiellement libre, via l’élément EAD <persname>, des personnes (mis
à part pour 3213 d’entre elles dotées de notice d’autorité) dans les instruments de
recherche traités a pour résultat un nombre très important d’entités de type
rico:Person dans le graphe, sur lesquelles on ne sait souvent que peu de choses
(ainsi par ex., on connaît l’activité de 34 925 de ces personnes uniquement) et qui
n’ont pas été l’objet de travaux d’agrégation ou d’identification. De fait, <b>des
entités possédant le même nom ne peuvent être agrégées comme une seule entité
Personne dans ce graphe d’entités liées que si on a la certitude absolue ou la
quasi-certitude qu’il s’agit de la même personne physique - lorsque, par exemple, on
retrouve cette personne à peu près à la même date, avec la même mention de
profession ou fonction (ou de relations avec d’autres personnes), dans les actes du
même notaire ou mentionnant le même bien</b>. Cela constitue un champ d’investigation
très intéressant. Quels qu’en soient les résultats, <b>il devrait subsister une cohorte
très importante d’individus aux caractéristiques très floues, dont l’effectif ne
devrait pas être très différent du nombre initial</b>.</p>
<h4>3135 répertoires ?</h4>
<p>Ce nombre est, lui, nettement supérieur à la réalité documentaire observée. Il résulte du fait que
dans les instruments de recherche traités, il figure le plus souvent deux descriptions
(deux éléments EAD <c> entre lesquelles aucune relation n’est actuellement établie),
créées dans deux instruments de recherche différents, relatives au même répertoire. L’un des instruments de recherche concernés décrit le fonds d’un
notaire donné, donc ses répertoires - et parfois, des mentions d’actes dans les
répertoires - et minutes ; l’autre, produit dans le cadre du programme de
numérisation intégrale des répertoires, décrit les répertoires du notaire en tant qu’objets matériels et les
listes d’actes qu’il contient. Cette redondance est assez peu visible dans les
métadonnées source dans la salle des inventaires virtuelle ; elle l’est beaucoup
plus dans le graphe RDF.</p><p><b>Un travail d’analyse plus poussé nous a conduites à décider de réaliser, dans les prochains mois, un test sur un petit échantillon représentatif de ces instruments de recherche, de mise en
relation voire fusion des informations qu’ils contiennent, pour produire, dans
l’idéal, une seule description de chacun des répertoires</b>. Cet exemple est très
représentatif d’autres cas de figure, liés au temps long dans lequel s’inscrit
l’histoire des métadonnées des Archives nationales et au phénomène de stratification
des instruments de recherche.</p>
</div>
<div id="other_results">
<h3 >Autres résultats concrets du projet</h3>
<p>La préparation des données RDF pour le démonstrateur Sparnatural a permis de réaliser
un travail préalable à la mise à jour de RiC-O Converter, au cours duquel les
différentes actions à mener à bien ont été identifiées et codées une première fois. Ce
travail permettra de gagner un peu de temps pour la suite. En effet, nous prévoyons de
développer une deuxième version de RiC-O Converter, afin de le rendre compatible avec
la version 0.2 de RiC-O.</p>
<p>La traduction en français des libellés anglais des classes et propriétés RiC-O
utilisées dans le graphe, réalisée lors de la configuration du démonstrateur
Sparnatural, va être intégrée dans les sources de RiC-O afin de disposer d’une
traduction complète à terme.</p>
</div>
</div>
<div id="conclusion">
<h2>En guise de conclusion : perspectives</h2>
<p><b>Dans une possible suite du projet, il est notamment envisagé de fusionner en une
seule les deux configurations A et B, en hiérarchisant classes et propriétés, pour
laisser le choix à l’utilisateur, au sein d’une seule interface de recherche, d’une
exploration rapide ou plus précise</b> (par exemple sélectionner Personne > Notaire dans
une seule interface). Cela impliquera de faire évoluer les possibilités de
configuration offertes par Sparnatural.</p>
<p>Le Lab des Archives nationales prévoit de produire et publier une ontologie de recherche Sparnatural
générique pour les données RDF conformes à RiC-O en prenant pour point de départ la
configuration A.</p>
<p>Enfin, <b>le Lab des Archives nationales est désormais en mesure de concevoir seul une
interface de recherche Sparnatural pour d’autres jeux de données</b>. La réutilisation de
Sparnatural est donc prévue dans le cadre d’autres projets de recherche, par exemple
pour explorer les données du projet <a href="https://oresm.hypotheses.org/">ORESM</a>
(Œuvres et Référentiels des Etudiants, Suppôts et Maîtres de l’université de Paris au
Moyen Âge). Voir à ce sujet <a
href="https://oresm.hypotheses.org/files/2022/03/ORESM_JE_26112021_JFMoufflet_FClavaud-3.pdf"
>la présentation</a>, faite en novembre 2021, de la preuve de concept déjà réalisée.</p>
</div>
</div>
</div>
</div>
</section>
<!-- End Sparnatural Section -->
<!-- ======= Contact Section ======= -->
<section id="contact">
<div class="container" data-aos="fade-up">
<div class="row">
<div class="col-lg-2 col-md-2">
<div class="contact-about">
<a href="https://www.archives-nationales.culture.gouv.fr/">
<img src="assets/img/archives-nationales.png" style="width:100%;" />
</a>
</div>
</div>
<div class="col-lg-2 col-md-2">
<div class="contact-about">
<a href="http://sparna.fr">
<img src="assets/img/sparna.png" style="width:100%;" />
</a>
</div>
</div>
</div>
</div>
</section>
<!-- End Contact Section -->
<!-- End #main -->
<a href="#" class="back-to-top d-flex align-items-center justify-content-center">
<i class="bi bi-chevron-up"></i>
</a>
<!-- Vendor JS Files -->
<script src="assets/vendor/bootstrap/js/bootstrap.bundle.min.js"></script>
<!-- jQuery first, then Popper.js, then Bootstrap JS -->
<script src="https://code.jquery.com/jquery-3.3.1.min.js" crossorigin="anonymous"></script>
<script src="https://cdnjs.cloudflare.com/ajax/libs/popper.js/1.14.3/umd/popper.min.js" integrity="sha384-ZMP7rVo3mIykV+2+9J3UJ46jBk0WLaUAdn689aCwoqbBJiSnjAK/l8WvCWPIPm49"></script>
<script src="https://stackpath.bootstrapcdn.com/bootstrap/4.1.3/js/bootstrap.min.js" integrity="sha384-ChfqqxuZUCnJSK3+MXmPNIyE6ZbWh2IMqE241rYiqJxyMiZ6OW/JmZQ5stwEULTy" crossorigin="anonymous"></script>
<!-- /Sparnatural-specific -->
<!-- i18n -->
<script src="assets/vendor/jquery.i18n/jquery.i18n.js"></script>
<script src="assets/vendor/jquery.i18n/jquery.i18n.messagestore.js"></script>
<script src="assets/vendor/jquery.i18n/jquery.i18n.fallbacks.js"></script>
<script src="assets/vendor/jquery.i18n/jquery.i18n.language.js"></script>
<script src="assets/vendor/jquery.i18n/jquery.i18n.parser.js"></script>
<script src="assets/vendor/jquery.i18n/jquery.i18n.emitter.js"></script>
<!-- Template Main JS File -->
<script src="assets/js/demo.js"></script>
<script src="assets/js/i18n.js"></script>
<script>
$.urlParam = function (name) {
var results = new RegExp('[\\?&]' + name + '=([^&#]*)').exec(window.location.href);
if (results == null) {
return null;
}
return results[1] || 0;
}
var lang = ($.urlParam('lang') != null) ? $.urlParam('lang'): 'fr';
// set the locale
$.i18n({
locale: lang
});
$('body').i18n();</script>
</body>
</html>