You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Copy file name to clipboardExpand all lines: library/README.md
+9-12Lines changed: 9 additions & 12 deletions
Display the source diff
Display the rich diff
Original file line number
Diff line number
Diff line change
@@ -4,14 +4,8 @@
4
4
[Voir la doc dédiée](prescreening/README.md).
5
5
6
6
7
-
### 2. Extraction full-text
8
-
Cette étape regroupe à nouveau deux sous-étapes :
9
-
1. Obtention quand disponible (open access) d'un lien pour le texte complet, généralement en PDF.
10
-
2. Téléchargement et lecture du PDF pour obtenir le texte converti en format markdown.
11
-
12
-
Les PDF téléchargés doivent être stockés pour affichage aux utilisateurs finaux quand ils sont cités.
13
-
14
-
Le code pour l'étape 1 (à perfectionner car il ne gère pas les cas où il faut cliquer sur une popup avant d'accéder au PDF, la branche `scraping` contient de légères améliorations) est dans `scraping/extract_openalex.py` et celui de l'étape 2 dans `pdfextraction/pdf/`.
7
+
### 2. Obtention des PDF et extraction des textes complets
8
+
[Voir la doc dédiée](scraping/README.md).
15
9
16
10
17
11
### 3. Extraction de la taxonomie
@@ -24,8 +18,11 @@ Le traitement des chunks pour cette étape reste à clarifier (métadonnées en
24
18
25
19
26
20
### Roadmap
27
-
-[ ] Nettoyer la base de données Postgres et repartir d'une table propre de 250k articles avec a minima OpenAlex ID, DOI, titre et abstract
28
-
-[ ] Récupérer le texte complet d'autant de ces articles que possible, le stocker en format texte dans Postgres et stocker les PDF dans un object storage sur CleverCloud
29
-
-[ ] Traiter les textes complets par NLP pour extraire la taxonomie, la stocker en métadonnées sur Postgres
21
+
-[x] Mettre au propre le jeu de mots-clés
22
+
-[x] Etape 1 du pré-screening : obtenir les références des articles candidats en par des recherches par mot-clé sur l'API OpenAlex
23
+
-[x] Etape 2 du pré-screning : filtrer les résultats de l'étape 1 en faisant classifier l'abstract à un modèle BERT fine-tuné
24
+
-[x] Récupérer quand c'est possible les PDF des articles et en extraire les textes complets -> textes bruts et non markdown, md serait mieux
25
+
-[x] Extraire les sections Résultats et Conclusion
26
+
-[ ] Extraire la taxonomie
30
27
-[ ] Mettre en place un pipeline pour mettre à jour automatiquement la library de façon régulière
0 commit comments