Skip to content

Commit c756245

Browse files
committed
Update library README
1 parent 7dbfb1a commit c756245

File tree

1 file changed

+9
-12
lines changed

1 file changed

+9
-12
lines changed

library/README.md

Lines changed: 9 additions & 12 deletions
Original file line numberDiff line numberDiff line change
@@ -4,14 +4,8 @@
44
[Voir la doc dédiée](prescreening/README.md).
55

66

7-
### 2. Extraction full-text
8-
Cette étape regroupe à nouveau deux sous-étapes :
9-
1. Obtention quand disponible (open access) d'un lien pour le texte complet, généralement en PDF.
10-
2. Téléchargement et lecture du PDF pour obtenir le texte converti en format markdown.
11-
12-
Les PDF téléchargés doivent être stockés pour affichage aux utilisateurs finaux quand ils sont cités.
13-
14-
Le code pour l'étape 1 (à perfectionner car il ne gère pas les cas où il faut cliquer sur une popup avant d'accéder au PDF, la branche `scraping` contient de légères améliorations) est dans `scraping/extract_openalex.py` et celui de l'étape 2 dans `pdfextraction/pdf/`.
7+
### 2. Obtention des PDF et extraction des textes complets
8+
[Voir la doc dédiée](scraping/README.md).
159

1610

1711
### 3. Extraction de la taxonomie
@@ -24,8 +18,11 @@ Le traitement des chunks pour cette étape reste à clarifier (métadonnées en
2418

2519

2620
### Roadmap
27-
- [ ] Nettoyer la base de données Postgres et repartir d'une table propre de 250k articles avec a minima OpenAlex ID, DOI, titre et abstract
28-
- [ ] Récupérer le texte complet d'autant de ces articles que possible, le stocker en format texte dans Postgres et stocker les PDF dans un object storage sur CleverCloud
29-
- [ ] Traiter les textes complets par NLP pour extraire la taxonomie, la stocker en métadonnées sur Postgres
21+
- [x] Mettre au propre le jeu de mots-clés
22+
- [x] Etape 1 du pré-screening : obtenir les références des articles candidats en par des recherches par mot-clé sur l'API OpenAlex
23+
- [x] Etape 2 du pré-screning : filtrer les résultats de l'étape 1 en faisant classifier l'abstract à un modèle BERT fine-tuné
24+
- [x] Récupérer quand c'est possible les PDF des articles et en extraire les textes complets -> textes bruts et non markdown, md serait mieux
25+
- [x] Extraire les sections Résultats et Conclusion
26+
- [ ] Extraire la taxonomie
3027
- [ ] Mettre en place un pipeline pour mettre à jour automatiquement la library de façon régulière
31-
- [ ] Intégrer d'autres sources qu'OpenAlex
28+
- [ ] Intégrer d'autres sources qu'OpenAlex

0 commit comments

Comments
 (0)