Name	Name	Last commit message	Last commit date
parent directory ..
readme.md	readme.md

Name

Last commit message

Last commit date

Les concepts

Extraire les données
Processus de récupération d'informations spécifiques (texte, images, liens, tableaux, données de sites dynamiques générées par JavaScript, et cætera.) du web.
Automatiser
Utiliser des scripts, outils ou logiciels pour collecter des données sans intervention manuelle, permettant un gain de temps et d'efficacité.
La structure HTML et DOM
Comprendre la structure des pages web (HTML et Document Object Model) pour identifier les éléments à extraire.
Les sélecteurs CSS et XPath
Ces techniques sont utilisées pour cibler et extraire des éléments spécifiques dans le code HTML.
Différence entre web scraping et web crawling :
- Le web scraping vise à extraire des données spécifiques d'une page web.
- Le web crawling explore et indexe plusieurs pages web pour créer une base de données, comme le font les moteurs de recherche.
Les techniques d'extraction
Ce sont des méthodes de récupération de différents types de données.
Les mesures anti-scraping
Ces stratégies sont mises en place pour empêcher l'extraction automatisée, comme les CAPTCHA, le blocage d'IP, ou les honeypots.
Contourner les mesures anti-scraping
Il s'agit de techniques évitant les blocages, telles que la rotation d'adresses IP, des agents utilisateurs, l'utilisation de proxies, ou de navigateurs sans tête comme Puppeteer ou Selenium.
Les aspects légaux et éthiques
Il est indispençable de respecter les conditions d'utilisation des sites web, le conformité au RGPD et l'adoption de bonnes pratiques pour un web scraping responsable.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

readme.md

Les concepts

FilesExpand file tree

concepts

Directory actions

More options

Directory actions

More options

Latest commit

History

concepts

Folders and files

parent directory

readme.md

Les concepts