You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Extraire les données
Processus de récupération d'informations spécifiques (texte, images, liens, tableaux, données de sites dynamiques générées par JavaScript, et cætera.) du web.
Automatiser
Utiliser des scripts, outils ou logiciels pour collecter des données sans intervention manuelle, permettant un gain de temps et d'efficacité.
La structure HTML et DOM
Comprendre la structure des pages web (HTML et Document Object Model) pour identifier les éléments à extraire.
Les sélecteurs CSS et XPath
Ces techniques sont utilisées pour cibler et extraire des éléments spécifiques dans le code HTML.
Différence entre web scraping et web crawling :
Le web scraping vise à extraire des données spécifiques d'une page web.
Le web crawling explore et indexe plusieurs pages web pour créer une base de données, comme le font les moteurs de recherche.
Les techniques d'extraction
Ce sont des méthodes de récupération de différents types de données.
Les mesures anti-scraping
Ces stratégies sont mises en place pour empêcher l'extraction automatisée, comme les CAPTCHA, le blocage d'IP, ou les honeypots.
Contourner les mesures anti-scraping
Il s'agit de techniques évitant les blocages, telles que la rotation d'adresses IP, des agents utilisateurs, l'utilisation de proxies, ou de navigateurs sans tête comme Puppeteer ou Selenium.
Les aspects légaux et éthiques
Il est indispençable de respecter les conditions d'utilisation des sites web, le conformité au RGPD et l'adoption de bonnes pratiques pour un web scraping responsable.