Skip to content

Latest commit

 

History

History

Folders and files

NameName
Last commit message
Last commit date

parent directory

..
 
 

Les conceptsWeb scraping

  1. Extraire les données
    Processus de récupération d'informations spécifiques (texte, images, liens, tableaux, données de sites dynamiques générées par JavaScript, et cætera.) du web. ​
  2. Automatiser
    Utiliser des scripts, outils ou logiciels pour collecter des données sans intervention manuelle, permettant un gain de temps et d'efficacité. ​
  3. La structure HTML et DOM
    Comprendre la structure des pages web (HTML et Document Object Model) pour identifier les éléments à extraire. ​
  4. Les sélecteurs CSS et XPath
    Ces techniques sont utilisées pour cibler et extraire des éléments spécifiques dans le code HTML. ​
  5. Différence entre web scraping et web crawling :
    • Le web scraping vise à extraire des données spécifiques d'une page web. ​
    • Le web crawling explore et indexe plusieurs pages web pour créer une base de données, comme le font les moteurs de recherche.
  6. Les techniques d'extraction
    Ce sont des méthodes de récupération de différents types de données. ​
  7. Les mesures anti-scraping
    Ces stratégies sont mises en place pour empêcher l'extraction automatisée, comme les CAPTCHA, le blocage d'IP, ou les honeypots. ​
  8. Contourner les mesures anti-scraping
    Il s'agit de techniques évitant les blocages, telles que la rotation d'adresses IP, des agents utilisateurs, l'utilisation de proxies, ou de navigateurs sans tête comme Puppeteer ou Selenium.
  9. Les aspects légaux et éthiques
    Il est indispençable de respecter les conditions d'utilisation des sites web, le conformité au RGPD et l'adoption de bonnes pratiques pour un web scraping responsable.