Summary  
This chapter explains how to fetch HTML content from a URL using Python’s urllib.request, read the HTTPResponse, and decode the resulting bytes into a string for further processing.

General domain of usage  
Web scraping

Vous maîtrisez déjà les bases du **HTML**, il est donc temps d'explorer la première méthode pour le manipuler avec **Python**.


L'un des modules que vous pouvez utiliser pour traiter les fichiers __HTML__ en __Python__ est `urllib.request`. Il est nécessaire d’`import` la __méthode__ `urlopen` pour accéder aux pages web. Il suffit de fournir l’__URL__ de la page à ouvrir en tant que __paramètre__ de cette __méthode__.

# Importing the module
from urllib.request import urlopen

# Opening web page
url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html"
page = urlopen(url)
print(page)

Comme indiqué dans l'exemple ci-dessus, le résultat est un objet `http.client.HTTPResponse`, ce qui n'est pas le résultat souhaité. Pour obtenir la structure **HTML**, appliquez les méthodes `.read()` et `.decode('utf-8')` à l'objet que vous avez reçu.


La partie `decode("utf-8")` est utilisée pour convertir les données binaires brutes en une chaîne lisible par l'humain, en supposant que le contenu de la page web est encodé en **UTF-8**. Cette conversion permet de travailler de manière significative avec les données textuelles contenues dans la page web, comme l'analyse ou le traitement de son contenu.

Définition

# Importing the module
from urllib.request import urlopen

# Opening web page
url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html"
page = urlopen(url)

# Reading and decoding
web_page = page.read().decode("utf-8")
print(type(web_page))
print(web_page)

À la suite de l'application des méthodes `.read()` et `.decode()`, vous obtenez une chaîne de caractères. Cette chaîne contient la structure __HTML__ de manière bien formatée, ce qui la rend facilement lisible et permet d'appliquer des méthodes de chaîne de caractères.

Si la méthode `.decode()` n'était pas appliquée, vous obtiendriez un objet __bytes__ avec l'intégralité de la page __HTML__ représentée comme une seule chaîne avec des caractères spécifiques. N'hésitez pas à expérimenter avec cela !

Apprenez à extraire automatiquement des données précieuses à partir de sites web. Maîtrisez des techniques pour collecter efficacement des informations, permettant d’effectuer des analyses approfondies, de prendre des décisions fondées sur les données et de découvrir de nouveaux aperçus à partir de l’immense volume d’informations en ligne.

Explorer la structure d’un fichier HTML, apprendre à le charger efficacement et acquérir des compétences pratiques dans la manipulation des données qu’il contient.

Découvrez les principes fondamentaux de Beautiful Soup pour extraire des données à partir de documents HTML. Apprenez à naviguer dans la structure du HTML, à accéder à des éléments spécifiques et à manipuler leurs éléments enfants afin de consolider les bases du web scraping.

Maîtrise de la gestion des attributs d’élément et du contenu avec Beautiful Soup. Acquisition des compétences pour extraire des informations spécifiques, rechercher des éléments par valeurs d’attributs et utiliser des techniques avancées pour analyser et parser efficacement des données HTML.

Ouverture du fichier HTML