Contenu du cours
Extraction de Données Web avec Python
Extraction de Données Web avec Python
Ouverture du Fichier HTML
Vous êtes familiarisé avec les aspects fondamentaux de HTML, explorons la méthode initiale pour travailler avec lui en Python.
L'un des modules que vous pouvez utiliser pour gérer les fichiers HTML en Python est urllib.request
. Vous devrez import
la méthode urlopen
pour accéder aux pages Web. Il vous suffit de fournir l'URL de la page que vous souhaitez ouvrir comme paramètre à cette méthode.
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) print(page)
Comme indiqué dans l'exemple ci-dessus, vous recevez en résultat un objet http.client.HTTPResponse
, ce qui diffère de ce que nous voulions obtenir. Pour obtenir la structure HTML, vous devez appliquer les méthodes .read()
et .decode("utf-8")
à l'objet que vous avez acquis.
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") print(type(web_page)) print(web_page)
En appliquant les méthodes .read()
et .decode()
, vous obtenez une chaîne de caractères. Cette chaîne contient la structure HTML de manière bien formatée, ce qui la rend facilement lisible et vous permet d'appliquer des méthodes de chaîne.
Si la méthode .decode()
n'était pas appliquée, vous recevriez un objet bytes avec l'intégralité de la page HTML représentée sous forme de chaîne unique avec des caractères spécifiques. N'hésitez pas à expérimenter !
Merci pour vos commentaires !