Ouverture du fichier HTML
Vous maîtrisez déjà les bases du HTML, il est donc temps d'explorer la première méthode pour le manipuler avec Python.
L'un des modules utilisables pour traiter des fichiers HTML en Python est urllib.request. Il est nécessaire d’import la méthode urlopen afin d’accéder aux pages web. Il suffit de fournir l’URL de la page à ouvrir en tant que paramètre de cette méthode.
1234567# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) print(page)
Comme illustré dans l'exemple ci-dessus, le résultat est un objet http.client.HTTPResponse, ce qui n'est pas le résultat souhaité. Pour obtenir la structure HTML, appliquez les méthodes .read() et .decode('utf-8') à l'objet reçu.
La partie decode("utf-8") est utilisée pour convertir les données binaires brutes en une chaîne lisible par l'humain, en supposant que le contenu de la page web est encodé en UTF-8. Cette conversion permet de manipuler les données textuelles contenues dans la page web de manière significative, comme l'analyse ou le traitement de son contenu.
1234567891011# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") print(type(web_page)) print(web_page)
À la suite de l'application des méthodes .read() et .decode(), une chaîne de caractères est obtenue. Cette chaîne contient la structure HTML de manière bien formatée, ce qui la rend facilement lisible et permet d'appliquer des méthodes de chaîne de caractères.
Si la méthode .decode() n'était pas appliquée, un objet bytes serait reçu, avec l'ensemble de la page HTML représentée comme une seule chaîne contenant des caractères spécifiques. N'hésitez pas à expérimenter avec cela !
Merci pour vos commentaires !
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion
Awesome!
Completion rate improved to 4.35
Ouverture du fichier HTML
Glissez pour afficher le menu
Vous maîtrisez déjà les bases du HTML, il est donc temps d'explorer la première méthode pour le manipuler avec Python.
L'un des modules utilisables pour traiter des fichiers HTML en Python est urllib.request. Il est nécessaire d’import la méthode urlopen afin d’accéder aux pages web. Il suffit de fournir l’URL de la page à ouvrir en tant que paramètre de cette méthode.
1234567# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) print(page)
Comme illustré dans l'exemple ci-dessus, le résultat est un objet http.client.HTTPResponse, ce qui n'est pas le résultat souhaité. Pour obtenir la structure HTML, appliquez les méthodes .read() et .decode('utf-8') à l'objet reçu.
La partie decode("utf-8") est utilisée pour convertir les données binaires brutes en une chaîne lisible par l'humain, en supposant que le contenu de la page web est encodé en UTF-8. Cette conversion permet de manipuler les données textuelles contenues dans la page web de manière significative, comme l'analyse ou le traitement de son contenu.
1234567891011# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") print(type(web_page)) print(web_page)
À la suite de l'application des méthodes .read() et .decode(), une chaîne de caractères est obtenue. Cette chaîne contient la structure HTML de manière bien formatée, ce qui la rend facilement lisible et permet d'appliquer des méthodes de chaîne de caractères.
Si la méthode .decode() n'était pas appliquée, un objet bytes serait reçu, avec l'ensemble de la page HTML représentée comme une seule chaîne contenant des caractères spécifiques. N'hésitez pas à expérimenter avec cela !
Merci pour vos commentaires !