Qu'est-ce que Beautiful Soup ?
BeautifulSoup est une bibliothèque Python qui offre de nombreuses fonctionnalités pour l'analyse des pages HTML. Dans la section précédente, vous avez travaillé avec du HTML sous forme de chaîne de caractères, ce qui imposait des limitations importantes.
Pour installer BeautifulSoup, exécuter la commande suivante dans votre terminal ou invite de commandes :
pip install beautifulsoup4;- Pour commencer, importer
BeautifulSoupdepuisbs4:
from bs4 import BeautifulSoup.
123# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
Cette bibliothèque est conçue pour travailler avec des fichiers HTML et ne gère pas les liens. Cependant, il est possible de gérer cela en utilisant urlopen de urllib.request. Pour commencer l'analyse, il faut fournir deux paramètres à la fonction BeautifulSoup : le fichier HTML et le parseur (utiliser le parseur intégré html.parser). Cela crée un objet BeautifulSoup. Par exemple, ouvrir et lire une page web.
12345678910111213# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
La première méthode à explorer est .prettify(), qui affiche le fichier HTML sous forme de structure de données imbriquée.
123456789101112# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
Merci pour vos commentaires !
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion
What does the .prettify() method do in BeautifulSoup?
Can you explain how to use BeautifulSoup to parse HTML?
What are some other useful methods in BeautifulSoup?
Awesome!
Completion rate improved to 4.35
Qu'est-ce que Beautiful Soup ?
Glissez pour afficher le menu
BeautifulSoup est une bibliothèque Python qui offre de nombreuses fonctionnalités pour l'analyse des pages HTML. Dans la section précédente, vous avez travaillé avec du HTML sous forme de chaîne de caractères, ce qui imposait des limitations importantes.
Pour installer BeautifulSoup, exécuter la commande suivante dans votre terminal ou invite de commandes :
pip install beautifulsoup4;- Pour commencer, importer
BeautifulSoupdepuisbs4:
from bs4 import BeautifulSoup.
123# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
Cette bibliothèque est conçue pour travailler avec des fichiers HTML et ne gère pas les liens. Cependant, il est possible de gérer cela en utilisant urlopen de urllib.request. Pour commencer l'analyse, il faut fournir deux paramètres à la fonction BeautifulSoup : le fichier HTML et le parseur (utiliser le parseur intégré html.parser). Cela crée un objet BeautifulSoup. Par exemple, ouvrir et lire une page web.
12345678910111213# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
La première méthode à explorer est .prettify(), qui affiche le fichier HTML sous forme de structure de données imbriquée.
123456789101112# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
Merci pour vos commentaires !