Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Qu'est-ce que Beautiful Soup ? | Décodage du HTML avec Beautiful Soup
Web Scraping avec Python

bookQu'est-ce que Beautiful Soup ?

BeautifulSoup est une bibliothèque Python qui offre de nombreuses fonctionnalités pour l'analyse des pages HTML. Dans la section précédente, vous avez travaillé avec du HTML sous forme de chaîne de caractères, ce qui imposait des limitations importantes.

Pour installer BeautifulSoup, exécuter la commande suivante dans votre terminal ou invite de commandes :

  • pip install beautifulsoup4;
  • Pour commencer, importer BeautifulSoup depuis bs4 :

from bs4 import BeautifulSoup.

123
# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
copy

Cette bibliothèque est conçue pour travailler avec des fichiers HTML et ne gère pas les liens. Cependant, il est possible de gérer cela en utilisant urlopen de urllib.request. Pour commencer l'analyse, il faut fournir deux paramètres à la fonction BeautifulSoup : le fichier HTML et le parseur (utiliser le parseur intégré html.parser). Cela crée un objet BeautifulSoup. Par exemple, ouvrir et lire une page web.

12345678910111213
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
copy

La première méthode à explorer est .prettify(), qui affiche le fichier HTML sous forme de structure de données imbriquée.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
copy
Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 2. Chapitre 1

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Suggested prompts:

What does the .prettify() method do in BeautifulSoup?

Can you explain how to use BeautifulSoup to parse HTML?

What are some other useful methods in BeautifulSoup?

Awesome!

Completion rate improved to 4.35

bookQu'est-ce que Beautiful Soup ?

Glissez pour afficher le menu

BeautifulSoup est une bibliothèque Python qui offre de nombreuses fonctionnalités pour l'analyse des pages HTML. Dans la section précédente, vous avez travaillé avec du HTML sous forme de chaîne de caractères, ce qui imposait des limitations importantes.

Pour installer BeautifulSoup, exécuter la commande suivante dans votre terminal ou invite de commandes :

  • pip install beautifulsoup4;
  • Pour commencer, importer BeautifulSoup depuis bs4 :

from bs4 import BeautifulSoup.

123
# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
copy

Cette bibliothèque est conçue pour travailler avec des fichiers HTML et ne gère pas les liens. Cependant, il est possible de gérer cela en utilisant urlopen de urllib.request. Pour commencer l'analyse, il faut fournir deux paramètres à la fonction BeautifulSoup : le fichier HTML et le parseur (utiliser le parseur intégré html.parser). Cela crée un objet BeautifulSoup. Par exemple, ouvrir et lire une page web.

12345678910111213
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
copy

La première méthode à explorer est .prettify(), qui affiche le fichier HTML sous forme de structure de données imbriquée.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
copy
Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 2. Chapitre 1
some-alt