Summary  
This chapter explains how to search and filter HTML elements by tag and attribute using BeautifulSoup’s .find_all() and .find() methods, and retrieve specific attribute values with .attrs.get(). It covers passing attribute–value pairs to locate elements with certain classes or ids and highlights the use of .find() for unique id selection.  

General domain of usage  
Web scraping

Certains balises **HTML** nécessitent des attributs obligatoires, comme la balise d’ancrage qui requiert l’attribut `href` ou la balise `<img>` qui nécessite l’attribut `src`. Pour accéder à un attribut spécifique, utilisez la méthode `.get()` après `.attrs`. Par exemple, récupérez tous les attributs `src` de tous les éléments `<img>`.

# Importing libraries
from bs4 import BeautifulSoup
from urllib.request import urlopen

# Reading web page
url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/page.html"
page = urlopen(url)
html = page.read().decode("utf-8")

# Reading HTML with BeautifulSoup
soup = BeautifulSoup(html, "html.parser")
for img in soup.find_all("img"):
  print(img.attrs.get("src"))

Vous pouvez également rencontrer l’attribut `id`, couramment utilisé pour distinguer des éléments ayant la même balise. Pour rechercher des éléments avec des valeurs d’attributs spécifiques, transmettez-les sous forme de dictionnaire au format `attr_name: attr_value` à la méthode `.find_all()`, juste après avoir spécifié la balise. Par exemple, trouvez tous les éléments `<div>` avec l’attribut `class` défini sur `"box"` ou l’élément `<p>` dont la valeur de l’attribut `"id"` est `"id2"`.

# Importing libraries
from bs4 import BeautifulSoup
from urllib.request import urlopen

# Reading web page
url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/page.html"
page = urlopen(url)
html = page.read().decode("utf-8")

# Reading HTML with BeautifulSoup
soup = BeautifulSoup(html, "html.parser")
for div in soup.find_all("div", {"class": "box"}):
  print(div)

# Filtering by id attribute value
print(soup.find("p", {"id": "id2"}))

La méthode `.find()` est utilisée à la place de `.find_all()` pour obtenir un élément par son `id`, car un `id` est un identifiant unique et ne peut apparaître qu'une seule fois. Pour vérifier que seuls des éléments `<div>` spécifiques ont été récupérés, examiner les classes attribuées aux éléments `<div>`.


# Importing libraries
from bs4 import BeautifulSoup
from urllib.request import urlopen

# Reading web page
url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/page.html"
page = urlopen(url)
html = page.read().decode("utf-8")

# Reading HTML with BeautifulSoup
soup = BeautifulSoup(html, "html.parser")
for div in soup.find_all("div"):
  print(div.attrs.get("class"))

Apprenez à extraire automatiquement des données précieuses à partir de sites web. Maîtrisez des techniques pour collecter efficacement des informations, permettant d’effectuer des analyses approfondies, de prendre des décisions fondées sur les données et de découvrir de nouveaux aperçus à partir de l’immense volume d’informations en ligne.

Explorer la structure d’un fichier HTML, apprendre à le charger efficacement et acquérir des compétences pratiques dans la manipulation des données qu’il contient.

Découvrez les principes fondamentaux de Beautiful Soup pour extraire des données à partir de documents HTML. Apprenez à naviguer dans la structure du HTML, à accéder à des éléments spécifiques et à manipuler leurs éléments enfants afin de consolider les bases du web scraping.

Maîtrise de la gestion des attributs d’élément et du contenu avec Beautiful Soup. Acquisition des compétences pour extraire des informations spécifiques, rechercher des éléments par valeurs d’attributs et utiliser des techniques avancées pour analyser et parser efficacement des données HTML.

Recherche Avancée