Aprende Atributos y Contenidos del Elemento | Trabajando con Atributos de Elementos en Beautiful Soup

Desliza para mostrar el menú

Los métodos tratados anteriormente devuelven partes específicas del código HTML. BeautifulSoup también permite acceder a los atributos y contenidos de elementos particulares. Para obtener los atributos de un elemento, utilice el atributo .attrs. Por ejemplo, recupere los atributos del primer elemento <div>.


              123456789101112
            
# Importing libraries
from bs4 import BeautifulSoup
from urllib.request import urlopen

# Reading web page
url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html"
page = urlopen(url)
html = page.read().decode("utf-8")

# Reading HTML with BeautifulSoup
soup = BeautifulSoup(html, "html.parser")
print(soup.find("div").attrs)

El resultado de utilizar el atributo .attrs es un diccionario donde las claves son los nombres de los atributos y los valores son sus respectivos valores. Para obtener el contenido dentro de una etiqueta, utilice el atributo .contents. Por ejemplo, consulte el contenido del primer elemento <div>.


              123456789101112
            
# Importing libraries
from bs4 import BeautifulSoup
from urllib.request import urlopen

# Reading web page
url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html"
page = urlopen(url)
html = page.read().decode("utf-8")

# Reading HTML with BeautifulSoup
soup = BeautifulSoup(html, "html.parser")
print(soup.find("div").contents)

Como se observa arriba, todos los caracteres de salto de línea se incluyeron en una lista de elementos, lo cual puede no ser la representación más adecuada del contenido. Si se desea extraer únicamente el texto dentro de un elemento específico, se debe utilizar el método .get_text(). Comparar los resultados del ejemplo a continuación con el obtenido anteriormente.


              123456789101112
            
# Importing libraries
from bs4 import BeautifulSoup
from urllib.request import urlopen

# Reading web page
url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html"
page = urlopen(url)
html = page.read().decode("utf-8")

# Reading HTML with BeautifulSoup
soup = BeautifulSoup(html, "html.parser")
print(soup.find("div").get_text())

¿Todo estuvo claro?

¡Gracias por tus comentarios!

Sección 3. Capítulo 1

Pregunte a AI

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Sección 3. Capítulo 1