Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprende Atributos y Contenidos del Elemento | Trabajando con Atributos de Elementos en Beautiful Soup
Web Scraping con Python

bookAtributos y Contenidos del Elemento

Los métodos tratados anteriormente devuelven partes específicas del código HTML. BeautifulSoup también permite acceder a los atributos y contenidos de elementos particulares. Para obtener los atributos de un elemento, utiliza el atributo .attrs. Por ejemplo, recupera los atributos del primer elemento <div>.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.find("div").attrs)
copy

El resultado de usar el atributo .attrs es un diccionario donde las claves son los nombres de los atributos y los valores son sus valores correspondientes. Para obtener el contenido dentro de una etiqueta, utiliza el atributo .contents. Por ejemplo, revisa el contenido del primer elemento <div>.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.find("div").contents)
copy

Como se observa arriba, todos los caracteres de nueva línea se incluyeron en una lista de elementos, lo cual puede no ser la representación más deseable del contenido. Si se desea extraer únicamente el texto dentro de un elemento específico, utilice el método .get_text(). Compare los resultados del ejemplo a continuación con el obtenido anteriormente.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.find("div").get_text())
copy
¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 3. Capítulo 1

Pregunte a AI

expand

Pregunte a AI

ChatGPT

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Awesome!

Completion rate improved to 4.35

bookAtributos y Contenidos del Elemento

Desliza para mostrar el menú

Los métodos tratados anteriormente devuelven partes específicas del código HTML. BeautifulSoup también permite acceder a los atributos y contenidos de elementos particulares. Para obtener los atributos de un elemento, utiliza el atributo .attrs. Por ejemplo, recupera los atributos del primer elemento <div>.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.find("div").attrs)
copy

El resultado de usar el atributo .attrs es un diccionario donde las claves son los nombres de los atributos y los valores son sus valores correspondientes. Para obtener el contenido dentro de una etiqueta, utiliza el atributo .contents. Por ejemplo, revisa el contenido del primer elemento <div>.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.find("div").contents)
copy

Como se observa arriba, todos los caracteres de nueva línea se incluyeron en una lista de elementos, lo cual puede no ser la representación más deseable del contenido. Si se desea extraer únicamente el texto dentro de un elemento específico, utilice el método .get_text(). Compare los resultados del ejemplo a continuación con el obtenido anteriormente.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.find("div").get_text())
copy
¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 3. Capítulo 1
some-alt