Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprende ¿Qué Es Beautiful Soup? | Descifrando HTML con Beautiful Soup
Web Scraping con Python

book¿Qué Es Beautiful Soup?

BeautifulSoup es una biblioteca de Python que ofrece una funcionalidad extensa para analizar páginas HTML. En la sección anterior, trabajaste con HTML como una cadena, lo que imponía limitaciones significativas.

Para instalar BeautifulSoup, ejecuta el siguiente comando en tu terminal o símbolo del sistema:

  • pip install beautifulsoup4;
  • Para comenzar, importa BeautifulSoup desde bs4:

from bs4 import BeautifulSoup.

123
# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
copy

Esta biblioteca está diseñada para trabajar con archivos HTML y no gestiona enlaces. Sin embargo, esto se puede manejar utilizando urlopen de urllib.request. Para comenzar el análisis, proporcione dos parámetros a la función BeautifulSoup: el archivo HTML y el analizador (utilice el analizador incorporado html.parser). Esto crea un objeto BeautifulSoup. Por ejemplo, abra y lea una página web.

12345678910111213
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
copy

El primer método a explorar es .prettify(), que muestra el archivo HTML como una estructura de datos anidada.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
copy
¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 2. Capítulo 1

Pregunte a AI

expand

Pregunte a AI

ChatGPT

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Suggested prompts:

What does the .prettify() method do in BeautifulSoup?

Can you explain how to use BeautifulSoup to parse HTML?

What are some other useful methods in BeautifulSoup?

Awesome!

Completion rate improved to 4.35

book¿Qué Es Beautiful Soup?

Desliza para mostrar el menú

BeautifulSoup es una biblioteca de Python que ofrece una funcionalidad extensa para analizar páginas HTML. En la sección anterior, trabajaste con HTML como una cadena, lo que imponía limitaciones significativas.

Para instalar BeautifulSoup, ejecuta el siguiente comando en tu terminal o símbolo del sistema:

  • pip install beautifulsoup4;
  • Para comenzar, importa BeautifulSoup desde bs4:

from bs4 import BeautifulSoup.

123
# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
copy

Esta biblioteca está diseñada para trabajar con archivos HTML y no gestiona enlaces. Sin embargo, esto se puede manejar utilizando urlopen de urllib.request. Para comenzar el análisis, proporcione dos parámetros a la función BeautifulSoup: el archivo HTML y el analizador (utilice el analizador incorporado html.parser). Esto crea un objeto BeautifulSoup. Por ejemplo, abra y lea una página web.

12345678910111213
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
copy

El primer método a explorar es .prettify(), que muestra el archivo HTML como una estructura de datos anidada.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
copy
¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 2. Capítulo 1
some-alt