Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Impara Che cos'è Beautiful Soup? | Decodifica HTML con Beautiful Soup
Web Scraping con Python

bookChe cos'è Beautiful Soup?

BeautifulSoup è una libreria python che offre funzionalità avanzate per l'analisi delle pagine HTML. Nella sezione precedente, hai lavorato con HTML come stringa, il che comportava notevoli limitazioni.

Per installare BeautifulSoup, eseguire il seguente comando nel terminale o prompt dei comandi:

  • pip install beautifulsoup4;
  • Per iniziare, importare BeautifulSoup da bs4:

from bs4 import BeautifulSoup.

123
# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
copy

Questa libreria è progettata per lavorare con file HTML e non gestisce i collegamenti. Tuttavia, è possibile gestirli utilizzando urlopen da urllib.request. Per iniziare l'analisi, fornire due parametri alla funzione BeautifulSoup: il file HTML e il parser (utilizzare il parser integrato html.parser). Questo crea un oggetto BeautifulSoup. Ad esempio, aprire e leggere una pagina web.

12345678910111213
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
copy

Il primo metodo da esplorare è .prettify(), che visualizza il file HTML come una struttura dati annidata.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
copy
Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 2. Capitolo 1

Chieda ad AI

expand

Chieda ad AI

ChatGPT

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

Awesome!

Completion rate improved to 4.35

bookChe cos'è Beautiful Soup?

Scorri per mostrare il menu

BeautifulSoup è una libreria python che offre funzionalità avanzate per l'analisi delle pagine HTML. Nella sezione precedente, hai lavorato con HTML come stringa, il che comportava notevoli limitazioni.

Per installare BeautifulSoup, eseguire il seguente comando nel terminale o prompt dei comandi:

  • pip install beautifulsoup4;
  • Per iniziare, importare BeautifulSoup da bs4:

from bs4 import BeautifulSoup.

123
# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
copy

Questa libreria è progettata per lavorare con file HTML e non gestisce i collegamenti. Tuttavia, è possibile gestirli utilizzando urlopen da urllib.request. Per iniziare l'analisi, fornire due parametri alla funzione BeautifulSoup: il file HTML e il parser (utilizzare il parser integrato html.parser). Questo crea un oggetto BeautifulSoup. Ad esempio, aprire e leggere una pagina web.

12345678910111213
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
copy

Il primo metodo da esplorare è .prettify(), che visualizza il file HTML come una struttura dati annidata.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
copy
Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 2. Capitolo 1
some-alt