Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Impara Apertura del File HTML | Introduzione all'HTML
Web Scraping con Python

bookApertura del File HTML

Hai già familiarità con le basi di HTML, quindi ora esplora il primo metodo per lavorare con esso in Python.

Uno dei moduli che puoi utilizzare per gestire i file HTML in Python è urllib.request. È necessario import il metodo urlopen per accedere alle pagine web. Basta fornire l'URL della pagina che si desidera aprire come parametro di questo metodo.

1234567
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) print(page)
copy

Come mostrato nell'esempio sopra, il risultato è un oggetto http.client.HTTPResponse, che non è l'output desiderato. Per ottenere la struttura HTML, applicare i metodi .read() e .decode('utf-8') all'oggetto ricevuto.

Note
Definizione

La parte decode("utf-8") viene utilizzata per convertire i dati binari grezzi in una stringa leggibile, assumendo che il contenuto della pagina web sia codificato utilizzando UTF-8. Questa conversione consente di lavorare in modo significativo con i dati testuali contenuti nella pagina web, ad esempio per analizzarne o esaminarne il contenuto.

1234567891011
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") print(type(web_page)) print(web_page)
copy

Come risultato dell'applicazione dei metodi .read() e .decode(), si ottiene una stringa. Questa stringa contiene la struttura HTML in modo ben formattato, rendendola facilmente leggibile e permettendo di applicarvi i metodi delle stringhe.

Se il metodo .decode() non venisse applicato, si riceverebbe un oggetto bytes con l'intera pagina HTML rappresentata come un'unica stringa con caratteri specifici. Sentiti libero di sperimentare con esso!

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 1. Capitolo 8

Chieda ad AI

expand

Chieda ad AI

ChatGPT

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

Awesome!

Completion rate improved to 4.35

bookApertura del File HTML

Scorri per mostrare il menu

Hai già familiarità con le basi di HTML, quindi ora esplora il primo metodo per lavorare con esso in Python.

Uno dei moduli che puoi utilizzare per gestire i file HTML in Python è urllib.request. È necessario import il metodo urlopen per accedere alle pagine web. Basta fornire l'URL della pagina che si desidera aprire come parametro di questo metodo.

1234567
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) print(page)
copy

Come mostrato nell'esempio sopra, il risultato è un oggetto http.client.HTTPResponse, che non è l'output desiderato. Per ottenere la struttura HTML, applicare i metodi .read() e .decode('utf-8') all'oggetto ricevuto.

Note
Definizione

La parte decode("utf-8") viene utilizzata per convertire i dati binari grezzi in una stringa leggibile, assumendo che il contenuto della pagina web sia codificato utilizzando UTF-8. Questa conversione consente di lavorare in modo significativo con i dati testuali contenuti nella pagina web, ad esempio per analizzarne o esaminarne il contenuto.

1234567891011
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") print(type(web_page)) print(web_page)
copy

Come risultato dell'applicazione dei metodi .read() e .decode(), si ottiene una stringa. Questa stringa contiene la struttura HTML in modo ben formattato, rendendola facilmente leggibile e permettendo di applicarvi i metodi delle stringhe.

Se il metodo .decode() non venisse applicato, si riceverebbe un oggetto bytes con l'intera pagina HTML rappresentata come un'unica stringa con caratteri specifici. Sentiti libero di sperimentare con esso!

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 1. Capitolo 8
some-alt