Summary  
This chapter explains how to fetch HTML content from a URL using Python’s urllib.request, read the HTTPResponse, and decode the resulting bytes into a string for further processing.

General domain of usage  
Web scraping

Hai già familiarità con le basi di **HTML**, quindi ora esplora il primo metodo per lavorare con esso in **Python**.


Uno dei moduli che puoi utilizzare per gestire i file __HTML__ in __Python__ è `urllib.request`. È necessario `import` il __metodo__ `urlopen` per accedere alle pagine web. Basta fornire l'__URL__ della pagina che si desidera aprire come __parametro__ di questo __metodo__.

# Importing the module
from urllib.request import urlopen

# Opening web page
url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html"
page = urlopen(url)
print(page)

Come mostrato nell'esempio sopra, il risultato è un oggetto `http.client.HTTPResponse`, che non è l'output desiderato. Per ottenere la struttura **HTML**, applicare i metodi `.read()` e `.decode('utf-8')` all'oggetto ricevuto.


La parte `decode("utf-8")` viene utilizzata per convertire i dati binari grezzi in una stringa leggibile dall'uomo, assumendo che il contenuto della pagina web sia codificato utilizzando **UTF-8**. Questa conversione consente di lavorare in modo significativo con i dati testuali contenuti nella pagina web, ad esempio per analizzarne o esaminarne il contenuto.

Definizione

# Importing the module
from urllib.request import urlopen

# Opening web page
url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html"
page = urlopen(url)

# Reading and decoding
web_page = page.read().decode("utf-8")
print(type(web_page))
print(web_page)

Come risultato dell'applicazione dei metodi `.read()` e `.decode()`, si ottiene una stringa. Questa stringa contiene la struttura __HTML__ in modo ben formattato, rendendola facilmente leggibile e permettendo di applicare i metodi delle stringhe.

Se il metodo `.decode()` non venisse applicato, si riceverebbe un oggetto __bytes__ con l'intera pagina __HTML__ rappresentata come un'unica stringa con caratteri specifici. Sentiti libero di sperimentare!

Impara a estrarre dati preziosi dai siti web in modo automatico. Apprendi tecniche per raccogliere informazioni in modo efficiente, consentendo analisi approfondite, decisioni basate sui dati e la scoperta di nuove informazioni dal vasto oceano di dati online.

Esplora la struttura di un file HTML, apprendi come caricarlo in modo efficiente e acquisisci competenze pratiche nell'elaborazione dei dati in esso contenuti.

Esplora le basi di Beautiful Soup per estrarre dati da documenti HTML. Scopri come navigare nella struttura dell'HTML, accedere a elementi specifici e lavorare con i loro elementi figli per costruire una solida base nello scraping web.

Padroneggiare la gestione degli attributi e dei contenuti degli elementi utilizzando Beautiful Soup. Acquisire competenze nell'estrazione di informazioni specifiche, nella ricerca di elementi tramite valori di attributo e nell'utilizzo di tecniche avanzate per analizzare e interpretare in modo efficiente i dati HTML.

Apertura del File HTML