Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Impara Applicazione dei Metodi delle Stringhe | Introduzione all'HTML
Web Scraping con Python

bookApplicazione dei Metodi delle Stringhe

Cosa puoi fare con la pagina che hai letto? Poiché si tratta di una stringa, puoi utilizzare qualsiasi metodo delle stringhe. Ad esempio, il metodo .find() restituisce l'indice della prima occorrenza di un elemento specifico. Puoi usarlo per individuare il titolo della pagina trovando gli indici dei tag di apertura e chiusura e considerando la lunghezza del tag di chiusura.

1234567891011121314
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") # Indexes of opening and closing title tags start = web_page.find("<title") finish = web_page.find("</title>") + len("</title>") print(web_page[start:finish])
copy

Come mostrato nell'esempio sopra, sono state create due variabili, start e finish. La variabile start memorizza l'indice del primo carattere all'interno del tag di apertura <title>, mentre la variabile finish memorizza l'indice del carattere subito dopo il tag di chiusura </title>. Il metodo .find() restituisce l'indice iniziale del tag di chiusura, quindi viene aggiunta la lunghezza del tag per ottenere la posizione finale.

Note
Approfondimento

Il slicing delle liste esclude l'ultimo elemento, motivo per cui viene utilizzato il carattere successivo al tag di chiusura.

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 1. Capitolo 10

Chieda ad AI

expand

Chieda ad AI

ChatGPT

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

Suggested prompts:

Can you explain how the .find() method works in more detail?

What other string methods can I use to process the web page content?

Can you show how to extract just the text inside the <title> tags?

Awesome!

Completion rate improved to 4.35

bookApplicazione dei Metodi delle Stringhe

Scorri per mostrare il menu

Cosa puoi fare con la pagina che hai letto? Poiché si tratta di una stringa, puoi utilizzare qualsiasi metodo delle stringhe. Ad esempio, il metodo .find() restituisce l'indice della prima occorrenza di un elemento specifico. Puoi usarlo per individuare il titolo della pagina trovando gli indici dei tag di apertura e chiusura e considerando la lunghezza del tag di chiusura.

1234567891011121314
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") # Indexes of opening and closing title tags start = web_page.find("<title") finish = web_page.find("</title>") + len("</title>") print(web_page[start:finish])
copy

Come mostrato nell'esempio sopra, sono state create due variabili, start e finish. La variabile start memorizza l'indice del primo carattere all'interno del tag di apertura <title>, mentre la variabile finish memorizza l'indice del carattere subito dopo il tag di chiusura </title>. Il metodo .find() restituisce l'indice iniziale del tag di chiusura, quindi viene aggiunta la lunghezza del tag per ottenere la posizione finale.

Note
Approfondimento

Il slicing delle liste esclude l'ultimo elemento, motivo per cui viene utilizzato il carattere successivo al tag di chiusura.

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 1. Capitolo 10
some-alt