Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lära Tillämpning av Strängmetoder | Introduktion till HTML
Web Scraping med Python

bookTillämpning av Strängmetoder

Vad kan du göra med sidan du har läst in? Eftersom det är en sträng kan du använda alla strängmetoder. Till exempel returnerar metoden .find() indexet för den första förekomsten av ett specifikt element. Du kan använda den för att lokalisera sidans titel genom att hitta indexen för de öppnande och avslutande taggarna och ta hänsyn till längden på den avslutande taggen.

1234567891011121314
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") # Indexes of opening and closing title tags start = web_page.find("<title") finish = web_page.find("</title>") + len("</title>") print(web_page[start:finish])
copy

Som visas i exemplet ovan skapades två variabler, start och finish. Variabeln start lagrar indexet för det första tecknet inom den öppnande <title>-taggen, medan variabeln finish lagrar indexet för tecknet precis efter den avslutande </title>-taggen. Metoden .find() returnerar startindexet för den avslutande taggen, så taggens längd läggs till för att få den slutliga positionen.

Note
Läs mer

Listuppdelning utesluter det sista elementet, vilket är anledningen till att nästa tecken efter sluttaggen används.

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 1. Kapitel 10

Fråga AI

expand

Fråga AI

ChatGPT

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Awesome!

Completion rate improved to 4.35

bookTillämpning av Strängmetoder

Svep för att visa menyn

Vad kan du göra med sidan du har läst in? Eftersom det är en sträng kan du använda alla strängmetoder. Till exempel returnerar metoden .find() indexet för den första förekomsten av ett specifikt element. Du kan använda den för att lokalisera sidans titel genom att hitta indexen för de öppnande och avslutande taggarna och ta hänsyn till längden på den avslutande taggen.

1234567891011121314
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") # Indexes of opening and closing title tags start = web_page.find("<title") finish = web_page.find("</title>") + len("</title>") print(web_page[start:finish])
copy

Som visas i exemplet ovan skapades två variabler, start och finish. Variabeln start lagrar indexet för det första tecknet inom den öppnande <title>-taggen, medan variabeln finish lagrar indexet för tecknet precis efter den avslutande </title>-taggen. Metoden .find() returnerar startindexet för den avslutande taggen, så taggens längd läggs till för att få den slutliga positionen.

Note
Läs mer

Listuppdelning utesluter det sista elementet, vilket är anledningen till att nästa tecken efter sluttaggen används.

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 1. Kapitel 10
some-alt