Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Anvendelse af Strengmetoder | Introduktion til HTML
Web Scraping med Python

bookAnvendelse af Strengmetoder

Hvad kan du gøre med siden, du har læst? Da det er en streng, kan du bruge enhver strengmetode. For eksempel returnerer .find()-metoden indekset for den første forekomst af et specifikt element. Du kan bruge den til at finde sidetitlen ved at finde indeksene for de åbne og lukkende tags og tage højde for længden af det lukkende tag.

1234567891011121314
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") # Indexes of opening and closing title tags start = web_page.find("<title") finish = web_page.find("</title>") + len("</title>") print(web_page[start:finish])
copy

Som vist i eksemplet ovenfor blev to variabler, start og finish, oprettet. Variablen start gemmer indekset for det første tegn inden for det åbne <title>-tag, mens variablen finish gemmer indekset for tegnet lige efter det lukkende </title>-tag. .find()-metoden returnerer startindekset for det lukkende tag, så taggets længde lægges til for at få den endelige position.

Note
Lær Mere

Listeudsnit udelader det sidste element, hvilket er grunden til, at det næste tegn efter slutmærket anvendes.

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 1. Kapitel 10

Spørg AI

expand

Spørg AI

ChatGPT

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Awesome!

Completion rate improved to 4.35

bookAnvendelse af Strengmetoder

Stryg for at vise menuen

Hvad kan du gøre med siden, du har læst? Da det er en streng, kan du bruge enhver strengmetode. For eksempel returnerer .find()-metoden indekset for den første forekomst af et specifikt element. Du kan bruge den til at finde sidetitlen ved at finde indeksene for de åbne og lukkende tags og tage højde for længden af det lukkende tag.

1234567891011121314
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") # Indexes of opening and closing title tags start = web_page.find("<title") finish = web_page.find("</title>") + len("</title>") print(web_page[start:finish])
copy

Som vist i eksemplet ovenfor blev to variabler, start og finish, oprettet. Variablen start gemmer indekset for det første tegn inden for det åbne <title>-tag, mens variablen finish gemmer indekset for tegnet lige efter det lukkende </title>-tag. .find()-metoden returnerer startindekset for det lukkende tag, så taggets længde lægges til for at få den endelige position.

Note
Lær Mere

Listeudsnit udelader det sidste element, hvilket er grunden til, at det næste tegn efter slutmærket anvendes.

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 1. Kapitel 10
some-alt