Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Åbning af HTML-fil | Introduktion til HTML
Web Scraping med Python

bookÅbning af HTML-fil

Du er allerede bekendt med grundlæggende HTML, så nu kan du udforske den første metode til at arbejde med det i Python.

Et af de moduler, du kan anvende til at håndtere HTML-filer i Python, er urllib.request. Du skal import metoden urlopen for at få adgang til websider. Angiv blot URL'en til den side, du ønsker at åbne, som en parameter til denne metode.

1234567
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) print(page)
copy

Som vist i eksemplet ovenfor, er resultatet et http.client.HTTPResponse-objekt, hvilket ikke er det ønskede output. For at opnå HTML-strukturen skal du anvende metoderne .read() og .decode('utf-8') på det objekt, du har modtaget.

Note
Definition

Delen decode("utf-8") bruges til at konvertere de rå binære data til en menneskelæsbar streng, forudsat at websidens indhold er kodet med UTF-8. Denne konvertering gør det muligt at arbejde meningsfuldt med tekstdataene fra websiden, f.eks. ved at analysere eller fortolke indholdet.

1234567891011
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") print(type(web_page)) print(web_page)
copy

Som resultat af at anvende metoderne .read() og .decode(), opnås en streng. Denne streng indeholder HTML-strukturen i et velstruktureret format, hvilket gør den letlæselig og muliggør anvendelse af strengmetoder på den.

Hvis .decode()-metoden ikke blev anvendt, ville du modtage et bytes-objekt med hele HTML-siden repræsenteret som en enkelt streng med specifikke tegn. Prøv gerne at eksperimentere med det!

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 1. Kapitel 8

Spørg AI

expand

Spørg AI

ChatGPT

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Awesome!

Completion rate improved to 4.35

bookÅbning af HTML-fil

Stryg for at vise menuen

Du er allerede bekendt med grundlæggende HTML, så nu kan du udforske den første metode til at arbejde med det i Python.

Et af de moduler, du kan anvende til at håndtere HTML-filer i Python, er urllib.request. Du skal import metoden urlopen for at få adgang til websider. Angiv blot URL'en til den side, du ønsker at åbne, som en parameter til denne metode.

1234567
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) print(page)
copy

Som vist i eksemplet ovenfor, er resultatet et http.client.HTTPResponse-objekt, hvilket ikke er det ønskede output. For at opnå HTML-strukturen skal du anvende metoderne .read() og .decode('utf-8') på det objekt, du har modtaget.

Note
Definition

Delen decode("utf-8") bruges til at konvertere de rå binære data til en menneskelæsbar streng, forudsat at websidens indhold er kodet med UTF-8. Denne konvertering gør det muligt at arbejde meningsfuldt med tekstdataene fra websiden, f.eks. ved at analysere eller fortolke indholdet.

1234567891011
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") print(type(web_page)) print(web_page)
copy

Som resultat af at anvende metoderne .read() og .decode(), opnås en streng. Denne streng indeholder HTML-strukturen i et velstruktureret format, hvilket gør den letlæselig og muliggør anvendelse af strengmetoder på den.

Hvis .decode()-metoden ikke blev anvendt, ville du modtage et bytes-objekt med hele HTML-siden repræsenteret som en enkelt streng med specifikke tegn. Prøv gerne at eksperimentere med det!

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 1. Kapitel 8
some-alt