Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Hvad er Beautiful Soup? | Afkodning af HTML med Beautiful Soup
Web Scraping med Python

bookHvad er Beautiful Soup?

BeautifulSoup er et python-bibliotek, der tilbyder omfattende funktionalitet til at analysere HTML-sider. I det foregående afsnit arbejdede du med HTML som en streng, hvilket medførte betydelige begrænsninger.

For at installere BeautifulSoup skal du køre følgende kommando i din terminal eller kommandoprompt:

  • pip install beautifulsoup4;
  • For at komme i gang skal du importere BeautifulSoup fra bs4:

from bs4 import BeautifulSoup.

123
# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
copy

Dette bibliotek er designet til at arbejde med HTML-filer og håndterer ikke links. Du kan dog håndtere dette ved at bruge urlopen fra urllib.request. For at begynde at analysere, skal du give to parametre til funktionen BeautifulSoup: HTML-filen og parseren (brug den indbyggede html.parser). Dette opretter et BeautifulSoup-objekt. For eksempel, åbn og læs en webside.

12345678910111213
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
copy

Den første metode, der skal undersøges, er .prettify(), som viser HTML-filen som en indlejret datastruktur.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
copy
Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 2. Kapitel 1

Spørg AI

expand

Spørg AI

ChatGPT

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Suggested prompts:

What does the .prettify() method do in BeautifulSoup?

Can you explain how to use BeautifulSoup to parse HTML?

What are some other useful methods in BeautifulSoup?

Awesome!

Completion rate improved to 4.35

bookHvad er Beautiful Soup?

Stryg for at vise menuen

BeautifulSoup er et python-bibliotek, der tilbyder omfattende funktionalitet til at analysere HTML-sider. I det foregående afsnit arbejdede du med HTML som en streng, hvilket medførte betydelige begrænsninger.

For at installere BeautifulSoup skal du køre følgende kommando i din terminal eller kommandoprompt:

  • pip install beautifulsoup4;
  • For at komme i gang skal du importere BeautifulSoup fra bs4:

from bs4 import BeautifulSoup.

123
# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
copy

Dette bibliotek er designet til at arbejde med HTML-filer og håndterer ikke links. Du kan dog håndtere dette ved at bruge urlopen fra urllib.request. For at begynde at analysere, skal du give to parametre til funktionen BeautifulSoup: HTML-filen og parseren (brug den indbyggede html.parser). Dette opretter et BeautifulSoup-objekt. For eksempel, åbn og læs en webside.

12345678910111213
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
copy

Den første metode, der skal undersøges, er .prettify(), som viser HTML-filen som en indlejret datastruktur.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
copy
Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 2. Kapitel 1
some-alt