Lære Hva er Beautiful Soup? | Dekoding HTML med Beautiful Soup

Sveip for å vise menyen

BeautifulSoup er et python-bibliotek som tilbyr omfattende funksjonalitet for å analysere HTML-sider. I forrige seksjon jobbet du med HTML som en streng, noe som medførte betydelige begrensninger.

For å installere BeautifulSoup, kjør følgende kommando i terminalen eller ledeteksten:

pip install beautifulsoup4;
For å komme i gang, importer BeautifulSoup fra bs4:

from bs4 import BeautifulSoup.


              123
            
# Importing the library
from bs4 import BeautifulSoup
print(BeautifulSoup)

Dette biblioteket er utviklet for å arbeide med HTML-filer og håndterer ikke lenker. Dette kan imidlertid administreres ved å bruke urlopen fra urllib.request. For å starte parsing, oppgi to parametere til BeautifulSoup-funksjonen: HTML-filen og parseren (bruk den innebygde html.parser). Dette oppretter et BeautifulSoup-objekt. For eksempel, åpne og les en nettside.


              12345678910111213
            
# Importing libraries
from bs4 import BeautifulSoup
from urllib.request import urlopen

# Reading web page
url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html"
page = urlopen(url)
html = page.read().decode("utf-8")

# Reading HTML with BeautifulSoup
soup = BeautifulSoup(html, "html.parser")
print(type(soup))
print(soup)

Den første metoden som bør utforskes er .prettify(), som viser HTML-filen som en nestet datastruktur.


              123456789101112
            
# Importing libraries
from bs4 import BeautifulSoup
from urllib.request import urlopen

# Reading web page
url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html"
page = urlopen(url)
html = page.read().decode("utf-8")

# Reading HTML with BeautifulSoup
soup = BeautifulSoup(html, "html.parser")
print(soup.prettify())

Alt var klart?

Takk for tilbakemeldingene dine!

Seksjon 2. Kapittel 1

Spør AI

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

Seksjon 2. Kapittel 1