Lære Arbejde med Specifikke Elementer | Afkodning af HTML med Beautiful Soup

Navigering i et HTML-dokument ved hjælp af Python-attributter henter kun den første forekomst af et element. Hvis du ønsker at finde den første forekomst af et element uden at kende dets fulde sti, skal du bruge metoden .find() og angive tag-navnet som en streng (uden < >-parenteser). For eksempel kan du lokalisere det første <div>-element i HTML-dokumentet.


              123456789101112
            
# Importing libraries
from bs4 import BeautifulSoup
from urllib.request import urlopen

# Reading web page
url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html"
page = urlopen(url)
html = page.read().decode("utf-8")

# Reading HTML with BeautifulSoup
soup = BeautifulSoup(html, "html.parser")
print(soup.find("div"))

Du kan også hente alle forekomster af et specifikt element ved at bruge metoden .find_all(). Den returnerer en liste over alle match. For eksempel kan du finde alle <p>-tags i HTML-dokumentet.


              123456789101112
            
# Importing libraries
from bs4 import BeautifulSoup
from urllib.request import urlopen

# Reading web page
url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html"
page = urlopen(url)
html = page.read().decode("utf-8")

# Reading HTML with BeautifulSoup
soup = BeautifulSoup(html, "html.parser")
print(soup.find_all("p"))

Du kan bruge metoden .find_all() til at finde flere tags ved at angive en liste af tagnavne. For eksempel kan du indsamle alle <div> og <title> elementer.


              12345678910111213
            
# Importing libraries
from bs4 import BeautifulSoup
from urllib.request import urlopen

# Reading web page
url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/page.html"
page = urlopen(url)
html = page.read().decode("utf-8")

# Reading HTML with BeautifulSoup
soup = BeautifulSoup(html, "html.parser")
for el in soup.find_all(["div", "title"]):
  print(el)

Var alt klart?

Tak for dine kommentarer!

Sektion 2. Kapitel 5

Spørg AI

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Awesome!

Completion rate improved to 4.35

Stryg for at vise menuen


              123456789101112
            
# Importing libraries
from bs4 import BeautifulSoup
from urllib.request import urlopen

# Reading web page
url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html"
page = urlopen(url)
html = page.read().decode("utf-8")

# Reading HTML with BeautifulSoup
soup = BeautifulSoup(html, "html.parser")
print(soup.find("div"))


              123456789101112
            
# Importing libraries
from bs4 import BeautifulSoup
from urllib.request import urlopen

# Reading web page
url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html"
page = urlopen(url)
html = page.read().decode("utf-8")

# Reading HTML with BeautifulSoup
soup = BeautifulSoup(html, "html.parser")
print(soup.find_all("p"))

Du kan bruge metoden .find_all() til at finde flere tags ved at angive en liste af tagnavne. For eksempel kan du indsamle alle <div> og <title> elementer.


              12345678910111213
            
# Importing libraries
from bs4 import BeautifulSoup
from urllib.request import urlopen

# Reading web page
url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/page.html"
page = urlopen(url)
html = page.read().decode("utf-8")

# Reading HTML with BeautifulSoup
soup = BeautifulSoup(html, "html.parser")
for el in soup.find_all(["div", "title"]):
  print(el)

Var alt klart?

Tak for dine kommentarer!

Sektion 2. Kapitel 5