Oppiskele Työskentely Tiettyjen Elementtien Kanssa | HTML:n Purkaminen Beautiful Soupilla

HTML-dokumentin selaaminen Python-attribuuttien avulla palauttaa vain ensimmäisen esiintymän elementistä. Jos haluat löytää elementin ensimmäisen esiintymän tuntematta sen koko polkua, käytä .find()-metodia ja anna tunnisteen nimi merkkijonona (ilman < >-sulkuja). Esimerkiksi etsi ensimmäinen <div>-elementti HTML-dokumentista.


              123456789101112
            
# Importing libraries
from bs4 import BeautifulSoup
from urllib.request import urlopen

# Reading web page
url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html"
page = urlopen(url)
html = page.read().decode("utf-8")

# Reading HTML with BeautifulSoup
soup = BeautifulSoup(html, "html.parser")
print(soup.find("div"))

Voit myös hakea kaikki tietyn elementin esiintymät käyttämällä .find_all()-metodia. Se palauttaa listan kaikista osumista. Esimerkiksi etsi kaikki <p>-tunnisteet HTML-dokumentista.


              123456789101112
            
# Importing libraries
from bs4 import BeautifulSoup
from urllib.request import urlopen

# Reading web page
url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html"
page = urlopen(url)
html = page.read().decode("utf-8")

# Reading HTML with BeautifulSoup
soup = BeautifulSoup(html, "html.parser")
print(soup.find_all("p"))

Voit käyttää .find_all()-metodia löytääksesi useita tageja välittämällä listan tagnimistä. Esimerkiksi kerää kaikki <div>- ja <title>-elementit.


              12345678910111213
            
# Importing libraries
from bs4 import BeautifulSoup
from urllib.request import urlopen

# Reading web page
url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/page.html"
page = urlopen(url)
html = page.read().decode("utf-8")

# Reading HTML with BeautifulSoup
soup = BeautifulSoup(html, "html.parser")
for el in soup.find_all(["div", "title"]):
  print(el)

Oliko kaikki selvää?

Kiitos palautteestasi!

Osio 2. Luku 5

Kysy tekoälyä

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Pyyhkäise näyttääksesi valikon


              123456789101112
            
# Importing libraries
from bs4 import BeautifulSoup
from urllib.request import urlopen

# Reading web page
url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html"
page = urlopen(url)
html = page.read().decode("utf-8")

# Reading HTML with BeautifulSoup
soup = BeautifulSoup(html, "html.parser")
print(soup.find("div"))

Voit myös hakea kaikki tietyn elementin esiintymät käyttämällä .find_all()-metodia. Se palauttaa listan kaikista osumista. Esimerkiksi etsi kaikki <p>-tunnisteet HTML-dokumentista.


              123456789101112
            
# Importing libraries
from bs4 import BeautifulSoup
from urllib.request import urlopen

# Reading web page
url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html"
page = urlopen(url)
html = page.read().decode("utf-8")

# Reading HTML with BeautifulSoup
soup = BeautifulSoup(html, "html.parser")
print(soup.find_all("p"))

Voit käyttää .find_all()-metodia löytääksesi useita tageja välittämällä listan tagnimistä. Esimerkiksi kerää kaikki <div>- ja <title>-elementit.


              12345678910111213
            
# Importing libraries
from bs4 import BeautifulSoup
from urllib.request import urlopen

# Reading web page
url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/page.html"
page = urlopen(url)
html = page.read().decode("utf-8")

# Reading HTML with BeautifulSoup
soup = BeautifulSoup(html, "html.parser")
for el in soup.find_all(["div", "title"]):
  print(el)

Oliko kaikki selvää?

Kiitos palautteestasi!

Osio 2. Luku 5