Oppiskele Elementin Attribuutit ja Sisällöt | Elementtien Attribuuttien Käsittely Beautiful Soupilla

Pyyhkäise näyttääksesi valikon

Aiemmin käsitellyt menetelmät palauttavat tiettyjä osia HTML-koodista. BeautifulSoup mahdollistaa myös tiettyjen elementtien attribuuttien ja sisällön tarkastelun. Elementin attribuuttien hakemiseen käytetään .attrs-attribuuttia. Esimerkiksi ensimmäisen <div>-elementin attribuuttien hakeminen.


              123456789101112
            
# Importing libraries
from bs4 import BeautifulSoup
from urllib.request import urlopen

# Reading web page
url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html"
page = urlopen(url)
html = page.read().decode("utf-8")

# Reading HTML with BeautifulSoup
soup = BeautifulSoup(html, "html.parser")
print(soup.find("div").attrs)

.attrs-ominaisuuden käytön tuloksena saadaan sanakirja, jossa avaimina ovat attribuuttien nimet ja arvoina niiden vastaavat arvot. Elementin sisällön hakemiseen käytetään .contents-attribuuttia. Esimerkiksi ensimmäisen <div>-elementin sisällön tarkastelu.


              123456789101112
            
# Importing libraries
from bs4 import BeautifulSoup
from urllib.request import urlopen

# Reading web page
url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html"
page = urlopen(url)
html = page.read().decode("utf-8")

# Reading HTML with BeautifulSoup
soup = BeautifulSoup(html, "html.parser")
print(soup.find("div").contents)

Kuten yllä havaittiin, kaikki rivinvaihtomerkit sisältyivät elementtilistaan, mikä ei välttämättä ole sisällön kannalta toivottavin esitystapa. Jos haluat poimia vain tietyn elementin sisällä olevan tekstin, käytä .get_text()-metodia. Vertaa alla olevan esimerkin tuloksia aiemmin saatuihin.


              123456789101112
            
# Importing libraries
from bs4 import BeautifulSoup
from urllib.request import urlopen

# Reading web page
url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html"
page = urlopen(url)
html = page.read().decode("utf-8")

# Reading HTML with BeautifulSoup
soup = BeautifulSoup(html, "html.parser")
print(soup.find("div").get_text())

Oliko kaikki selvää?

Kiitos palautteestasi!

Osio 3. Luku 1

Kysy tekoälyä

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Osio 3. Luku 1