Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Mikä on Beautiful Soup? | HTML:n Purkaminen Beautiful Soupilla
Web Scraping Pythonilla

bookMikä on Beautiful Soup?

BeautifulSoup on Python-kirjasto, joka tarjoaa laajat ominaisuudet HTML-sivujen jäsentämiseen. Edellisessä osiossa käsittelit HTML:ää merkkijonona, mikä asetti merkittäviä rajoituksia.

Asenna BeautifulSoup suorittamalla seuraava komento terminaalissa tai komentokehotteessa:

  • pip install beautifulsoup4;
  • Aloittaaksesi, tuo BeautifulSoup kirjastosta bs4:

from bs4 import BeautifulSoup.

123
# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
copy

Tämä kirjasto on suunniteltu HTML-tiedostojen käsittelyyn, eikä se käsittele linkkejä. Voit kuitenkin hallita niitä käyttämällä urlopen-funktiota kirjastosta urllib.request. Jotta voit aloittaa jäsentämisen, anna kaksi parametria BeautifulSoup-funktiolle: HTML-tiedosto ja jäsentäjä (käytä sisäänrakennettua html.parser-jäsentäjää). Tämä luo BeautifulSoup-olion. Esimerkiksi, avaa ja lue verkkosivu.

12345678910111213
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
copy

Ensimmäinen tutkittava metodi on .prettify(), joka näyttää HTML-tiedoston sisäkkäisenä tietorakenteena.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
copy
Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 2. Luku 1

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Awesome!

Completion rate improved to 4.35

bookMikä on Beautiful Soup?

Pyyhkäise näyttääksesi valikon

BeautifulSoup on Python-kirjasto, joka tarjoaa laajat ominaisuudet HTML-sivujen jäsentämiseen. Edellisessä osiossa käsittelit HTML:ää merkkijonona, mikä asetti merkittäviä rajoituksia.

Asenna BeautifulSoup suorittamalla seuraava komento terminaalissa tai komentokehotteessa:

  • pip install beautifulsoup4;
  • Aloittaaksesi, tuo BeautifulSoup kirjastosta bs4:

from bs4 import BeautifulSoup.

123
# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
copy

Tämä kirjasto on suunniteltu HTML-tiedostojen käsittelyyn, eikä se käsittele linkkejä. Voit kuitenkin hallita niitä käyttämällä urlopen-funktiota kirjastosta urllib.request. Jotta voit aloittaa jäsentämisen, anna kaksi parametria BeautifulSoup-funktiolle: HTML-tiedosto ja jäsentäjä (käytä sisäänrakennettua html.parser-jäsentäjää). Tämä luo BeautifulSoup-olion. Esimerkiksi, avaa ja lue verkkosivu.

12345678910111213
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
copy

Ensimmäinen tutkittava metodi on .prettify(), joka näyttää HTML-tiedoston sisäkkäisenä tietorakenteena.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
copy
Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 2. Luku 1
some-alt