Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Mikä on Beautiful Soup? | HTML:n Purkaminen Beautiful Soupilla
Practice
Projects
Quizzes & Challenges
Quizzes
Challenges
/
Web Scraping Pythonilla

bookMikä on Beautiful Soup?

BeautifulSoup on Python-kirjasto, joka tarjoaa laajat ominaisuudet HTML-sivujen jäsentämiseen. Edellisessä osiossa käsittelit HTML:ää merkkijonona, mikä aiheutti merkittäviä rajoituksia.

Asentaaksesi BeautifulSoup-kirjaston, suorita seuraava komento terminaalissa tai komentokehotteessa:

  • pip install beautifulsoup4;
  • Aloittaaksesi, tuo BeautifulSoup bs4-kirjastosta:

from bs4 import BeautifulSoup.

123
# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
copy

Tämä kirjasto on suunniteltu HTML-tiedostojen käsittelyyn, eikä se käsittele linkkejä. Voit kuitenkin hallita tätä käyttämällä urlopen-funktiota kirjastosta urllib.request. Jotta voit aloittaa jäsentämisen, anna kaksi parametria BeautifulSoup-funktiolle: HTML-tiedosto ja jäsentäjä (käytä sisäänrakennettua html.parser-jäsentäjää). Tämä luo BeautifulSoup-olion. Esimerkiksi avaa ja lue verkkosivu.

12345678910111213
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
copy

Ensimmäinen tutkittava metodi on .prettify(), joka näyttää HTML-tiedoston sisennettynä tietorakenteena.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
copy
Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 2. Luku 1

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

bookMikä on Beautiful Soup?

Pyyhkäise näyttääksesi valikon

BeautifulSoup on Python-kirjasto, joka tarjoaa laajat ominaisuudet HTML-sivujen jäsentämiseen. Edellisessä osiossa käsittelit HTML:ää merkkijonona, mikä aiheutti merkittäviä rajoituksia.

Asentaaksesi BeautifulSoup-kirjaston, suorita seuraava komento terminaalissa tai komentokehotteessa:

  • pip install beautifulsoup4;
  • Aloittaaksesi, tuo BeautifulSoup bs4-kirjastosta:

from bs4 import BeautifulSoup.

123
# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
copy

Tämä kirjasto on suunniteltu HTML-tiedostojen käsittelyyn, eikä se käsittele linkkejä. Voit kuitenkin hallita tätä käyttämällä urlopen-funktiota kirjastosta urllib.request. Jotta voit aloittaa jäsentämisen, anna kaksi parametria BeautifulSoup-funktiolle: HTML-tiedosto ja jäsentäjä (käytä sisäänrakennettua html.parser-jäsentäjää). Tämä luo BeautifulSoup-olion. Esimerkiksi avaa ja lue verkkosivu.

12345678910111213
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
copy

Ensimmäinen tutkittava metodi on .prettify(), joka näyttää HTML-tiedoston sisennettynä tietorakenteena.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
copy
Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 2. Luku 1
some-alt