Mikä on Beautiful Soup?
BeautifulSoup on Python-kirjasto, joka tarjoaa laajat ominaisuudet HTML-sivujen jäsentämiseen. Edellisessä osiossa käsittelit HTML:ää merkkijonona, mikä asetti merkittäviä rajoituksia.
Asenna BeautifulSoup suorittamalla seuraava komento terminaalissa tai komentokehotteessa:
pip install beautifulsoup4;- Aloittaaksesi, tuo
BeautifulSoupkirjastostabs4:
from bs4 import BeautifulSoup.
123# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
Tämä kirjasto on suunniteltu HTML-tiedostojen käsittelyyn, eikä se käsittele linkkejä. Voit kuitenkin hallita niitä käyttämällä urlopen-funktiota kirjastosta urllib.request. Jotta voit aloittaa jäsentämisen, anna kaksi parametria BeautifulSoup-funktiolle: HTML-tiedosto ja jäsentäjä (käytä sisäänrakennettua html.parser-jäsentäjää). Tämä luo BeautifulSoup-olion. Esimerkiksi, avaa ja lue verkkosivu.
12345678910111213# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
Ensimmäinen tutkittava metodi on .prettify(), joka näyttää HTML-tiedoston sisäkkäisenä tietorakenteena.
123456789101112# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme
Awesome!
Completion rate improved to 4.35
Mikä on Beautiful Soup?
Pyyhkäise näyttääksesi valikon
BeautifulSoup on Python-kirjasto, joka tarjoaa laajat ominaisuudet HTML-sivujen jäsentämiseen. Edellisessä osiossa käsittelit HTML:ää merkkijonona, mikä asetti merkittäviä rajoituksia.
Asenna BeautifulSoup suorittamalla seuraava komento terminaalissa tai komentokehotteessa:
pip install beautifulsoup4;- Aloittaaksesi, tuo
BeautifulSoupkirjastostabs4:
from bs4 import BeautifulSoup.
123# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
Tämä kirjasto on suunniteltu HTML-tiedostojen käsittelyyn, eikä se käsittele linkkejä. Voit kuitenkin hallita niitä käyttämällä urlopen-funktiota kirjastosta urllib.request. Jotta voit aloittaa jäsentämisen, anna kaksi parametria BeautifulSoup-funktiolle: HTML-tiedosto ja jäsentäjä (käytä sisäänrakennettua html.parser-jäsentäjää). Tämä luo BeautifulSoup-olion. Esimerkiksi, avaa ja lue verkkosivu.
12345678910111213# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
Ensimmäinen tutkittava metodi on .prettify(), joka näyttää HTML-tiedoston sisäkkäisenä tietorakenteena.
123456789101112# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
Kiitos palautteestasi!