Vad är Beautiful Soup?
BeautifulSoup är ett python-bibliotek som erbjuder omfattande funktionalitet för att parsa HTML-sidor. I föregående avsnitt arbetade du med HTML som en sträng, vilket medförde betydande begränsningar.
För att installera BeautifulSoup, kör följande kommando i din terminal eller kommandoprompt:
pip install beautifulsoup4;- För att komma igång, importera
BeautifulSoupfrånbs4:
from bs4 import BeautifulSoup.
123# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
Detta bibliotek är utformat för att arbeta med HTML-filer och hanterar inte länkar. Du kan dock hantera detta med urlopen från urllib.request. För att börja parsa, ange två parametrar till funktionen BeautifulSoup: HTML-filen och parsern (använd den inbyggda html.parser). Detta skapar ett BeautifulSoup-objekt. Till exempel, öppna och läs en webbsida.
12345678910111213# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
Den första metoden att utforska är .prettify(), som visar HTML-filen som en nästlad datastruktur.
123456789101112# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
Tack för dina kommentarer!
Fråga AI
Fråga AI
Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal
Awesome!
Completion rate improved to 4.35
Vad är Beautiful Soup?
Svep för att visa menyn
BeautifulSoup är ett python-bibliotek som erbjuder omfattande funktionalitet för att parsa HTML-sidor. I föregående avsnitt arbetade du med HTML som en sträng, vilket medförde betydande begränsningar.
För att installera BeautifulSoup, kör följande kommando i din terminal eller kommandoprompt:
pip install beautifulsoup4;- För att komma igång, importera
BeautifulSoupfrånbs4:
from bs4 import BeautifulSoup.
123# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
Detta bibliotek är utformat för att arbeta med HTML-filer och hanterar inte länkar. Du kan dock hantera detta med urlopen från urllib.request. För att börja parsa, ange två parametrar till funktionen BeautifulSoup: HTML-filen och parsern (använd den inbyggda html.parser). Detta skapar ett BeautifulSoup-objekt. Till exempel, öppna och läs en webbsida.
12345678910111213# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
Den första metoden att utforska är .prettify(), som visar HTML-filen som en nästlad datastruktur.
123456789101112# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
Tack för dina kommentarer!