Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lära Vad är Beautiful Soup? | Avkoda HTML med Beautiful Soup
Web Scraping med Python

bookVad är Beautiful Soup?

BeautifulSoup är ett python-bibliotek som erbjuder omfattande funktionalitet för att parsa HTML-sidor. I föregående avsnitt arbetade du med HTML som en sträng, vilket medförde betydande begränsningar.

För att installera BeautifulSoup, kör följande kommando i din terminal eller kommandoprompt:

  • pip install beautifulsoup4;
  • För att komma igång, importera BeautifulSoup från bs4:

from bs4 import BeautifulSoup.

123
# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
copy

Detta bibliotek är utformat för att arbeta med HTML-filer och hanterar inte länkar. Du kan dock hantera detta med urlopen från urllib.request. För att börja parsa, ange två parametrar till funktionen BeautifulSoup: HTML-filen och parsern (använd den inbyggda html.parser). Detta skapar ett BeautifulSoup-objekt. Till exempel, öppna och läs en webbsida.

12345678910111213
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
copy

Den första metoden att utforska är .prettify(), som visar HTML-filen som en nästlad datastruktur.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
copy
Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 2. Kapitel 1

Fråga AI

expand

Fråga AI

ChatGPT

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Awesome!

Completion rate improved to 4.35

bookVad är Beautiful Soup?

Svep för att visa menyn

BeautifulSoup är ett python-bibliotek som erbjuder omfattande funktionalitet för att parsa HTML-sidor. I föregående avsnitt arbetade du med HTML som en sträng, vilket medförde betydande begränsningar.

För att installera BeautifulSoup, kör följande kommando i din terminal eller kommandoprompt:

  • pip install beautifulsoup4;
  • För att komma igång, importera BeautifulSoup från bs4:

from bs4 import BeautifulSoup.

123
# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
copy

Detta bibliotek är utformat för att arbeta med HTML-filer och hanterar inte länkar. Du kan dock hantera detta med urlopen från urllib.request. För att börja parsa, ange två parametrar till funktionen BeautifulSoup: HTML-filen och parsern (använd den inbyggda html.parser). Detta skapar ett BeautifulSoup-objekt. Till exempel, öppna och läs en webbsida.

12345678910111213
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
copy

Den första metoden att utforska är .prettify(), som visar HTML-filen som en nästlad datastruktur.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
copy
Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 2. Kapitel 1
some-alt