Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Leer Wat is Beautiful Soup? | HTML Ontleden met Beautiful Soup
Web Scraping met Python

bookWat is Beautiful Soup?

BeautifulSoup is een Python-bibliotheek die uitgebreide functionaliteit biedt voor het parseren van HTML-pagina's. In de vorige sectie werkte je met HTML als een string, wat aanzienlijke beperkingen opleverde.

Om BeautifulSoup te installeren, voer het volgende commando uit in je terminal of opdrachtprompt:

  • pip install beautifulsoup4;
  • Om te beginnen, importeer BeautifulSoup uit bs4:

from bs4 import BeautifulSoup.

123
# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
copy

Deze bibliotheek is ontworpen voor het werken met HTML-bestanden en verwerkt geen links. Dit kan echter worden beheerd met urlopen uit urllib.request. Om te beginnen met parsen, geef twee parameters aan de functie BeautifulSoup: het HTML-bestand en de parser (gebruik de ingebouwde html.parser). Dit creëert een BeautifulSoup-object. Bijvoorbeeld, open en lees een webpagina.

12345678910111213
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
copy

De eerste methode om te verkennen is .prettify(), waarmee het HTML-bestand als een geneste datastructuur wordt weergegeven.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
copy
Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 2. Hoofdstuk 1

Vraag AI

expand

Vraag AI

ChatGPT

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Suggested prompts:

What does the .prettify() method do in BeautifulSoup?

Can you explain how to use BeautifulSoup to parse HTML?

What are some other useful methods in BeautifulSoup?

Awesome!

Completion rate improved to 4.35

bookWat is Beautiful Soup?

Veeg om het menu te tonen

BeautifulSoup is een Python-bibliotheek die uitgebreide functionaliteit biedt voor het parseren van HTML-pagina's. In de vorige sectie werkte je met HTML als een string, wat aanzienlijke beperkingen opleverde.

Om BeautifulSoup te installeren, voer het volgende commando uit in je terminal of opdrachtprompt:

  • pip install beautifulsoup4;
  • Om te beginnen, importeer BeautifulSoup uit bs4:

from bs4 import BeautifulSoup.

123
# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
copy

Deze bibliotheek is ontworpen voor het werken met HTML-bestanden en verwerkt geen links. Dit kan echter worden beheerd met urlopen uit urllib.request. Om te beginnen met parsen, geef twee parameters aan de functie BeautifulSoup: het HTML-bestand en de parser (gebruik de ingebouwde html.parser). Dit creëert een BeautifulSoup-object. Bijvoorbeeld, open en lees een webpagina.

12345678910111213
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
copy

De eerste methode om te verkennen is .prettify(), waarmee het HTML-bestand als een geneste datastructuur wordt weergegeven.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
copy
Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 2. Hoofdstuk 1
some-alt