Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Was ist Beautiful Soup? | HTML-Entschlüsselung mit Beautiful Soup
Web Scraping Mit Python

bookWas ist Beautiful Soup?

BeautifulSoup ist eine Python-Bibliothek, die umfangreiche Funktionen zum Parsen von HTML-Seiten bietet. Im vorherigen Abschnitt haben Sie mit HTML als Zeichenkette gearbeitet, was erhebliche Einschränkungen mit sich brachte.

Um BeautifulSoup zu installieren, führen Sie den folgenden Befehl in Ihrem Terminal oder der Eingabeaufforderung aus:

  • pip install beautifulsoup4;
  • Zum Einstieg importieren Sie BeautifulSoup aus bs4:

from bs4 import BeautifulSoup.

123
# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
copy

Diese Bibliothek ist für die Arbeit mit HTML-Dateien konzipiert und verarbeitet keine Links. Sie können dies jedoch mit urlopen aus urllib.request steuern. Um mit dem Parsen zu beginnen, geben Sie der Funktion BeautifulSoup zwei Parameter: die HTML-Datei und den Parser (verwenden Sie den integrierten html.parser). Dadurch wird ein BeautifulSoup-Objekt erstellt. Zum Beispiel eine Webseite öffnen und lesen.

12345678910111213
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
copy

Die erste Methode, die untersucht werden soll, ist .prettify(), die die HTML-Datei als verschachtelte Datenstruktur anzeigt.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
copy
War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 2. Kapitel 1

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Suggested prompts:

What does the .prettify() method do in BeautifulSoup?

Can you explain how to use BeautifulSoup to parse HTML?

What are some other useful methods in BeautifulSoup?

Awesome!

Completion rate improved to 4.35

bookWas ist Beautiful Soup?

Swipe um das Menü anzuzeigen

BeautifulSoup ist eine Python-Bibliothek, die umfangreiche Funktionen zum Parsen von HTML-Seiten bietet. Im vorherigen Abschnitt haben Sie mit HTML als Zeichenkette gearbeitet, was erhebliche Einschränkungen mit sich brachte.

Um BeautifulSoup zu installieren, führen Sie den folgenden Befehl in Ihrem Terminal oder der Eingabeaufforderung aus:

  • pip install beautifulsoup4;
  • Zum Einstieg importieren Sie BeautifulSoup aus bs4:

from bs4 import BeautifulSoup.

123
# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
copy

Diese Bibliothek ist für die Arbeit mit HTML-Dateien konzipiert und verarbeitet keine Links. Sie können dies jedoch mit urlopen aus urllib.request steuern. Um mit dem Parsen zu beginnen, geben Sie der Funktion BeautifulSoup zwei Parameter: die HTML-Datei und den Parser (verwenden Sie den integrierten html.parser). Dadurch wird ein BeautifulSoup-Objekt erstellt. Zum Beispiel eine Webseite öffnen und lesen.

12345678910111213
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
copy

Die erste Methode, die untersucht werden soll, ist .prettify(), die die HTML-Datei als verschachtelte Datenstruktur anzeigt.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
copy
War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 2. Kapitel 1
some-alt