Was ist Beautiful Soup?
BeautifulSoup ist eine Python-Bibliothek, die umfangreiche Funktionen zum Parsen von HTML-Seiten bietet. Im vorherigen Abschnitt haben Sie mit HTML als Zeichenkette gearbeitet, was erhebliche Einschränkungen mit sich brachte.
Um BeautifulSoup zu installieren, führen Sie den folgenden Befehl in Ihrem Terminal oder der Eingabeaufforderung aus:
pip install beautifulsoup4;- Zum Einstieg importieren Sie
BeautifulSoupausbs4:
from bs4 import BeautifulSoup.
123# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
Diese Bibliothek ist für die Arbeit mit HTML-Dateien konzipiert und verarbeitet keine Links. Sie können dies jedoch mit urlopen aus urllib.request steuern. Um mit dem Parsen zu beginnen, geben Sie der Funktion BeautifulSoup zwei Parameter: die HTML-Datei und den Parser (verwenden Sie den integrierten html.parser). Dadurch wird ein BeautifulSoup-Objekt erstellt. Zum Beispiel eine Webseite öffnen und lesen.
12345678910111213# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
Die erste Methode, die untersucht werden soll, ist .prettify(), die die HTML-Datei als verschachtelte Datenstruktur anzeigt.
123456789101112# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
Danke für Ihr Feedback!
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen
What does the .prettify() method do in BeautifulSoup?
Can you explain how to use BeautifulSoup to parse HTML?
What are some other useful methods in BeautifulSoup?
Awesome!
Completion rate improved to 4.35
Was ist Beautiful Soup?
Swipe um das Menü anzuzeigen
BeautifulSoup ist eine Python-Bibliothek, die umfangreiche Funktionen zum Parsen von HTML-Seiten bietet. Im vorherigen Abschnitt haben Sie mit HTML als Zeichenkette gearbeitet, was erhebliche Einschränkungen mit sich brachte.
Um BeautifulSoup zu installieren, führen Sie den folgenden Befehl in Ihrem Terminal oder der Eingabeaufforderung aus:
pip install beautifulsoup4;- Zum Einstieg importieren Sie
BeautifulSoupausbs4:
from bs4 import BeautifulSoup.
123# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
Diese Bibliothek ist für die Arbeit mit HTML-Dateien konzipiert und verarbeitet keine Links. Sie können dies jedoch mit urlopen aus urllib.request steuern. Um mit dem Parsen zu beginnen, geben Sie der Funktion BeautifulSoup zwei Parameter: die HTML-Datei und den Parser (verwenden Sie den integrierten html.parser). Dadurch wird ein BeautifulSoup-Objekt erstellt. Zum Beispiel eine Webseite öffnen und lesen.
12345678910111213# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
Die erste Methode, die untersucht werden soll, ist .prettify(), die die HTML-Datei als verschachtelte Datenstruktur anzeigt.
123456789101112# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
Danke für Ihr Feedback!