Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Öffnen Einer HTML-Datei | Einführung in HTML
Web Scraping Mit Python

bookÖffnen Einer HTML-Datei

Sie sind bereits mit den Grundlagen von HTML vertraut, daher lernen Sie nun die erste Methode kennen, um damit in Python zu arbeiten.

Eines der Module, das Sie zur Verarbeitung von HTML-Dateien in Python verwenden können, ist urllib.request. Sie müssen die Methode import urlopen, um auf Webseiten zuzugreifen. Geben Sie einfach die URL der gewünschten Seite als Parameter an diese Methode weiter.

1234567
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) print(page)
copy

Wie im obigen Beispiel gezeigt, ist das Ergebnis ein http.client.HTTPResponse-Objekt, was nicht die gewünschte Ausgabe ist. Um die HTML-Struktur zu erhalten, wenden Sie die Methoden .read() und .decode('utf-8') auf das erhaltene Objekt an.

Note
Definition

Der Teil decode("utf-8") wird verwendet, um die rohen Binärdaten in eine menschenlesbare Zeichenkette umzuwandeln, vorausgesetzt, dass der Inhalt der Webseite mit UTF-8 kodiert ist. Diese Umwandlung ermöglicht es, mit den Textdaten der Webseite sinnvoll zu arbeiten, beispielsweise um deren Inhalt zu parsen oder zu analysieren.

1234567891011
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") print(type(web_page)) print(web_page)
copy

Durch die Anwendung der Methoden .read() und .decode() erhältst du eine Zeichenkette. Diese Zeichenkette enthält die HTML-Struktur in gut lesbarer Form, was die Lesbarkeit erleichtert und die Anwendung von Zeichenkettenmethoden ermöglicht.

Ohne die Anwendung der Methode .decode() würdest du ein bytes-Objekt erhalten, das die gesamte HTML-Seite als eine einzige Zeichenkette mit speziellen Zeichen darstellt. Probiere es gerne aus!

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 8

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Awesome!

Completion rate improved to 4.35

bookÖffnen Einer HTML-Datei

Swipe um das Menü anzuzeigen

Sie sind bereits mit den Grundlagen von HTML vertraut, daher lernen Sie nun die erste Methode kennen, um damit in Python zu arbeiten.

Eines der Module, das Sie zur Verarbeitung von HTML-Dateien in Python verwenden können, ist urllib.request. Sie müssen die Methode import urlopen, um auf Webseiten zuzugreifen. Geben Sie einfach die URL der gewünschten Seite als Parameter an diese Methode weiter.

1234567
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) print(page)
copy

Wie im obigen Beispiel gezeigt, ist das Ergebnis ein http.client.HTTPResponse-Objekt, was nicht die gewünschte Ausgabe ist. Um die HTML-Struktur zu erhalten, wenden Sie die Methoden .read() und .decode('utf-8') auf das erhaltene Objekt an.

Note
Definition

Der Teil decode("utf-8") wird verwendet, um die rohen Binärdaten in eine menschenlesbare Zeichenkette umzuwandeln, vorausgesetzt, dass der Inhalt der Webseite mit UTF-8 kodiert ist. Diese Umwandlung ermöglicht es, mit den Textdaten der Webseite sinnvoll zu arbeiten, beispielsweise um deren Inhalt zu parsen oder zu analysieren.

1234567891011
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") print(type(web_page)) print(web_page)
copy

Durch die Anwendung der Methoden .read() und .decode() erhältst du eine Zeichenkette. Diese Zeichenkette enthält die HTML-Struktur in gut lesbarer Form, was die Lesbarkeit erleichtert und die Anwendung von Zeichenkettenmethoden ermöglicht.

Ohne die Anwendung der Methode .decode() würdest du ein bytes-Objekt erhalten, das die gesamte HTML-Seite als eine einzige Zeichenkette mit speziellen Zeichen darstellt. Probiere es gerne aus!

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 8
some-alt