Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele HTML-Tiedoston Avaaminen | Getting Acquainted with HTML
Web Scraping Pythonilla

bookHTML-Tiedoston Avaaminen

Olet jo perehtynyt HTML-perusteisiin, joten tutustutaan nyt ensimmäiseen tapaan käsitellä sitä Pythonilla.

Yksi moduuleista, joita voit käyttää HTML-tiedostojen käsittelyyn Pythonissa, on urllib.request. Sinun tulee import urlopen-metodi päästäksesi verkkosivuille. Anna vain avattavan sivun URL tämän metodin parametrina.

1234567
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) print(page)
copy

Kuten yllä olevassa esimerkissä on esitetty, tuloksena saadaan http.client.HTTPResponse-objekti, mikä ei ole haluttu lopputulos. HTML-rakenteen saamiseksi tulee käyttää saamallesi objektille metodeja .read() ja .decode('utf-8').

Note
Määritelmä

decode("utf-8")-osaa käytetään muuntamaan raakabinaaridata ihmisen luettavaksi merkkijonoksi olettaen, että verkkosivun sisältö on koodattu UTF-8-muodossa. Tämä muunnos mahdollistaa verkkosivun tekstidatan käsittelyn merkityksellisellä tavalla, kuten sisällön jäsentämisen tai analysoinnin.

1234567891011
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") print(type(web_page)) print(web_page)
copy

Käyttämällä .read()- ja .decode()-metodeja saat merkkijonon. Tämä merkkijono sisältää HTML-rakenteen selkeästi jäsenneltynä, mikä tekee siitä helposti luettavan ja mahdollistaa merkkijonometodien käytön siihen.

Jos .decode()-metodia ei käytettäisi, saisit bytes-olion, jossa koko HTML-sivu on esitetty yhtenä merkkijonona erityisillä merkeillä. Kokeile rohkeasti itse!

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 1. Luku 8

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Awesome!

Completion rate improved to 4.35

bookHTML-Tiedoston Avaaminen

Pyyhkäise näyttääksesi valikon

Olet jo perehtynyt HTML-perusteisiin, joten tutustutaan nyt ensimmäiseen tapaan käsitellä sitä Pythonilla.

Yksi moduuleista, joita voit käyttää HTML-tiedostojen käsittelyyn Pythonissa, on urllib.request. Sinun tulee import urlopen-metodi päästäksesi verkkosivuille. Anna vain avattavan sivun URL tämän metodin parametrina.

1234567
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) print(page)
copy

Kuten yllä olevassa esimerkissä on esitetty, tuloksena saadaan http.client.HTTPResponse-objekti, mikä ei ole haluttu lopputulos. HTML-rakenteen saamiseksi tulee käyttää saamallesi objektille metodeja .read() ja .decode('utf-8').

Note
Määritelmä

decode("utf-8")-osaa käytetään muuntamaan raakabinaaridata ihmisen luettavaksi merkkijonoksi olettaen, että verkkosivun sisältö on koodattu UTF-8-muodossa. Tämä muunnos mahdollistaa verkkosivun tekstidatan käsittelyn merkityksellisellä tavalla, kuten sisällön jäsentämisen tai analysoinnin.

1234567891011
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") print(type(web_page)) print(web_page)
copy

Käyttämällä .read()- ja .decode()-metodeja saat merkkijonon. Tämä merkkijono sisältää HTML-rakenteen selkeästi jäsenneltynä, mikä tekee siitä helposti luettavan ja mahdollistaa merkkijonometodien käytön siihen.

Jos .decode()-metodia ei käytettäisi, saisit bytes-olion, jossa koko HTML-sivu on esitetty yhtenä merkkijonona erityisillä merkeillä. Kokeile rohkeasti itse!

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 1. Luku 8
some-alt