Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Merkkijonomenetelmien Soveltaminen | Getting Acquainted with HTML
Web Scraping Pythonilla

bookMerkkijonomenetelmien Soveltaminen

Mitä voit tehdä lukemallasi sivulla? Koska se on merkkijono, voit käyttää mitä tahansa merkkijonometodia. Esimerkiksi .find()-metodi palauttaa tietyn alkion ensimmäisen esiintymän indeksin. Voit käyttää sitä sivun otsikon paikantamiseen etsimällä avaus- ja sulkutunnisteiden indeksit ja huomioimalla sulkutunnisteen pituuden.

1234567891011121314
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") # Indexes of opening and closing title tags start = web_page.find("<title") finish = web_page.find("</title>") + len("</title>") print(web_page[start:finish])
copy

Kuten yllä olevassa esimerkissä näkyy, luotiin kaksi muuttujaa, start ja finish. Muuttuja start tallentaa avaus-<title>-tunnisteen ensimmäisen merkin indeksin, kun taas muuttuja finish tallentaa indeksin merkille, joka on heti sulkevan </title>-tunnisteen jälkeen. .find()-metodi palauttaa sulkutunnisteen aloitusindeksin, joten tunnisteen pituus lisätään lopullisen sijainnin saamiseksi.

Note
Lisätietoa

Listan viipalointi jättää viimeisen alkion pois, minkä vuoksi seuraavaa merkkiä sulkevan tunnisteen jälkeen käytetään.

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 1. Luku 10

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Suggested prompts:

Can you explain how the .find() method works in more detail?

What other string methods can I use to process the web page content?

Can you show how to extract just the text inside the <title> tags?

Awesome!

Completion rate improved to 4.35

bookMerkkijonomenetelmien Soveltaminen

Pyyhkäise näyttääksesi valikon

Mitä voit tehdä lukemallasi sivulla? Koska se on merkkijono, voit käyttää mitä tahansa merkkijonometodia. Esimerkiksi .find()-metodi palauttaa tietyn alkion ensimmäisen esiintymän indeksin. Voit käyttää sitä sivun otsikon paikantamiseen etsimällä avaus- ja sulkutunnisteiden indeksit ja huomioimalla sulkutunnisteen pituuden.

1234567891011121314
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") # Indexes of opening and closing title tags start = web_page.find("<title") finish = web_page.find("</title>") + len("</title>") print(web_page[start:finish])
copy

Kuten yllä olevassa esimerkissä näkyy, luotiin kaksi muuttujaa, start ja finish. Muuttuja start tallentaa avaus-<title>-tunnisteen ensimmäisen merkin indeksin, kun taas muuttuja finish tallentaa indeksin merkille, joka on heti sulkevan </title>-tunnisteen jälkeen. .find()-metodi palauttaa sulkutunnisteen aloitusindeksin, joten tunnisteen pituus lisätään lopullisen sijainnin saamiseksi.

Note
Lisätietoa

Listan viipalointi jättää viimeisen alkion pois, minkä vuoksi seuraavaa merkkiä sulkevan tunnisteen jälkeen käytetään.

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 1. Luku 10
some-alt