Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Datan Valinta – Edistyneet Tekniikat | Datan Käsittely ja Puhdistus
Datan Analysointi R:llä

bookDatan Valinta – Edistyneet Tekniikat

Osaat jo valita yksittäisiä rivejä ja sarakkeita perusindeksoinnilla. Nyt on aika siirtyä pidemmälle ja tutustua siihen, miten voit valita useita rivejä ja sarakkeita sekä perus-R:llä että dplyr-paketilla. Nämä tekniikat ovat olennaisia, kun haluat keskittyä tietyn osan aineistosta tarkasteluun tai valmistella dataa jatkoanalyysia varten.

Useiden sarakkeiden valinta

Perus R

Voit valita useita sarakkeita yhdistämällä niiden sijainnit tai nimet c()-funktiolla. Tuloksena on pienempi data frame, joka sisältää vain määritetyt sarakkeet.

Sarakkeiden valinta sijaintien perusteella:

selected_data_base <- df[, c(1, 2, 3)]

Sarakkeiden valinta nimien perusteella:

selected_data_base <- df[, c("name", "selling_price", "transmission")]

dplyr

Voit käyttää select()-funktiota ja välittää sarakkeiden nimet suoraan.

selected_data_dplyr <- df %>%
  select(km_driven, fuel, transmission)

Yksittäisten arvojen indeksointi

Yksittäiseen arvoon pääsee käsiksi antamalla sekä rivin että sarakkeen numeron. Tämä on hyödyllistä yksittäisten datapisteiden tarkistamiseen tai virheenkorjaukseen.

df[1, 2]  # accesses the value in row 1, column 2

Rivien viipalointi

Joskus halutaan käsitellä vain ensimmäisiä rivejä tai tiettyjä rivejä sijainnin perusteella.

Base R

Useiden rivien valinta määrittämällä ensimmäinen ja viimeinen indeksi, joiden väliin kirjoitetaan :.

first_5_rows_base <- df[1:5, ]

dplyr

slice()-funktion käyttö ja halutun rivivälin välittäminen funktiolle.

first_5_rows_dplyr <- df %>%
  slice(1:5)
question mark

Mitä df[1:5, ] tekee?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 1. Luku 5

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Awesome!

Completion rate improved to 4

bookDatan Valinta – Edistyneet Tekniikat

Pyyhkäise näyttääksesi valikon

Osaat jo valita yksittäisiä rivejä ja sarakkeita perusindeksoinnilla. Nyt on aika siirtyä pidemmälle ja tutustua siihen, miten voit valita useita rivejä ja sarakkeita sekä perus-R:llä että dplyr-paketilla. Nämä tekniikat ovat olennaisia, kun haluat keskittyä tietyn osan aineistosta tarkasteluun tai valmistella dataa jatkoanalyysia varten.

Useiden sarakkeiden valinta

Perus R

Voit valita useita sarakkeita yhdistämällä niiden sijainnit tai nimet c()-funktiolla. Tuloksena on pienempi data frame, joka sisältää vain määritetyt sarakkeet.

Sarakkeiden valinta sijaintien perusteella:

selected_data_base <- df[, c(1, 2, 3)]

Sarakkeiden valinta nimien perusteella:

selected_data_base <- df[, c("name", "selling_price", "transmission")]

dplyr

Voit käyttää select()-funktiota ja välittää sarakkeiden nimet suoraan.

selected_data_dplyr <- df %>%
  select(km_driven, fuel, transmission)

Yksittäisten arvojen indeksointi

Yksittäiseen arvoon pääsee käsiksi antamalla sekä rivin että sarakkeen numeron. Tämä on hyödyllistä yksittäisten datapisteiden tarkistamiseen tai virheenkorjaukseen.

df[1, 2]  # accesses the value in row 1, column 2

Rivien viipalointi

Joskus halutaan käsitellä vain ensimmäisiä rivejä tai tiettyjä rivejä sijainnin perusteella.

Base R

Useiden rivien valinta määrittämällä ensimmäinen ja viimeinen indeksi, joiden väliin kirjoitetaan :.

first_5_rows_base <- df[1:5, ]

dplyr

slice()-funktion käyttö ja halutun rivivälin välittäminen funktiolle.

first_5_rows_dplyr <- df %>%
  slice(1:5)
question mark

Mitä df[1:5, ] tekee?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 1. Luku 5
some-alt