Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Kaksoiskappaleiden ja Poikkeavien Arvojen Käsittely | Datan Puhdistuksen Perusteet
Datan Esikäsittely ja Ominaisuuksien Rakentaminen

bookKaksoiskappaleiden ja Poikkeavien Arvojen Käsittely

Työskenneltäessä reaalimaailman tietoaineistojen kanssa kohdataan usein päällekkäisiä tietueita ja poikkeavia havaintoja. Molemmat voivat vaikuttaa merkittävästi data-analyysiin ja koneoppimismallien suorituskykyyn. Päällekkäiset tietueet voivat keinotekoisesti korostaa tiettyjä ilmiöitä ja johtaa harhaisiin tuloksiin, kun taas poikkeavat havainnot voivat vääristää tilastollisia yhteenvetoja ja mallien ennusteita. Näiden ongelmien asianmukainen tunnistaminen ja käsittely on olennainen osa datan puhdistusta.

1234567891011121314151617
import pandas as pd import seaborn as sns # Load the Titanic dataset from seaborn df = sns.load_dataset("titanic") # Find duplicate rows in the Titanic dataset duplicates = df.duplicated() print("Duplicate row indicators:") print(duplicates.value_counts()) # Show how many duplicates exist # Remove duplicate rows df_no_duplicates = df.drop_duplicates() print("\nNumber of rows before removing duplicates:") print(len(df)) print("Number of rows after removing duplicates:") print(len(df_no_duplicates))
copy
Note
Määritelmä

Poikkeavat havainnot ovat datapisteitä, jotka poikkeavat merkittävästi aineiston enemmistöstä. Yleisiä menetelmiä poikkeamien tunnistamiseen ovat visualisoinnit (kuten laatikkokaaviot), tilastolliset mittarit (esimerkiksi Z-score) sekä kvartiiliväliin (IQR) perustuva menetelmä.

Z-score ja interkvartiiliväli (IQR) ovat kaksi yleistä tilastollista mittaria, joita käytetään poikkeavien arvojen tunnistamiseen aineistossa:

  • Z-score:
    • Mittaa, kuinka monta keskihajontaa havainto poikkeaa keskiarvosta;
    • Z-score lasketaan kaavalla: (arvo - keskiarvo) / keskihajonta;
    • Havaintoja, joiden Z-score on suurempi kuin 3 tai pienempi kuin -3, pidetään usein poikkeavina, koska ne ovat kaukana keskiarvosta.
  • Interkvartiiliväli (IQR):
    • Kuvaa välin ensimmäisen kvartiilin (Q1, 25. prosenttipiste) ja kolmannen kvartiilin (Q3, 75. prosenttipiste) välillä;
    • IQR lasketaan kaavalla Q3 - Q1;
    • Poikkeavat arvot määritellään yleensä havainnoiksi, jotka ovat alle Q1 - 1.5 * IQR tai yli Q3 + 1.5 * IQR, eli ne sijoittuvat keskimmäisen 50 %:n ulkopuolelle.

Molemmat menetelmät auttavat mittaamaan, kuinka paljon arvot poikkeavat odotetusta vaihteluvälistä. Z-score keskittyy etäisyyteen keskiarvosta, kun taas IQR tunnistaa arvot, jotka ovat aineiston keskiosan ulkopuolella.

12345678910111213141516171819202122
import seaborn as sns import pandas as pd # Load the Titanic dataset from seaborn df = sns.load_dataset("titanic") # Drop rows with missing 'fare' values df_fare = df.dropna(subset=["fare"]) # Calculate Q1 and Q3 for the 'fare' column Q1 = df_fare["fare"].quantile(0.25) Q3 = df_fare["fare"].quantile(0.75) IQR = Q3 - Q1 # Define outlier bounds lower_bound = Q1 - 1.5 * IQR upper_bound = Q3 + 1.5 * IQR # Detect outliers in 'fare' outliers = df_fare[(df_fare["fare"] < lower_bound) | (df_fare["fare"] > upper_bound)] print("Outliers detected in 'fare' using IQR method:") print(outliers[["fare"]])
copy
Note
Huomio

Poikkeavien arvojen käsittelyssä voit joko poistaa ne tai muuntaa niitä (esimerkiksi rajaamalla äärimmäisiä arvoja tai käyttämällä log-muunnosta). Paras lähestymistapa riippuu aineistostasi ja analyysin tavoitteista.

question mark

Mitkä seuraavista väittämistä pitävät paikkansa, kun käsitellään duplikaatteja ja poikkeavia arvoja aineistossa?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 1. Luku 3

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Suggested prompts:

Can you explain how to handle the outliers once they are detected?

What are some other methods for detecting outliers besides IQR and Z-score?

Can you show how to use the Z-score method to detect outliers in the Titanic dataset?

Awesome!

Completion rate improved to 8.33

bookKaksoiskappaleiden ja Poikkeavien Arvojen Käsittely

Pyyhkäise näyttääksesi valikon

Työskenneltäessä reaalimaailman tietoaineistojen kanssa kohdataan usein päällekkäisiä tietueita ja poikkeavia havaintoja. Molemmat voivat vaikuttaa merkittävästi data-analyysiin ja koneoppimismallien suorituskykyyn. Päällekkäiset tietueet voivat keinotekoisesti korostaa tiettyjä ilmiöitä ja johtaa harhaisiin tuloksiin, kun taas poikkeavat havainnot voivat vääristää tilastollisia yhteenvetoja ja mallien ennusteita. Näiden ongelmien asianmukainen tunnistaminen ja käsittely on olennainen osa datan puhdistusta.

1234567891011121314151617
import pandas as pd import seaborn as sns # Load the Titanic dataset from seaborn df = sns.load_dataset("titanic") # Find duplicate rows in the Titanic dataset duplicates = df.duplicated() print("Duplicate row indicators:") print(duplicates.value_counts()) # Show how many duplicates exist # Remove duplicate rows df_no_duplicates = df.drop_duplicates() print("\nNumber of rows before removing duplicates:") print(len(df)) print("Number of rows after removing duplicates:") print(len(df_no_duplicates))
copy
Note
Määritelmä

Poikkeavat havainnot ovat datapisteitä, jotka poikkeavat merkittävästi aineiston enemmistöstä. Yleisiä menetelmiä poikkeamien tunnistamiseen ovat visualisoinnit (kuten laatikkokaaviot), tilastolliset mittarit (esimerkiksi Z-score) sekä kvartiiliväliin (IQR) perustuva menetelmä.

Z-score ja interkvartiiliväli (IQR) ovat kaksi yleistä tilastollista mittaria, joita käytetään poikkeavien arvojen tunnistamiseen aineistossa:

  • Z-score:
    • Mittaa, kuinka monta keskihajontaa havainto poikkeaa keskiarvosta;
    • Z-score lasketaan kaavalla: (arvo - keskiarvo) / keskihajonta;
    • Havaintoja, joiden Z-score on suurempi kuin 3 tai pienempi kuin -3, pidetään usein poikkeavina, koska ne ovat kaukana keskiarvosta.
  • Interkvartiiliväli (IQR):
    • Kuvaa välin ensimmäisen kvartiilin (Q1, 25. prosenttipiste) ja kolmannen kvartiilin (Q3, 75. prosenttipiste) välillä;
    • IQR lasketaan kaavalla Q3 - Q1;
    • Poikkeavat arvot määritellään yleensä havainnoiksi, jotka ovat alle Q1 - 1.5 * IQR tai yli Q3 + 1.5 * IQR, eli ne sijoittuvat keskimmäisen 50 %:n ulkopuolelle.

Molemmat menetelmät auttavat mittaamaan, kuinka paljon arvot poikkeavat odotetusta vaihteluvälistä. Z-score keskittyy etäisyyteen keskiarvosta, kun taas IQR tunnistaa arvot, jotka ovat aineiston keskiosan ulkopuolella.

12345678910111213141516171819202122
import seaborn as sns import pandas as pd # Load the Titanic dataset from seaborn df = sns.load_dataset("titanic") # Drop rows with missing 'fare' values df_fare = df.dropna(subset=["fare"]) # Calculate Q1 and Q3 for the 'fare' column Q1 = df_fare["fare"].quantile(0.25) Q3 = df_fare["fare"].quantile(0.75) IQR = Q3 - Q1 # Define outlier bounds lower_bound = Q1 - 1.5 * IQR upper_bound = Q3 + 1.5 * IQR # Detect outliers in 'fare' outliers = df_fare[(df_fare["fare"] < lower_bound) | (df_fare["fare"] > upper_bound)] print("Outliers detected in 'fare' using IQR method:") print(outliers[["fare"]])
copy
Note
Huomio

Poikkeavien arvojen käsittelyssä voit joko poistaa ne tai muuntaa niitä (esimerkiksi rajaamalla äärimmäisiä arvoja tai käyttämällä log-muunnosta). Paras lähestymistapa riippuu aineistostasi ja analyysin tavoitteista.

question mark

Mitkä seuraavista väittämistä pitävät paikkansa, kun käsitellään duplikaatteja ja poikkeavia arvoja aineistossa?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 1. Luku 3
some-alt