Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Leer Omgaan met Duplicaten en Uitschieters | Essentiële Gegevensopschoning
Data Preprocessing en Feature Engineering

bookOmgaan met Duplicaten en Uitschieters

Bij het werken met echte datasets komt u vaak dubbele records en uitschieters tegen. Beide kunnen een aanzienlijke invloed hebben op uw data-analyse en de prestaties van uw machine learning-modellen. Duplicaten kunnen het belang van bepaalde patronen kunstmatig vergroten, wat leidt tot bevooroordeelde resultaten, terwijl uitschieters statistische samenvattingen en modelvoorspellingen kunnen verstoren. Het correct identificeren en behandelen van deze kwesties is een essentieel onderdeel van het opschonen van data.

1234567891011121314151617
import pandas as pd import seaborn as sns # Load the Titanic dataset from seaborn df = sns.load_dataset("titanic") # Find duplicate rows in the Titanic dataset duplicates = df.duplicated() print("Duplicate row indicators:") print(duplicates.value_counts()) # Show how many duplicates exist # Remove duplicate rows df_no_duplicates = df.drop_duplicates() print("\nNumber of rows before removing duplicates:") print(len(df)) print("Number of rows after removing duplicates:") print(len(df_no_duplicates))
copy
Note
Definitie

Uitschieters zijn datapunten die aanzienlijk afwijken van de meerderheid van een dataset. Veelgebruikte methoden om uitschieters te detecteren zijn visualisaties (zoals boxplots), statistische maten (zoals Z-score), en de interkwartielafstand (IQR)-methode.

Z-score en interkwartielafstand (IQR) zijn twee veelgebruikte statistische maten om uitschieters in een dataset te identificeren:

  • Z-score:
    • Meet hoeveel standaarddeviaties een datapunt van het gemiddelde afligt;
    • Een Z-score wordt berekend met de formule: (waarde - gemiddelde) / standaarddeviatie;
    • Datapunten met een Z-score groter dan 3 of kleiner dan -3 worden vaak als uitschieter beschouwd, omdat ze ver van de gemiddelde waarde liggen.
  • Interkwartielafstand (IQR):
    • Geeft het bereik weer tussen het eerste kwartiel (Q1, 25e percentiel) en het derde kwartiel (Q3, 75e percentiel);
    • De IQR wordt berekend als Q3 - Q1;
    • Uitschieters worden doorgaans gedefinieerd als datapunten onder Q1 - 1.5 * IQR of boven Q3 + 1.5 * IQR, wat betekent dat ze buiten de typische spreiding van de centrale 50% van de data vallen.

Beide methoden helpen bij het meten van de afwijking van waarden ten opzichte van het verwachte bereik. Z-score richt zich op de afstand tot het gemiddelde, terwijl IQR waarden buiten het centrale deel van de dataset identificeert.

12345678910111213141516171819202122
import seaborn as sns import pandas as pd # Load the Titanic dataset from seaborn df = sns.load_dataset("titanic") # Drop rows with missing 'fare' values df_fare = df.dropna(subset=["fare"]) # Calculate Q1 and Q3 for the 'fare' column Q1 = df_fare["fare"].quantile(0.25) Q3 = df_fare["fare"].quantile(0.75) IQR = Q3 - Q1 # Define outlier bounds lower_bound = Q1 - 1.5 * IQR upper_bound = Q3 + 1.5 * IQR # Detect outliers in 'fare' outliers = df_fare[(df_fare["fare"] < lower_bound) | (df_fare["fare"] > upper_bound)] print("Outliers detected in 'fare' using IQR method:") print(outliers[["fare"]])
copy
Note
Opmerking

Bij het omgaan met uitschieters kan ervoor gekozen worden deze te verwijderen of te transformeren (bijvoorbeeld door extreme waarden af te kappen of een log-transformatie toe te passen). De beste aanpak hangt af van de dataset en de doelstellingen van de analyse.

question mark

Welke van de volgende uitspraken zijn waar over het omgaan met duplicaten en uitschieters in een dataset?

Select the correct answer

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 1. Hoofdstuk 3

Vraag AI

expand

Vraag AI

ChatGPT

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Awesome!

Completion rate improved to 8.33

bookOmgaan met Duplicaten en Uitschieters

Veeg om het menu te tonen

Bij het werken met echte datasets komt u vaak dubbele records en uitschieters tegen. Beide kunnen een aanzienlijke invloed hebben op uw data-analyse en de prestaties van uw machine learning-modellen. Duplicaten kunnen het belang van bepaalde patronen kunstmatig vergroten, wat leidt tot bevooroordeelde resultaten, terwijl uitschieters statistische samenvattingen en modelvoorspellingen kunnen verstoren. Het correct identificeren en behandelen van deze kwesties is een essentieel onderdeel van het opschonen van data.

1234567891011121314151617
import pandas as pd import seaborn as sns # Load the Titanic dataset from seaborn df = sns.load_dataset("titanic") # Find duplicate rows in the Titanic dataset duplicates = df.duplicated() print("Duplicate row indicators:") print(duplicates.value_counts()) # Show how many duplicates exist # Remove duplicate rows df_no_duplicates = df.drop_duplicates() print("\nNumber of rows before removing duplicates:") print(len(df)) print("Number of rows after removing duplicates:") print(len(df_no_duplicates))
copy
Note
Definitie

Uitschieters zijn datapunten die aanzienlijk afwijken van de meerderheid van een dataset. Veelgebruikte methoden om uitschieters te detecteren zijn visualisaties (zoals boxplots), statistische maten (zoals Z-score), en de interkwartielafstand (IQR)-methode.

Z-score en interkwartielafstand (IQR) zijn twee veelgebruikte statistische maten om uitschieters in een dataset te identificeren:

  • Z-score:
    • Meet hoeveel standaarddeviaties een datapunt van het gemiddelde afligt;
    • Een Z-score wordt berekend met de formule: (waarde - gemiddelde) / standaarddeviatie;
    • Datapunten met een Z-score groter dan 3 of kleiner dan -3 worden vaak als uitschieter beschouwd, omdat ze ver van de gemiddelde waarde liggen.
  • Interkwartielafstand (IQR):
    • Geeft het bereik weer tussen het eerste kwartiel (Q1, 25e percentiel) en het derde kwartiel (Q3, 75e percentiel);
    • De IQR wordt berekend als Q3 - Q1;
    • Uitschieters worden doorgaans gedefinieerd als datapunten onder Q1 - 1.5 * IQR of boven Q3 + 1.5 * IQR, wat betekent dat ze buiten de typische spreiding van de centrale 50% van de data vallen.

Beide methoden helpen bij het meten van de afwijking van waarden ten opzichte van het verwachte bereik. Z-score richt zich op de afstand tot het gemiddelde, terwijl IQR waarden buiten het centrale deel van de dataset identificeert.

12345678910111213141516171819202122
import seaborn as sns import pandas as pd # Load the Titanic dataset from seaborn df = sns.load_dataset("titanic") # Drop rows with missing 'fare' values df_fare = df.dropna(subset=["fare"]) # Calculate Q1 and Q3 for the 'fare' column Q1 = df_fare["fare"].quantile(0.25) Q3 = df_fare["fare"].quantile(0.75) IQR = Q3 - Q1 # Define outlier bounds lower_bound = Q1 - 1.5 * IQR upper_bound = Q3 + 1.5 * IQR # Detect outliers in 'fare' outliers = df_fare[(df_fare["fare"] < lower_bound) | (df_fare["fare"] > upper_bound)] print("Outliers detected in 'fare' using IQR method:") print(outliers[["fare"]])
copy
Note
Opmerking

Bij het omgaan met uitschieters kan ervoor gekozen worden deze te verwijderen of te transformeren (bijvoorbeeld door extreme waarden af te kappen of een log-transformatie toe te passen). De beste aanpak hangt af van de dataset en de doelstellingen van de analyse.

question mark

Welke van de volgende uitspraken zijn waar over het omgaan met duplicaten en uitschieters in een dataset?

Select the correct answer

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 1. Hoofdstuk 3
some-alt