Statistiske Operasjoner
Å utføre ulike statistiske operasjoner på matriser er essensielt for dataanalyse og maskinlæring. NumPy tilbyr funksjoner og metoder for å utføre disse effektivt.
Sentralmål
Sentralmål representerer en sentral eller representativ verdi innenfor en sannsynlighetsfordeling. Som oftest beregnes disse målene for et gitt utvalg.
Her er de to viktigste sentralmålene:
- Gjennomsnitt: summen av alle verdier delt på totalt antall verdier;
- Median: Den midterste verdien i et sortert utvalg.
NumPy tilbyr funksjonene mean() og median() for å beregne henholdsvis gjennomsnitt og median:
12345678import numpy as np sample = np.array([10, 25, 15, 30, 20, 10, 2]) # Calculating the mean sample_mean = np.mean(sample) print(f'Sorted sample: {np.sort(sample)}') # Calculating the median sample_median = np.median(sample) print(f'Mean: {sample_mean}, median: {sample_median}')
Vi har også vist det sorterte utvalget slik at du tydelig kan se medianen. Utvalget vårt har et oddetall antall elementer (7), så medianen er ganske enkelt elementet på indeks (n + 1) / 2 i det sorterte utvalget, der n er størrelsen på utvalget.
Når utvalget har et partall antall elementer, er medianen gjennomsnittet av elementene på indeks n / 2 og n / 2 - 1 i det sorterte utvalget.
1234import numpy as np sample = np.array([1, 2, 8, 10, 15, 20, 25, 30]) sample_median = np.median(sample) print(f'Median: {sample_median}')
Utvalget vårt er allerede sortert og har 8 elementer, så n / 2 - 1 = 3 og sample[3] er 10. n / 2 = 4 og sample[4] er 15. Medianen vår er derfor (10 + 15) / 2 = 12.5.
Spredningsmål
To spredningsmål er varians og standardavvik. Varians måler hvor spredt dataene er. Den er lik gjennomsnittet av de kvadrerte avvikene fra gjennomsnittet.
Standardavvik er kvadratroten av variansen. Det gir et mål på hvor spredt dataene er i samme enhet som dataene.
NumPy har funksjonen var() for å beregne variansen til utvalget og funksjonen std() for å beregne standardavviket til utvalget:
1234567import numpy as np sample = np.array([10, 25, 15, 30, 20, 10, 2]) # Calculating the variance sample_variance = np.var(sample) # Calculating the standard deviation sample_std = np.std(sample) print(f'Variance: {sample_variance}, standard deviation: {sample_std}')
Beregninger i høyere-dimensjonale matriser
Alle disse funksjonene har en andre parameter axis. Standardverdien er None, noe som betyr at målingen vil bli beregnet over en utflatet matrise (selv om den opprinnelige matrisen er 2D eller høyere dimensjonal).
Du kan også spesifisere den eksakte aksen det skal beregnes over:
12345678import numpy as np array_2d = np.array([[1, 2, 3], [4, 5, 6]]) # Calculating the mean in a flattened array print(np.mean(array_2d)) # Calculating the mean along axis 0 print(np.mean(array_2d, axis=0)) # Calculating the mean along axis 1 print(np.mean(array_2d, axis=1))
Bildet under viser strukturen til exam_scores-matrisen som brukes i oppgaven:
Swipe to start coding
Du analyserer exam_scores-arrayet, et 2D-array med simulerte prøveresultater for 2 studenter (2 rader) på tvers av 5 forskjellige prøver (5 kolonner).
- Beregn gjennomsnittlig poengsum for hver student ved å spesifisere det andre nøkkelargumentet.
- Beregn medianen av alle poengsummer.
- Beregn variansen av alle poengsummer.
- Beregn standardavviket for alle poengsummer.
Løsning
Takk for tilbakemeldingene dine!
single
Spør AI
Spør AI
Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår
Can you explain how to interpret the results of the mean and median calculations?
What is the difference between variance and standard deviation in practical terms?
How does the axis parameter affect calculations on higher dimensional arrays?
Awesome!
Completion rate improved to 3.7
Statistiske Operasjoner
Sveip for å vise menyen
Å utføre ulike statistiske operasjoner på matriser er essensielt for dataanalyse og maskinlæring. NumPy tilbyr funksjoner og metoder for å utføre disse effektivt.
Sentralmål
Sentralmål representerer en sentral eller representativ verdi innenfor en sannsynlighetsfordeling. Som oftest beregnes disse målene for et gitt utvalg.
Her er de to viktigste sentralmålene:
- Gjennomsnitt: summen av alle verdier delt på totalt antall verdier;
- Median: Den midterste verdien i et sortert utvalg.
NumPy tilbyr funksjonene mean() og median() for å beregne henholdsvis gjennomsnitt og median:
12345678import numpy as np sample = np.array([10, 25, 15, 30, 20, 10, 2]) # Calculating the mean sample_mean = np.mean(sample) print(f'Sorted sample: {np.sort(sample)}') # Calculating the median sample_median = np.median(sample) print(f'Mean: {sample_mean}, median: {sample_median}')
Vi har også vist det sorterte utvalget slik at du tydelig kan se medianen. Utvalget vårt har et oddetall antall elementer (7), så medianen er ganske enkelt elementet på indeks (n + 1) / 2 i det sorterte utvalget, der n er størrelsen på utvalget.
Når utvalget har et partall antall elementer, er medianen gjennomsnittet av elementene på indeks n / 2 og n / 2 - 1 i det sorterte utvalget.
1234import numpy as np sample = np.array([1, 2, 8, 10, 15, 20, 25, 30]) sample_median = np.median(sample) print(f'Median: {sample_median}')
Utvalget vårt er allerede sortert og har 8 elementer, så n / 2 - 1 = 3 og sample[3] er 10. n / 2 = 4 og sample[4] er 15. Medianen vår er derfor (10 + 15) / 2 = 12.5.
Spredningsmål
To spredningsmål er varians og standardavvik. Varians måler hvor spredt dataene er. Den er lik gjennomsnittet av de kvadrerte avvikene fra gjennomsnittet.
Standardavvik er kvadratroten av variansen. Det gir et mål på hvor spredt dataene er i samme enhet som dataene.
NumPy har funksjonen var() for å beregne variansen til utvalget og funksjonen std() for å beregne standardavviket til utvalget:
1234567import numpy as np sample = np.array([10, 25, 15, 30, 20, 10, 2]) # Calculating the variance sample_variance = np.var(sample) # Calculating the standard deviation sample_std = np.std(sample) print(f'Variance: {sample_variance}, standard deviation: {sample_std}')
Beregninger i høyere-dimensjonale matriser
Alle disse funksjonene har en andre parameter axis. Standardverdien er None, noe som betyr at målingen vil bli beregnet over en utflatet matrise (selv om den opprinnelige matrisen er 2D eller høyere dimensjonal).
Du kan også spesifisere den eksakte aksen det skal beregnes over:
12345678import numpy as np array_2d = np.array([[1, 2, 3], [4, 5, 6]]) # Calculating the mean in a flattened array print(np.mean(array_2d)) # Calculating the mean along axis 0 print(np.mean(array_2d, axis=0)) # Calculating the mean along axis 1 print(np.mean(array_2d, axis=1))
Bildet under viser strukturen til exam_scores-matrisen som brukes i oppgaven:
Swipe to start coding
Du analyserer exam_scores-arrayet, et 2D-array med simulerte prøveresultater for 2 studenter (2 rader) på tvers av 5 forskjellige prøver (5 kolonner).
- Beregn gjennomsnittlig poengsum for hver student ved å spesifisere det andre nøkkelargumentet.
- Beregn medianen av alle poengsummer.
- Beregn variansen av alle poengsummer.
- Beregn standardavviket for alle poengsummer.
Løsning
Takk for tilbakemeldingene dine!
single