Kursinhalt
Ultimatives Numpy
Ultimatives Numpy
Statistische Operationen
Das Durchführen verschiedener statistischer Operationen auf Arrays ist entscheidend für die Datenanalyse und das maschinelle Lernen. NumPy bietet Funktionen und Methoden, um diese effektiv durchzuführen.
Maße der zentralen Tendenz
Maße der zentralen Tendenz repräsentieren einen zentralen oder repräsentativen Wert innerhalb einer Wahrscheinlichkeitsverteilung. Meistens berechnen Sie diese Maße jedoch für eine bestimmte Stichprobe.
Hier sind die beiden Hauptmaße:
- Mittelwert: die Summe aller Werte geteilt durch die Gesamtanzahl der Werte;
- Median: Der mittlere Wert in einer sortierten Stichprobe.
NumPy bietet mean()
und median()
Funktionen zur Berechnung des Mittelwerts und des Medians:
import numpy as np sample = np.array([10, 25, 15, 30, 20, 10, 2]) # Calculating the mean sample_mean = np.mean(sample) print(f'Sorted sample: {np.sort(sample)}') # Calculating the median sample_median = np.median(sample) print(f'Mean: {sample_mean}, median: {sample_median}')
Wir haben auch die sortierte Stichprobe angezeigt, damit Sie den Median klar erkennen können. Unsere Stichprobe hat eine ungerade Anzahl von Elementen (7), daher ist der Median einfach das Element an der Stelle (n + 1) / 2
in der sortierten Stichprobe, wobei n
die Größe der Stichprobe ist.
Hinweis
Wenn die Stichprobe eine gerade Anzahl von Elementen hat, ist der Median der Durchschnitt der Elemente an den Stellen
n / 2
undn / 2 - 1
in der sortierten Stichprobe.
import numpy as np sample = np.array([1, 2, 8, 10, 15, 20, 25, 30]) sample_median = np.median(sample) print(f'Median: {sample_median}')
Unsere Stichprobe ist bereits sortiert und hat 8 Elemente, daher ist n / 2 - 1 = 3
und sample[3]
ist 10. n / 2 = 4
und sample[4]
ist 15. Daher ist unser Median (10 + 15) / 2 = 12.5
.
Streuungsmaße
Zwei Streuungsmaße sind Varianz und Standardabweichung. Varianz misst, wie weit die Daten gestreut sind. Sie entspricht dem Durchschnitt der quadrierten Abweichungen jedes Wertes vom Mittelwert.
Die Standardabweichung ist die Quadratwurzel der Varianz. Sie bietet ein Maß dafür, wie weit die Daten in denselben Einheiten wie die Daten gestreut sind.
NumPy hat die Funktion var()
, um die Varianz der Stichprobe zu berechnen, und die Funktion std()
, um die Standardabweichung der Stichprobe zu berechnen:
import numpy as np sample = np.array([10, 25, 15, 30, 20, 10, 2]) # Calculating the variance sample_variance = np.var(sample) # Calculating the standard deviation sample_std = np.std(sample) print(f'Variance: {sample_variance}, standard deviation: {sample_std}')
Berechnungen in höherdimensionalen Arrays
Alle diese Funktionen haben einen zweiten Parameter axis
. Sein Standardwert ist None
, was bedeutet, dass das Maß entlang eines abgeflachten Arrays berechnet wird (auch wenn das ursprüngliche Array 2D oder höherdimensional ist).
Sie können auch die genaue Achse angeben, entlang der das Maß berechnet werden soll:
import numpy as np array_2d = np.array([[1, 2, 3], [4, 5, 6]]) # Calculating the mean in a flattened array print(np.mean(array_2d)) # Calculating the mean along axis 0 print(np.mean(array_2d, axis=0)) # Calculating the mean along axis 1 print(np.mean(array_2d, axis=1))
Das untenstehende Bild zeigt die Struktur des exam_scores
Arrays, das in der Aufgabe verwendet wird:
Swipe to start coding
Sie analysieren das exam_scores
Array, ein 2D-Array mit simulierten Testergebnissen für 5 Schüler (5 Spalten) in 2 verschiedenen Prüfungen (2 Zeilen).
-
Berechnen Sie den Durchschnittswert für jede Prüfung, indem Sie das zweite Schlüsselwortargument angeben.
-
Berechnen Sie den Median aller Ergebnisse.
-
Berechnen Sie die Varianz aller Ergebnisse.
-
Berechnen Sie die Standardabweichung aller Ergebnisse.
Lösung
Danke für Ihr Feedback!
Statistische Operationen
Das Durchführen verschiedener statistischer Operationen auf Arrays ist entscheidend für die Datenanalyse und das maschinelle Lernen. NumPy bietet Funktionen und Methoden, um diese effektiv durchzuführen.
Maße der zentralen Tendenz
Maße der zentralen Tendenz repräsentieren einen zentralen oder repräsentativen Wert innerhalb einer Wahrscheinlichkeitsverteilung. Meistens berechnen Sie diese Maße jedoch für eine bestimmte Stichprobe.
Hier sind die beiden Hauptmaße:
- Mittelwert: die Summe aller Werte geteilt durch die Gesamtanzahl der Werte;
- Median: Der mittlere Wert in einer sortierten Stichprobe.
NumPy bietet mean()
und median()
Funktionen zur Berechnung des Mittelwerts und des Medians:
import numpy as np sample = np.array([10, 25, 15, 30, 20, 10, 2]) # Calculating the mean sample_mean = np.mean(sample) print(f'Sorted sample: {np.sort(sample)}') # Calculating the median sample_median = np.median(sample) print(f'Mean: {sample_mean}, median: {sample_median}')
Wir haben auch die sortierte Stichprobe angezeigt, damit Sie den Median klar erkennen können. Unsere Stichprobe hat eine ungerade Anzahl von Elementen (7), daher ist der Median einfach das Element an der Stelle (n + 1) / 2
in der sortierten Stichprobe, wobei n
die Größe der Stichprobe ist.
Hinweis
Wenn die Stichprobe eine gerade Anzahl von Elementen hat, ist der Median der Durchschnitt der Elemente an den Stellen
n / 2
undn / 2 - 1
in der sortierten Stichprobe.
import numpy as np sample = np.array([1, 2, 8, 10, 15, 20, 25, 30]) sample_median = np.median(sample) print(f'Median: {sample_median}')
Unsere Stichprobe ist bereits sortiert und hat 8 Elemente, daher ist n / 2 - 1 = 3
und sample[3]
ist 10. n / 2 = 4
und sample[4]
ist 15. Daher ist unser Median (10 + 15) / 2 = 12.5
.
Streuungsmaße
Zwei Streuungsmaße sind Varianz und Standardabweichung. Varianz misst, wie weit die Daten gestreut sind. Sie entspricht dem Durchschnitt der quadrierten Abweichungen jedes Wertes vom Mittelwert.
Die Standardabweichung ist die Quadratwurzel der Varianz. Sie bietet ein Maß dafür, wie weit die Daten in denselben Einheiten wie die Daten gestreut sind.
NumPy hat die Funktion var()
, um die Varianz der Stichprobe zu berechnen, und die Funktion std()
, um die Standardabweichung der Stichprobe zu berechnen:
import numpy as np sample = np.array([10, 25, 15, 30, 20, 10, 2]) # Calculating the variance sample_variance = np.var(sample) # Calculating the standard deviation sample_std = np.std(sample) print(f'Variance: {sample_variance}, standard deviation: {sample_std}')
Berechnungen in höherdimensionalen Arrays
Alle diese Funktionen haben einen zweiten Parameter axis
. Sein Standardwert ist None
, was bedeutet, dass das Maß entlang eines abgeflachten Arrays berechnet wird (auch wenn das ursprüngliche Array 2D oder höherdimensional ist).
Sie können auch die genaue Achse angeben, entlang der das Maß berechnet werden soll:
import numpy as np array_2d = np.array([[1, 2, 3], [4, 5, 6]]) # Calculating the mean in a flattened array print(np.mean(array_2d)) # Calculating the mean along axis 0 print(np.mean(array_2d, axis=0)) # Calculating the mean along axis 1 print(np.mean(array_2d, axis=1))
Das untenstehende Bild zeigt die Struktur des exam_scores
Arrays, das in der Aufgabe verwendet wird:
Swipe to start coding
Sie analysieren das exam_scores
Array, ein 2D-Array mit simulierten Testergebnissen für 5 Schüler (5 Spalten) in 2 verschiedenen Prüfungen (2 Zeilen).
-
Berechnen Sie den Durchschnittswert für jede Prüfung, indem Sie das zweite Schlüsselwortargument angeben.
-
Berechnen Sie den Median aller Ergebnisse.
-
Berechnen Sie die Varianz aller Ergebnisse.
-
Berechnen Sie die Standardabweichung aller Ergebnisse.
Lösung
Danke für Ihr Feedback!