Operazioni Statistiche
Eseguire varie operazioni statistiche sugli array è fondamentale per l’analisi dei dati e il machine learning. NumPy offre funzioni e metodi per eseguirle in modo efficace.
Misure di tendenza centrale
Le misure di tendenza centrale rappresentano un valore centrale o rappresentativo all’interno di una distribuzione di probabilità. Nella maggior parte dei casi, tuttavia, queste misure vengono calcolate su un determinato campione.
Ecco le due principali misure:
- Media: la somma di tutti i valori divisa per il numero totale di valori;
- Mediana: il valore centrale in un campione ordinato.
NumPy fornisce le funzioni mean() e median() per calcolare rispettivamente la media e la mediana:
12345678import numpy as np sample = np.array([10, 25, 15, 30, 20, 10, 2]) # Calculating the mean sample_mean = np.mean(sample) print(f'Sorted sample: {np.sort(sample)}') # Calculating the median sample_median = np.median(sample) print(f'Mean: {sample_mean}, median: {sample_median}')
Abbiamo anche visualizzato il campione ordinato così puoi vedere chiaramente la mediana. Il nostro campione ha un numero dispari di elementi (7), quindi la mediana è semplicemente l'elemento all'indice (n + 1) / 2 nel campione ordinato, dove n è la dimensione del campione.
Quando il campione ha un numero pari di elementi, la mediana è la media degli elementi agli indici n / 2 e n / 2 - 1 nel campione ordinato.
1234import numpy as np sample = np.array([1, 2, 8, 10, 15, 20, 25, 30]) sample_median = np.median(sample) print(f'Median: {sample_median}')
Il nostro campione è già ordinato e ha 8 elementi, quindi n / 2 - 1 = 3 e sample[3] è 10. n / 2 = 4 e sample[4] è 15. Pertanto, la nostra mediana è (10 + 15) / 2 = 12.5.
Misure di dispersione
Due misure di dispersione sono la varianza e la deviazione standard. La varianza misura quanto i dati sono dispersi. È pari alla media delle differenze al quadrato di ciascun valore rispetto alla media.
La deviazione standard è la radice quadrata della varianza. Fornisce una misura della dispersione dei dati nelle stesse unità dei dati.
NumPy dispone della funzione var() per calcolare la varianza del campione e della funzione std() per calcolare la deviazione standard del campione:
1234567import numpy as np sample = np.array([10, 25, 15, 30, 20, 10, 2]) # Calculating the variance sample_variance = np.var(sample) # Calculating the standard deviation sample_std = np.std(sample) print(f'Variance: {sample_variance}, standard deviation: {sample_std}')
Calcoli su array multidimensionali
Tutte queste funzioni hanno un secondo parametro axis. Il suo valore predefinito è None, il che significa che la misura verrà calcolata su un array appiattito (anche se l'array originale è bidimensionale o di dimensione superiore).
È anche possibile specificare l'esatto asse lungo il quale calcolare la misura:
12345678import numpy as np array_2d = np.array([[1, 2, 3], [4, 5, 6]]) # Calculating the mean in a flattened array print(np.mean(array_2d)) # Calculating the mean along axis 0 print(np.mean(array_2d, axis=0)) # Calculating the mean along axis 1 print(np.mean(array_2d, axis=1))
L'immagine sottostante mostra la struttura dell'array exam_scores utilizzato nell'esercizio:
Swipe to start coding
Stai analizzando l'array exam_scores, un array 2D di punteggi simulati per 2 studenti (2 righe) in 5 diversi esami (5 colonne).
- Calcola il punteggio medio per ogni studente specificando il secondo argomento keyword.
- Calcola la mediana di tutti i punteggi.
- Calcola la varianza di tutti i punteggi.
- Calcola la deviazione standard di tutti i punteggi.
Soluzione
Grazie per i tuoi commenti!
single
Chieda ad AI
Chieda ad AI
Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione
Awesome!
Completion rate improved to 3.7
Operazioni Statistiche
Scorri per mostrare il menu
Eseguire varie operazioni statistiche sugli array è fondamentale per l’analisi dei dati e il machine learning. NumPy offre funzioni e metodi per eseguirle in modo efficace.
Misure di tendenza centrale
Le misure di tendenza centrale rappresentano un valore centrale o rappresentativo all’interno di una distribuzione di probabilità. Nella maggior parte dei casi, tuttavia, queste misure vengono calcolate su un determinato campione.
Ecco le due principali misure:
- Media: la somma di tutti i valori divisa per il numero totale di valori;
- Mediana: il valore centrale in un campione ordinato.
NumPy fornisce le funzioni mean() e median() per calcolare rispettivamente la media e la mediana:
12345678import numpy as np sample = np.array([10, 25, 15, 30, 20, 10, 2]) # Calculating the mean sample_mean = np.mean(sample) print(f'Sorted sample: {np.sort(sample)}') # Calculating the median sample_median = np.median(sample) print(f'Mean: {sample_mean}, median: {sample_median}')
Abbiamo anche visualizzato il campione ordinato così puoi vedere chiaramente la mediana. Il nostro campione ha un numero dispari di elementi (7), quindi la mediana è semplicemente l'elemento all'indice (n + 1) / 2 nel campione ordinato, dove n è la dimensione del campione.
Quando il campione ha un numero pari di elementi, la mediana è la media degli elementi agli indici n / 2 e n / 2 - 1 nel campione ordinato.
1234import numpy as np sample = np.array([1, 2, 8, 10, 15, 20, 25, 30]) sample_median = np.median(sample) print(f'Median: {sample_median}')
Il nostro campione è già ordinato e ha 8 elementi, quindi n / 2 - 1 = 3 e sample[3] è 10. n / 2 = 4 e sample[4] è 15. Pertanto, la nostra mediana è (10 + 15) / 2 = 12.5.
Misure di dispersione
Due misure di dispersione sono la varianza e la deviazione standard. La varianza misura quanto i dati sono dispersi. È pari alla media delle differenze al quadrato di ciascun valore rispetto alla media.
La deviazione standard è la radice quadrata della varianza. Fornisce una misura della dispersione dei dati nelle stesse unità dei dati.
NumPy dispone della funzione var() per calcolare la varianza del campione e della funzione std() per calcolare la deviazione standard del campione:
1234567import numpy as np sample = np.array([10, 25, 15, 30, 20, 10, 2]) # Calculating the variance sample_variance = np.var(sample) # Calculating the standard deviation sample_std = np.std(sample) print(f'Variance: {sample_variance}, standard deviation: {sample_std}')
Calcoli su array multidimensionali
Tutte queste funzioni hanno un secondo parametro axis. Il suo valore predefinito è None, il che significa che la misura verrà calcolata su un array appiattito (anche se l'array originale è bidimensionale o di dimensione superiore).
È anche possibile specificare l'esatto asse lungo il quale calcolare la misura:
12345678import numpy as np array_2d = np.array([[1, 2, 3], [4, 5, 6]]) # Calculating the mean in a flattened array print(np.mean(array_2d)) # Calculating the mean along axis 0 print(np.mean(array_2d, axis=0)) # Calculating the mean along axis 1 print(np.mean(array_2d, axis=1))
L'immagine sottostante mostra la struttura dell'array exam_scores utilizzato nell'esercizio:
Swipe to start coding
Stai analizzando l'array exam_scores, un array 2D di punteggi simulati per 2 studenti (2 righe) in 5 diversi esami (5 colonne).
- Calcola il punteggio medio per ogni studente specificando il secondo argomento keyword.
- Calcola la mediana di tutti i punteggi.
- Calcola la varianza di tutti i punteggi.
- Calcola la deviazione standard di tutti i punteggi.
Soluzione
Grazie per i tuoi commenti!
single