Operaciones Estadísticas
Realizar diversas operaciones estadísticas en arreglos es fundamental para el análisis de datos y el aprendizaje automático. NumPy proporciona funciones y métodos para llevarlas a cabo de manera eficiente.
Medidas de tendencia central
Las medidas de tendencia central representan un valor central o representativo dentro de una distribución de probabilidad. Sin embargo, la mayoría de las veces, se calculan estas medidas para una muestra determinada.
Aquí están las dos medidas principales:
- Media: la suma de todos los valores dividida por el número total de valores;
- Mediana: el valor central en una muestra ordenada.
NumPy proporciona las funciones mean() y median() para calcular la media y la mediana, respectivamente:
12345678import numpy as np sample = np.array([10, 25, 15, 30, 20, 10, 2]) # Calculating the mean sample_mean = np.mean(sample) print(f'Sorted sample: {np.sort(sample)}') # Calculating the median sample_median = np.median(sample) print(f'Mean: {sample_mean}, median: {sample_median}')
También mostramos la muestra ordenada para que puedas ver claramente la mediana. Nuestra muestra tiene un número impar de elementos (7), por lo que la mediana es simplemente el elemento en el índice (n + 1) / 2 en la muestra ordenada, donde n es el tamaño de la muestra.
Cuando la muestra tiene un número par de elementos, la mediana es el promedio de los elementos en los índices n / 2 y n / 2 - 1 en la muestra ordenada.
1234import numpy as np sample = np.array([1, 2, 8, 10, 15, 20, 25, 30]) sample_median = np.median(sample) print(f'Median: {sample_median}')
Nuestra muestra ya está ordenada y tiene 8 elementos, por lo que n / 2 - 1 = 3 y sample[3] es 10. n / 2 = 4 y sample[4] es 15. Por lo tanto, la mediana es (10 + 15) / 2 = 12.5.
Medidas de dispersión
Dos medidas de dispersión son la varianza y la desviación estándar. La varianza mide cuán dispersos están los datos. Es igual al promedio de las diferencias al cuadrado de cada valor respecto a la media.
La desviación estándar es la raíz cuadrada de la varianza. Proporciona una medida de dispersión en las mismas unidades que los datos.
NumPy tiene la función var() para calcular la varianza de la muestra y la función std() para calcular la desviación estándar de la muestra:
1234567import numpy as np sample = np.array([10, 25, 15, 30, 20, 10, 2]) # Calculating the variance sample_variance = np.var(sample) # Calculating the standard deviation sample_std = np.std(sample) print(f'Variance: {sample_variance}, standard deviation: {sample_std}')
Cálculos en Arreglos de Dimensiones Superiores
Todas estas funciones tienen un segundo parámetro axis. Su valor predeterminado es None, lo que significa que la medida se calculará a lo largo de un arreglo aplanado (incluso si el arreglo original es 2D o de mayor dimensión).
También se puede especificar el eje exacto a lo largo del cual calcular la medida:
12345678import numpy as np array_2d = np.array([[1, 2, 3], [4, 5, 6]]) # Calculating the mean in a flattened array print(np.mean(array_2d)) # Calculating the mean along axis 0 print(np.mean(array_2d, axis=0)) # Calculating the mean along axis 1 print(np.mean(array_2d, axis=1))
La imagen a continuación muestra la estructura del arreglo exam_scores utilizado en la tarea:
Swipe to start coding
Estás analizando el arreglo exam_scores, un arreglo 2D de calificaciones simuladas para 2 estudiantes (2 filas) en 5 exámenes diferentes (5 columnas).
- Calcular la puntuación media de cada estudiante especificando el segundo argumento de palabra clave.
- Calcular la mediana de todas las calificaciones.
- Calcular la varianza de todas las calificaciones.
- Calcular la desviación estándar de todas las calificaciones.
Solución
¡Gracias por tus comentarios!
single
Pregunte a AI
Pregunte a AI
Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla
Can you explain how to interpret the results of the mean and median calculations?
What is the difference between variance and standard deviation in practical terms?
How does the axis parameter affect calculations on higher dimensional arrays?
Awesome!
Completion rate improved to 3.7
Operaciones Estadísticas
Desliza para mostrar el menú
Realizar diversas operaciones estadísticas en arreglos es fundamental para el análisis de datos y el aprendizaje automático. NumPy proporciona funciones y métodos para llevarlas a cabo de manera eficiente.
Medidas de tendencia central
Las medidas de tendencia central representan un valor central o representativo dentro de una distribución de probabilidad. Sin embargo, la mayoría de las veces, se calculan estas medidas para una muestra determinada.
Aquí están las dos medidas principales:
- Media: la suma de todos los valores dividida por el número total de valores;
- Mediana: el valor central en una muestra ordenada.
NumPy proporciona las funciones mean() y median() para calcular la media y la mediana, respectivamente:
12345678import numpy as np sample = np.array([10, 25, 15, 30, 20, 10, 2]) # Calculating the mean sample_mean = np.mean(sample) print(f'Sorted sample: {np.sort(sample)}') # Calculating the median sample_median = np.median(sample) print(f'Mean: {sample_mean}, median: {sample_median}')
También mostramos la muestra ordenada para que puedas ver claramente la mediana. Nuestra muestra tiene un número impar de elementos (7), por lo que la mediana es simplemente el elemento en el índice (n + 1) / 2 en la muestra ordenada, donde n es el tamaño de la muestra.
Cuando la muestra tiene un número par de elementos, la mediana es el promedio de los elementos en los índices n / 2 y n / 2 - 1 en la muestra ordenada.
1234import numpy as np sample = np.array([1, 2, 8, 10, 15, 20, 25, 30]) sample_median = np.median(sample) print(f'Median: {sample_median}')
Nuestra muestra ya está ordenada y tiene 8 elementos, por lo que n / 2 - 1 = 3 y sample[3] es 10. n / 2 = 4 y sample[4] es 15. Por lo tanto, la mediana es (10 + 15) / 2 = 12.5.
Medidas de dispersión
Dos medidas de dispersión son la varianza y la desviación estándar. La varianza mide cuán dispersos están los datos. Es igual al promedio de las diferencias al cuadrado de cada valor respecto a la media.
La desviación estándar es la raíz cuadrada de la varianza. Proporciona una medida de dispersión en las mismas unidades que los datos.
NumPy tiene la función var() para calcular la varianza de la muestra y la función std() para calcular la desviación estándar de la muestra:
1234567import numpy as np sample = np.array([10, 25, 15, 30, 20, 10, 2]) # Calculating the variance sample_variance = np.var(sample) # Calculating the standard deviation sample_std = np.std(sample) print(f'Variance: {sample_variance}, standard deviation: {sample_std}')
Cálculos en Arreglos de Dimensiones Superiores
Todas estas funciones tienen un segundo parámetro axis. Su valor predeterminado es None, lo que significa que la medida se calculará a lo largo de un arreglo aplanado (incluso si el arreglo original es 2D o de mayor dimensión).
También se puede especificar el eje exacto a lo largo del cual calcular la medida:
12345678import numpy as np array_2d = np.array([[1, 2, 3], [4, 5, 6]]) # Calculating the mean in a flattened array print(np.mean(array_2d)) # Calculating the mean along axis 0 print(np.mean(array_2d, axis=0)) # Calculating the mean along axis 1 print(np.mean(array_2d, axis=1))
La imagen a continuación muestra la estructura del arreglo exam_scores utilizado en la tarea:
Swipe to start coding
Estás analizando el arreglo exam_scores, un arreglo 2D de calificaciones simuladas para 2 estudiantes (2 filas) en 5 exámenes diferentes (5 columnas).
- Calcular la puntuación media de cada estudiante especificando el segundo argumento de palabra clave.
- Calcular la mediana de todas las calificaciones.
- Calcular la varianza de todas las calificaciones.
- Calcular la desviación estándar de todas las calificaciones.
Solución
¡Gracias por tus comentarios!
single