Aprende Histograma | Más Gráficos Estadísticos

Definición

Los histogramas representan la frecuencia o distribución de probabilidad de una variable utilizando intervalos verticales de igual ancho, comúnmente denominados barras.

El módulo pyplot proporciona la función hist para crear histogramas. El parámetro requerido es el dato (x), que puede ser un arreglo o una secuencia de arreglos. Si se pasan varios arreglos, cada uno se muestra en un color diferente.


              12345678910
            
import pandas as pd
import matplotlib.pyplot as plt

# Loading the dataset with the average yearly temperatures in Boston and Seattle
url = 'https://staging-content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv'
weather_df = pd.read_csv(url, index_col=0)

# Creating a histogram
plt.hist(weather_df['Seattle'])
plt.show()

Intervalos y Altura

Se pasó una Series de temperaturas anuales de Seattle a hist(). Por defecto, los datos se dividen en 10 intervalos iguales entre el mínimo y el máximo. Solo aparecen 9 contenedores porque un intervalo no contiene valores.

La altura del contenedor muestra la frecuencia — cuántos datos caen en cada intervalo.

Número de Contenedores

El parámetro opcional bins puede ser un entero (número de contenedores), una secuencia de bordes o una cadena. Generalmente, especificar el número de contenedores es suficiente.

Una regla común para elegir el número de contenedores es la fórmula de Sturges, basada en el tamaño de la muestra:

bins = 1 + int(np.log2(n))

donde n es el tamaño del conjunto de datos.

Estudiar más

Puede explorar métodos adicionales para el cálculo de contenedores aquí.


              12345678910
            
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

url = 'https://staging-content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv'
weather_df = pd.read_csv(url, index_col=0)

# Specifying the number of bins
plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df))))
plt.show()

El número de filas en el DataFrame es 26 (el tamaño de la Series), por lo que el número resultante de intervalos es 5.

Aproximación de la Densidad de Probabilidad

Para aproximar una densidad de probabilidad, establecer density=True en hist(). Entonces, la altura de cada intervalo es:

\text{Altura} = \frac{m}{n \cdot w}

donde:

( n ) — número total de valores,
( m ) — conteo en el intervalo,
( w ) — ancho del intervalo.

Esto hace que el área total del histograma sea igual a 1, coincidiendo con el comportamiento de una PDF.


              12345678910
            
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

url = 'https://staging-content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv'
weather_df = pd.read_csv(url, index_col=0)

# Making a histogram a probability density function approximation
plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df))), density=True)
plt.show()

Esto proporciona una aproximación de la función de densidad de probabilidad para los datos de temperatura.

Estudiar más

Si desea explorar más sobre los parámetros de hist(), puede consultar la documentación de hist().

Tarea

Swipe to start coding

Crear una aproximación de una función de densidad de probabilidad utilizando una muestra de la distribución normal estándar:

Utilizar la función adecuada para crear un histograma.
Usar normal_sample como los datos para el histograma.
Especificar el número de intervalos como segundo argumento utilizando la fórmula de Sturges.
Hacer que el histograma sea una aproximación de una función de densidad de probabilidad especificando correctamente el argumento más a la derecha.

Solución

¿Todo estuvo claro?

¡Gracias por tus comentarios!

Sección 4. Capítulo 1

single

Pregunte a AI

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Desliza para mostrar el menú

Definición

Los histogramas representan la frecuencia o distribución de probabilidad de una variable utilizando intervalos verticales de igual ancho, comúnmente denominados barras.


              12345678910
            
import pandas as pd
import matplotlib.pyplot as plt

# Loading the dataset with the average yearly temperatures in Boston and Seattle
url = 'https://staging-content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv'
weather_df = pd.read_csv(url, index_col=0)

# Creating a histogram
plt.hist(weather_df['Seattle'])
plt.show()

Intervalos y Altura

La altura del contenedor muestra la frecuencia — cuántos datos caen en cada intervalo.

Número de Contenedores

El parámetro opcional bins puede ser un entero (número de contenedores), una secuencia de bordes o una cadena. Generalmente, especificar el número de contenedores es suficiente.

Una regla común para elegir el número de contenedores es la fórmula de Sturges, basada en el tamaño de la muestra:

bins = 1 + int(np.log2(n))

donde n es el tamaño del conjunto de datos.

Estudiar más

Puede explorar métodos adicionales para el cálculo de contenedores aquí.


              12345678910
            
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

url = 'https://staging-content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv'
weather_df = pd.read_csv(url, index_col=0)

# Specifying the number of bins
plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df))))
plt.show()

El número de filas en el DataFrame es 26 (el tamaño de la Series), por lo que el número resultante de intervalos es 5.

Aproximación de la Densidad de Probabilidad

Para aproximar una densidad de probabilidad, establecer density=True en hist(). Entonces, la altura de cada intervalo es:

\text{Altura} = \frac{m}{n \cdot w}

donde:

( n ) — número total de valores,
( m ) — conteo en el intervalo,
( w ) — ancho del intervalo.

Esto hace que el área total del histograma sea igual a 1, coincidiendo con el comportamiento de una PDF.


              12345678910
            
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

url = 'https://staging-content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv'
weather_df = pd.read_csv(url, index_col=0)

# Making a histogram a probability density function approximation
plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df))), density=True)
plt.show()

Esto proporciona una aproximación de la función de densidad de probabilidad para los datos de temperatura.

Estudiar más

Si desea explorar más sobre los parámetros de hist(), puede consultar la documentación de hist().

Tarea

Swipe to start coding

Crear una aproximación de una función de densidad de probabilidad utilizando una muestra de la distribución normal estándar:

Utilizar la función adecuada para crear un histograma.
Usar normal_sample como los datos para el histograma.
Especificar el número de intervalos como segundo argumento utilizando la fórmula de Sturges.
Hacer que el histograma sea una aproximación de una función de densidad de probabilidad especificando correctamente el argumento más a la derecha.

Solución

Cambia al escritorio para practicar en el mundo realContinúe desde donde se encuentra utilizando una de las siguientes opciones

¿Todo estuvo claro?

¡Gracias por tus comentarios!

Sección 4. Capítulo 1

single