Apprendre Histogramme | Autres Graphiques Statistiques

Définition

Les histogrammes représentent la fréquence ou la distribution de probabilité d'une variable à l'aide de barres verticales de largeur égale, souvent appelées barres.

Le module pyplot fournit la fonction hist pour créer des histogrammes. Le paramètre requis est la donnée (x), qui peut être un tableau ou une séquence de tableaux. Si plusieurs tableaux sont passés, chacun est affiché dans une couleur différente.


              12345678910
            
import pandas as pd
import matplotlib.pyplot as plt

# Loading the dataset with the average yearly temperatures in Boston and Seattle
url = 'https://staging-content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv'
weather_df = pd.read_csv(url, index_col=0)

# Creating a histogram
plt.hist(weather_df['Seattle'])
plt.show()

Intervalles et Hauteur

Une Series des températures annuelles de Seattle a été transmise à hist(). Par défaut, les données sont réparties en 10 intervalles égaux entre le minimum et le maximum. Seulement 9 classes apparaissent car un intervalle ne contient aucune valeur.

La hauteur de chaque classe indique la fréquence — le nombre de points de données dans chaque intervalle.

Nombre de Classes

Le paramètre optionnel bins peut être un entier (nombre de classes), une séquence de bornes ou une chaîne de caractères. En général, indiquer le nombre de classes suffit.

Une règle courante pour choisir le nombre de classes est la formule de Sturges, basée sur la taille de l’échantillon :

bins = 1 + int(np.log2(n))

où n est la taille de l’ensemble de données.

Approfondir

Vous pouvez explorer d’autres méthodes de calcul des classes ici.


              12345678910
            
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

url = 'https://staging-content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv'
weather_df = pd.read_csv(url, index_col=0)

# Specifying the number of bins
plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df))))
plt.show()

Le nombre de lignes dans le DataFrame est de 26 (la taille de la Series), donc le nombre de classes résultant est 5.

Approximation de la densité de probabilité

Pour approximer une densité de probabilité, définir density=True dans hist(). Ainsi, la hauteur de chaque classe est :

\text{Hauteur} = \frac{m}{n \cdot w}

où :

( n ) — nombre total de valeurs,
( m ) — nombre d'éléments dans la classe,
( w ) — largeur de la classe.

Cela rend la surface totale de l'histogramme égale à 1, ce qui correspond au comportement d'une PDF.


              12345678910
            
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

url = 'https://staging-content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv'
weather_df = pd.read_csv(url, index_col=0)

# Making a histogram a probability density function approximation
plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df))), density=True)
plt.show()

Ceci fournit une approximation de la fonction de densité de probabilité pour les données de température.

Approfondir

Si vous souhaitez explorer davantage les paramètres de hist(), vous pouvez consulter la documentation de hist().

Tâche

Swipe to start coding

Créer une approximation d'une fonction de densité de probabilité à l'aide d'un échantillon provenant de la distribution normale standard :

Utiliser la fonction appropriée pour créer un histogramme.
Utiliser normal_sample comme données pour l'histogramme.
Spécifier le nombre de classes (bins) en second argument en utilisant la formule de Sturges.
Faire de l'histogramme une approximation d'une fonction de densité de probabilité en spécifiant correctement l'argument le plus à droite.

Solution

Tout était clair ?

Merci pour vos commentaires !

Section 4. Chapitre 1

single

Demandez à l'IA

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Glissez pour afficher le menu

Définition

Les histogrammes représentent la fréquence ou la distribution de probabilité d'une variable à l'aide de barres verticales de largeur égale, souvent appelées barres.


              12345678910
            
import pandas as pd
import matplotlib.pyplot as plt

# Loading the dataset with the average yearly temperatures in Boston and Seattle
url = 'https://staging-content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv'
weather_df = pd.read_csv(url, index_col=0)

# Creating a histogram
plt.hist(weather_df['Seattle'])
plt.show()

Intervalles et Hauteur

La hauteur de chaque classe indique la fréquence — le nombre de points de données dans chaque intervalle.

Nombre de Classes

Le paramètre optionnel bins peut être un entier (nombre de classes), une séquence de bornes ou une chaîne de caractères. En général, indiquer le nombre de classes suffit.

Une règle courante pour choisir le nombre de classes est la formule de Sturges, basée sur la taille de l’échantillon :

bins = 1 + int(np.log2(n))

où n est la taille de l’ensemble de données.

Approfondir

Vous pouvez explorer d’autres méthodes de calcul des classes ici.


              12345678910
            
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

url = 'https://staging-content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv'
weather_df = pd.read_csv(url, index_col=0)

# Specifying the number of bins
plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df))))
plt.show()

Le nombre de lignes dans le DataFrame est de 26 (la taille de la Series), donc le nombre de classes résultant est 5.

Approximation de la densité de probabilité

Pour approximer une densité de probabilité, définir density=True dans hist(). Ainsi, la hauteur de chaque classe est :

\text{Hauteur} = \frac{m}{n \cdot w}

où :

( n ) — nombre total de valeurs,
( m ) — nombre d'éléments dans la classe,
( w ) — largeur de la classe.

Cela rend la surface totale de l'histogramme égale à 1, ce qui correspond au comportement d'une PDF.


              12345678910
            
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

url = 'https://staging-content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv'
weather_df = pd.read_csv(url, index_col=0)

# Making a histogram a probability density function approximation
plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df))), density=True)
plt.show()

Ceci fournit une approximation de la fonction de densité de probabilité pour les données de température.

Approfondir

Si vous souhaitez explorer davantage les paramètres de hist(), vous pouvez consulter la documentation de hist().

Tâche

Swipe to start coding

Créer une approximation d'une fonction de densité de probabilité à l'aide d'un échantillon provenant de la distribution normale standard :

Utiliser la fonction appropriée pour créer un histogramme.
Utiliser normal_sample comme données pour l'histogramme.
Spécifier le nombre de classes (bins) en second argument en utilisant la formule de Sturges.
Faire de l'histogramme une approximation d'une fonction de densité de probabilité en spécifiant correctement l'argument le plus à droite.

Solution

Passez à un bureau pour une pratique réelleContinuez d'où vous êtes en utilisant l'une des options ci-dessous

Tout était clair ?

Merci pour vos commentaires !

Section 4. Chapitre 1

single