Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lära Histogram | Fler Statistiska Diagram
Ultimat Visualisering med Python

Svep för att visa menyn

book
Histogram

Note
Definition

Histogram representerar frekvens- eller sannolikhetsfördelningen av en variabel genom att använda vertikala staplar av lika bredd, ofta kallade staplar.

pyplot-modulen tillhandahåller funktionen hist för att skapa histogram. Den obligatoriska parametern är data (x), som kan vara en array eller en sekvens av arrayer. Om flera arrayer anges visas varje i en annan färg.

12345678910
import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://staging-content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a histogram plt.hist(weather_df['Seattle']) plt.show()
copy

Intervall och Höjd

Ett Series-objekt som innehåller genomsnittliga årliga temperaturer i Seattle skickades till funktionen hist(). Som standard delas data upp i 10 lika stora intervall från minsta till största värde. Dock är endast 9 staplar synliga eftersom det andra intervallet inte innehåller några datapunkter.

Höjden på varje stapel motsvarar som standard frekvensen av värden i detta intervall (antalet gånger de förekommer).

Antal Staplar

En annan viktig, men valfri parameter är bins som tar antingen antalet staplar (heltal) eller en sekvens av tal som anger kanterna för staplarna, eller en sträng. Oftast räcker det att ange antalet staplar.

Det finns flera metoder för att bestämma bredden på histogrammets staplar. I detta exempel används Sturges' formel, som beräknar det optimala antalet staplar baserat på urvalsstorleken:

Här är n storleken på dataarrayen.

Note
Studera vidare

Du kan utforska ytterligare metoder för beräkning av bin här.

12345678910
import pandas as pd import matplotlib.pyplot as plt import numpy as np url = 'https://staging-content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Specifying the number of bins plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df)))) plt.show()
copy

Antalet rader i DataFrame är 26 (storleken på Series), så det resulterande antalet bin är 5.

Sannolikhetstäthetsapproximation

För att visa en approximation av sannolikhetstätheten, ange parametern density till True i funktionen hist.

Nu beräknas varje bins höjd med:

Height=mn×w\text{Height} = \frac{m}{n \times w}

Där:

  • nn - det totala antalet värden i datamängden;

  • mm - antalet värden i bin;

  • ww - binens bredd.

Detta säkerställer att den totala arean under histogrammet är 1, vilket överensstämmer med den centrala egenskapen hos en sannolikhetstäthetsfunktion (PDF).

12345678910
import pandas as pd import matplotlib.pyplot as plt import numpy as np url = 'https://staging-content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Making a histogram a probability density function approximation plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df))), density=True) plt.show()
copy

Detta ger en approximation av sannolikhetstäthetsfunktionen för temperaturdatan.

Note
Läs vidare

Om du vill utforska fler parametrar för hist(), kan du läsa mer i hist() dokumentationen.

Uppgift

Swipe to start coding

Skapa en approximation av en sannolikhetstäthetsfunktion med ett stickprov från standardnormalfördelningen:

  1. Använd rätt funktion för att skapa ett histogram.
  2. Använd normal_sample som data för histogrammet.
  3. Ange antalet intervall (bins) som det andra argumentet med hjälp av Sturges' formel.
  4. Gör histogrammet till en approximation av en sannolikhetstäthetsfunktion genom att korrekt ange det sista argumentet.

Lösning

Switch to desktopByt till skrivbordet för praktisk övningFortsätt där du är med ett av alternativen nedan
Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 4. Kapitel 1

Fråga AI

expand
ChatGPT

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

book
Histogram

Note
Definition

Histogram representerar frekvens- eller sannolikhetsfördelningen av en variabel genom att använda vertikala staplar av lika bredd, ofta kallade staplar.

pyplot-modulen tillhandahåller funktionen hist för att skapa histogram. Den obligatoriska parametern är data (x), som kan vara en array eller en sekvens av arrayer. Om flera arrayer anges visas varje i en annan färg.

12345678910
import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://staging-content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a histogram plt.hist(weather_df['Seattle']) plt.show()
copy

Intervall och Höjd

Ett Series-objekt som innehåller genomsnittliga årliga temperaturer i Seattle skickades till funktionen hist(). Som standard delas data upp i 10 lika stora intervall från minsta till största värde. Dock är endast 9 staplar synliga eftersom det andra intervallet inte innehåller några datapunkter.

Höjden på varje stapel motsvarar som standard frekvensen av värden i detta intervall (antalet gånger de förekommer).

Antal Staplar

En annan viktig, men valfri parameter är bins som tar antingen antalet staplar (heltal) eller en sekvens av tal som anger kanterna för staplarna, eller en sträng. Oftast räcker det att ange antalet staplar.

Det finns flera metoder för att bestämma bredden på histogrammets staplar. I detta exempel används Sturges' formel, som beräknar det optimala antalet staplar baserat på urvalsstorleken:

Här är n storleken på dataarrayen.

Note
Studera vidare

Du kan utforska ytterligare metoder för beräkning av bin här.

12345678910
import pandas as pd import matplotlib.pyplot as plt import numpy as np url = 'https://staging-content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Specifying the number of bins plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df)))) plt.show()
copy

Antalet rader i DataFrame är 26 (storleken på Series), så det resulterande antalet bin är 5.

Sannolikhetstäthetsapproximation

För att visa en approximation av sannolikhetstätheten, ange parametern density till True i funktionen hist.

Nu beräknas varje bins höjd med:

Height=mn×w\text{Height} = \frac{m}{n \times w}

Där:

  • nn - det totala antalet värden i datamängden;

  • mm - antalet värden i bin;

  • ww - binens bredd.

Detta säkerställer att den totala arean under histogrammet är 1, vilket överensstämmer med den centrala egenskapen hos en sannolikhetstäthetsfunktion (PDF).

12345678910
import pandas as pd import matplotlib.pyplot as plt import numpy as np url = 'https://staging-content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Making a histogram a probability density function approximation plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df))), density=True) plt.show()
copy

Detta ger en approximation av sannolikhetstäthetsfunktionen för temperaturdatan.

Note
Läs vidare

Om du vill utforska fler parametrar för hist(), kan du läsa mer i hist() dokumentationen.

Uppgift

Swipe to start coding

Skapa en approximation av en sannolikhetstäthetsfunktion med ett stickprov från standardnormalfördelningen:

  1. Använd rätt funktion för att skapa ett histogram.
  2. Använd normal_sample som data för histogrammet.
  3. Ange antalet intervall (bins) som det andra argumentet med hjälp av Sturges' formel.
  4. Gör histogrammet till en approximation av en sannolikhetstäthetsfunktion genom att korrekt ange det sista argumentet.

Lösning

Switch to desktopByt till skrivbordet för praktisk övningFortsätt där du är med ett av alternativen nedan
Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 4. Kapitel 1
Switch to desktopByt till skrivbordet för praktisk övningFortsätt där du är med ett av alternativen nedan
Vi beklagar att något gick fel. Vad hände?
some-alt