Gestione delle variabili categoriche

Ora lavorerai con il set di dati che non contiene valori mancanti. I valori NaN della colonna 'Age' sono stati sostituiti con la media della colonna, e il valore NaN della colonna 'Fare' è stato eliminato. Quindi, ora è il momento di imparare a gestire le variabili categoriche. Categoriale significa che hanno alcune categorie. Ad esempio, nella colonna 'Sex' ci sono 'male' e 'female'; oppure nella colonna 'Embarked' ci sono 'Q', 'S' e 'C'.

Cosa bisogna fare per calcolare il numero di valori in ogni categoria o per ottenere informazioni su di essi?

Conosci già .loc[], .isin(), .between() e molte altre funzioni, ma in pandas esiste un modo più elegante e comodo per farlo. Usa la funzione .get_dummies(). Come esempio, la applicheremo alla colonna 'Embarked'. Osserva l'implementazione e il risultato (verranno mostrati i nomi di 5 passeggeri scelti a caso e le nuove colonne create).


              1234
            
import pandas as pd
data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/titanic3.csv', index_col = 0)
data = pd.get_dummies(data, columns = ['Embarked'])
print(data[['Name', 'Embarked_C', 'Embarked_Q', 'Embarked_S']].sample(5))

Analizziamo uno dei possibili output, in particolare una delle possibili combinazioni di cinque righe selezionate casualmente. Puoi scorrere orizzontalmente la tabella per visualizzare tutte le colonne:

Spiegazione:

Di conseguenza, la nostra funzione ha suddiviso la colonna 'Embarked' in tre colonne: 'Embarked_C', 'Embarked_Q' e 'Embarked_S'. In totale, abbiamo tre categorie. Ogni passeggero ha la propria categoria nella colonna 'Embarked'. Pertanto, la nostra funzione crea tre colonne corrispondenti a ciascuna categoria e, in corrispondenza di ogni passeggero, riempie la riga della colonna con 1 se la persona era inizialmente associata a quella geografia; altrimenti, inserisce 0. In questo modo, otteniamo 1 in una sola colonna.

pd.get_dummies(data, columns = ['Embarked'])

pd.get_dummies() - questa funzione converte le variabili categoriche in variabili dummy (1 o 0);
data - il data frame che si desidera utilizzare;
columns = ['Embarked'] - colonne che contengono variabili categoriche da trasformare in variabili dummy. Attenzione: è obbligatorio inserire i nomi delle colonne all'interno di una lista.

Tutto è chiaro?

Grazie per i tuoi commenti!

Sezione 5. Capitolo 6

single

Scorri per mostrare il menu

Ora lavorerai con il set di dati che non contiene valori mancanti. I valori NaN della colonna 'Age' sono stati sostituiti con la media della colonna, e il valore NaN della colonna 'Fare' è stato eliminato. Quindi, ora è il momento di imparare a gestire le variabili categoriche. Categoriale significa che hanno alcune categorie. Ad esempio, nella colonna 'Sex' ci sono 'male' e 'female'; oppure nella colonna 'Embarked' ci sono 'Q', 'S' e 'C'.

Cosa bisogna fare per calcolare il numero di valori in ogni categoria o per ottenere informazioni su di essi?

Conosci già .loc[], .isin(), .between() e molte altre funzioni, ma in pandas esiste un modo più elegante e comodo per farlo. Usa la funzione .get_dummies(). Come esempio, la applicheremo alla colonna 'Embarked'. Osserva l'implementazione e il risultato (verranno mostrati i nomi di 5 passeggeri scelti a caso e le nuove colonne create).


              1234
            
import pandas as pd
data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/titanic3.csv', index_col = 0)
data = pd.get_dummies(data, columns = ['Embarked'])
print(data[['Name', 'Embarked_C', 'Embarked_Q', 'Embarked_S']].sample(5))

Analizziamo uno dei possibili output, in particolare una delle possibili combinazioni di cinque righe selezionate casualmente. Puoi scorrere orizzontalmente la tabella per visualizzare tutte le colonne:

Spiegazione:

Di conseguenza, la nostra funzione ha suddiviso la colonna 'Embarked' in tre colonne: 'Embarked_C', 'Embarked_Q' e 'Embarked_S'. In totale, abbiamo tre categorie. Ogni passeggero ha la propria categoria nella colonna 'Embarked'. Pertanto, la nostra funzione crea tre colonne corrispondenti a ciascuna categoria e, in corrispondenza di ogni passeggero, riempie la riga della colonna con 1 se la persona era inizialmente associata a quella geografia; altrimenti, inserisce 0. In questo modo, otteniamo 1 in una sola colonna.

pd.get_dummies(data, columns = ['Embarked'])

pd.get_dummies() - questa funzione converte le variabili categoriche in variabili dummy (1 o 0);
data - il data frame che si desidera utilizzare;
columns = ['Embarked'] - colonne che contengono variabili categoriche da trasformare in variabili dummy. Attenzione: è obbligatorio inserire i nomi delle colonne all'interno di una lista.

Compito

Scorri per iniziare a programmare

Il tuo compito qui è trasformare la colonna 'Sex' in una con variabili dummy invece che categoriche. Successivamente, mostra la somma dei valori in ciascuna categoria.

Soluzione

Cambia al desktop per esercitarti nel mondo realeContinua da dove ti trovi utilizzando una delle opzioni seguenti

Tutto è chiaro?

Grazie per i tuoi commenti!

Sezione 5. Capitolo 6

single

Chieda ad AI

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione