Verwaltung Kategorialer Variablen

Nun arbeiten Sie mit dem Datensatz, der keine fehlenden Werte enthält. Die NaN-Werte aus der Spalte 'Age' wurden durch den Mittelwert der Spalte ersetzt, und der NaN-Wert aus der Spalte 'Fare' wurde entfernt. Jetzt ist es an der Zeit zu lernen, wie kategoriale Variablen verwaltet werden. Kategorial bedeutet, dass sie bestimmte Kategorien haben. Zum Beispiel gibt es in der Spalte 'Sex' die Werte 'male' und 'female'; oder in der Spalte 'Embarked' die Werte 'Q', 'S' und 'C'.

Was sollten wir tun, um die Anzahl der Werte in jeder Kategorie zu berechnen oder Informationen darüber zu erhalten?

Sie kennen bereits .loc[], .isin(), .between() und viele weitere Funktionen, aber in pandas gibt es eine noch elegantere und bequemere Möglichkeit. Verwenden Sie die Funktion .get_dummies(). Als Beispiel wenden wir sie auf die Spalte 'Embarked' an. Sehen Sie sich die Implementierung und das Ergebnis an (wir geben die Namen von 5 zufällig ausgewählten Passagieren und die neu erstellten Spalten aus).


              1234
            
import pandas as pd
data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/titanic3.csv', index_col = 0)
data = pd.get_dummies(data, columns = ['Embarked'])
print(data[['Name', 'Embarked_C', 'Embarked_Q', 'Embarked_S']].sample(5))

Untersuchen wir eine der möglichen Ausgaben, insbesondere eine der möglichen Kombinationen von fünf zufällig ausgewählten Zeilen. Sie können horizontal durch die Tabelle scrollen, um alle Spalten zu sehen:

Erläuterung:

Als Ergebnis hat unsere Funktion die Spalte 'Embarked' in drei Spalten aufgeteilt: 'Embarked_C', 'Embarked_Q' und 'Embarked_S'. Insgesamt gibt es drei Kategorien. Jeder Passagier hat seine Kategorie in der Spalte 'Embarked'. Unsere Funktion erstellt somit drei Spalten, die jeweils einer Kategorie entsprechen, und füllt für jeden Passagier die entsprechende Spalte mit 1, wenn die Person ursprünglich dieser Geografie zugeordnet war; andernfalls steht dort 0. Somit steht die 1 immer nur in einer Spalte.

pd.get_dummies(data, columns = ['Embarked'])

pd.get_dummies() – diese Funktion wandelt kategorische Variablen in Dummy-Variablen (1 oder 0) um;
data – das DataFrame, das verwendet werden soll;
columns = ['Embarked'] – Spalten mit kategorischen Variablen, die in Dummy-Variablen umgewandelt werden sollen. Beachten Sie, dass die Spaltennamen zwingend in einer Liste angegeben werden müssen.

War alles klar?

Danke für Ihr Feedback!

Abschnitt 5. Kapitel 6

single

Swipe um das Menü anzuzeigen

Nun arbeiten Sie mit dem Datensatz, der keine fehlenden Werte enthält. Die NaN-Werte aus der Spalte 'Age' wurden durch den Mittelwert der Spalte ersetzt, und der NaN-Wert aus der Spalte 'Fare' wurde entfernt. Jetzt ist es an der Zeit zu lernen, wie kategoriale Variablen verwaltet werden. Kategorial bedeutet, dass sie bestimmte Kategorien haben. Zum Beispiel gibt es in der Spalte 'Sex' die Werte 'male' und 'female'; oder in der Spalte 'Embarked' die Werte 'Q', 'S' und 'C'.

Was sollten wir tun, um die Anzahl der Werte in jeder Kategorie zu berechnen oder Informationen darüber zu erhalten?

Sie kennen bereits .loc[], .isin(), .between() und viele weitere Funktionen, aber in pandas gibt es eine noch elegantere und bequemere Möglichkeit. Verwenden Sie die Funktion .get_dummies(). Als Beispiel wenden wir sie auf die Spalte 'Embarked' an. Sehen Sie sich die Implementierung und das Ergebnis an (wir geben die Namen von 5 zufällig ausgewählten Passagieren und die neu erstellten Spalten aus).


              1234
            
import pandas as pd
data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/titanic3.csv', index_col = 0)
data = pd.get_dummies(data, columns = ['Embarked'])
print(data[['Name', 'Embarked_C', 'Embarked_Q', 'Embarked_S']].sample(5))

Untersuchen wir eine der möglichen Ausgaben, insbesondere eine der möglichen Kombinationen von fünf zufällig ausgewählten Zeilen. Sie können horizontal durch die Tabelle scrollen, um alle Spalten zu sehen:

Erläuterung:

Als Ergebnis hat unsere Funktion die Spalte 'Embarked' in drei Spalten aufgeteilt: 'Embarked_C', 'Embarked_Q' und 'Embarked_S'. Insgesamt gibt es drei Kategorien. Jeder Passagier hat seine Kategorie in der Spalte 'Embarked'. Unsere Funktion erstellt somit drei Spalten, die jeweils einer Kategorie entsprechen, und füllt für jeden Passagier die entsprechende Spalte mit 1, wenn die Person ursprünglich dieser Geografie zugeordnet war; andernfalls steht dort 0. Somit steht die 1 immer nur in einer Spalte.

pd.get_dummies(data, columns = ['Embarked'])

pd.get_dummies() – diese Funktion wandelt kategorische Variablen in Dummy-Variablen (1 oder 0) um;
data – das DataFrame, das verwendet werden soll;
columns = ['Embarked'] – Spalten mit kategorischen Variablen, die in Dummy-Variablen umgewandelt werden sollen. Beachten Sie, dass die Spaltennamen zwingend in einer Liste angegeben werden müssen.

Aufgabe

Wischen, um mit dem Codieren zu beginnen

Ihre Aufgabe besteht darin, die Spalte 'Sex' in eine Spalte mit Dummy-Variablen anstelle von kategorialen Variablen umzuwandeln. Geben Sie anschließend die Summe der Werte in jeder Kategorie aus.

Lösung

Wechseln Sie zum Desktop, um in der realen Welt zu übenFahren Sie dort fort, wo Sie sind, indem Sie eine der folgenden Optionen verwenden

War alles klar?

Danke für Ihr Feedback!

Abschnitt 5. Kapitel 6

single

Fragen Sie AI

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen