Kursinhalt
Fortgeschrittene Techniken in Pandas
Fortgeschrittene Techniken in Pandas
Verwaltung Kategorialer Variablen
Jetzt arbeiten Sie mit dem Datensatz, der keine fehlenden Werte enthält. Die NaN
-Werte aus der Spalte 'Age'
wurden durch den Mittelwert der Spalte ersetzt, und der NaN
-Wert aus der Spalte 'Fare'
wurde gelöscht.
Nun ist es an der Zeit zu lernen, wie man kategoriale Variablen verwaltet. Kategorial bedeutet, dass sie einige Kategorien haben. Zum Beispiel gibt es in der Spalte 'Sex'
'male'
und 'female'
; oder in der Spalte 'Embarked'
gibt es 'Q'
, 'S'
und 'C'
.
Was sollten wir tun, um die Anzahl der Werte in jeder Kategorie zu berechnen oder Informationen über sie zu erhalten?
Sie kennen bereits .loc[]
, .isin()
, .between()
und viele Funktionen, aber in pandas gibt es eine schönere und bequemere Möglichkeit, dies zu tun. Verwenden Sie die Funktion .get_dummies()
. Als Beispiel werden wir sie auf die Spalte 'Embarked'
anwenden. Schauen Sie sich die Implementierung und das Ergebnis an (wir geben die Namen von 5 zufälligen Passagieren und die neuen Spalten aus, die wir erstellt haben).
import pandas as pd data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/titanic3.csv', index_col = 0) data = pd.get_dummies(data, columns = ['Embarked']) print(data[['Name', 'Embarked_C', 'Embarked_Q', 'Embarked_S']].sample(5))
Lassen Sie uns eines der möglichen Ausgaben untersuchen, insbesondere eine der möglichen Kombinationen von fünf zufällig ausgewählten Zeilen. Sie können horizontal durch die Tabelle scrollen, um alle Spalten zu sehen:
Erklärung:
Als Ergebnis hat unsere Funktion die Spalte 'Embarked'
in drei Spalten aufgeteilt: 'Embarked_C'
, 'Embarked_Q'
, 'Embarked_S'
. Insgesamt haben wir drei Kategorien. Jeder Passagier hat seine Kategorie in der Spalte 'Embarked'
. Somit erstellt unsere Funktion drei Spalten, die jeder Kategorie entsprechen, und füllt in Übereinstimmung mit jedem Passagier die Zeile der Spalte mit 1
, wenn die Person ursprünglich mit der Geographie in Verbindung stand; andernfalls steht dort 0
. So erhalten wir 1
in nur einer Spalte.
pd.get_dummies()
- diese Funktion konvertiert kategorische Variablen in Dummy-Variablen (1 oder 0);data
- der Datenrahmen, den Sie verwenden möchten;columns = ['Embarked']
- Spalten haben kategorische Variablen, die Sie in Dummy-Variablen umwandeln möchten. Achten Sie darauf, dass es obligatorisch ist, die Spaltennamen in die Liste zu setzen.
Swipe to start coding
Ihre Aufgabe besteht darin, die Spalte 'Sex'
in eine mit Dummy-Variablen anstelle von kategorischen Variablen umzuwandeln. Geben Sie dann die Summe der Werte in jeder Kategorie aus.
Lösung
Danke für Ihr Feedback!
Verwaltung Kategorialer Variablen
Jetzt arbeiten Sie mit dem Datensatz, der keine fehlenden Werte enthält. Die NaN
-Werte aus der Spalte 'Age'
wurden durch den Mittelwert der Spalte ersetzt, und der NaN
-Wert aus der Spalte 'Fare'
wurde gelöscht.
Nun ist es an der Zeit zu lernen, wie man kategoriale Variablen verwaltet. Kategorial bedeutet, dass sie einige Kategorien haben. Zum Beispiel gibt es in der Spalte 'Sex'
'male'
und 'female'
; oder in der Spalte 'Embarked'
gibt es 'Q'
, 'S'
und 'C'
.
Was sollten wir tun, um die Anzahl der Werte in jeder Kategorie zu berechnen oder Informationen über sie zu erhalten?
Sie kennen bereits .loc[]
, .isin()
, .between()
und viele Funktionen, aber in pandas gibt es eine schönere und bequemere Möglichkeit, dies zu tun. Verwenden Sie die Funktion .get_dummies()
. Als Beispiel werden wir sie auf die Spalte 'Embarked'
anwenden. Schauen Sie sich die Implementierung und das Ergebnis an (wir geben die Namen von 5 zufälligen Passagieren und die neuen Spalten aus, die wir erstellt haben).
import pandas as pd data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/titanic3.csv', index_col = 0) data = pd.get_dummies(data, columns = ['Embarked']) print(data[['Name', 'Embarked_C', 'Embarked_Q', 'Embarked_S']].sample(5))
Lassen Sie uns eines der möglichen Ausgaben untersuchen, insbesondere eine der möglichen Kombinationen von fünf zufällig ausgewählten Zeilen. Sie können horizontal durch die Tabelle scrollen, um alle Spalten zu sehen:
Erklärung:
Als Ergebnis hat unsere Funktion die Spalte 'Embarked'
in drei Spalten aufgeteilt: 'Embarked_C'
, 'Embarked_Q'
, 'Embarked_S'
. Insgesamt haben wir drei Kategorien. Jeder Passagier hat seine Kategorie in der Spalte 'Embarked'
. Somit erstellt unsere Funktion drei Spalten, die jeder Kategorie entsprechen, und füllt in Übereinstimmung mit jedem Passagier die Zeile der Spalte mit 1
, wenn die Person ursprünglich mit der Geographie in Verbindung stand; andernfalls steht dort 0
. So erhalten wir 1
in nur einer Spalte.
pd.get_dummies()
- diese Funktion konvertiert kategorische Variablen in Dummy-Variablen (1 oder 0);data
- der Datenrahmen, den Sie verwenden möchten;columns = ['Embarked']
- Spalten haben kategorische Variablen, die Sie in Dummy-Variablen umwandeln möchten. Achten Sie darauf, dass es obligatorisch ist, die Spaltennamen in die Liste zu setzen.
Swipe to start coding
Ihre Aufgabe besteht darin, die Spalte 'Sex'
in eine mit Dummy-Variablen anstelle von kategorischen Variablen umzuwandeln. Geben Sie dann die Summe der Werte in jeder Kategorie aus.
Lösung
Danke für Ihr Feedback!