Gestión de Variables Categóricas

Ahora trabajarás con el conjunto de datos que no contiene valores faltantes. Los valores NaN de la columna 'Age' fueron reemplazados por el promedio de la columna, y el valor NaN de la columna 'Fare' fue eliminado. Así que ahora es momento de aprender cómo gestionar variables categóricas. Categórico significa que tienen algunas categorías. Por ejemplo, en la columna 'Sex', están 'male' y 'female'; o en la columna 'Embarked', están 'Q', 'S' y 'C'.

¿Qué debemos hacer para calcular la cantidad de valores en cada categoría o para obtener información sobre ellas?

Ya conoces .loc[], .isin(), .between() y muchas funciones, pero en pandas, existe una forma más elegante y conveniente de hacerlo. Utiliza la función .get_dummies(). Como ejemplo, la aplicaremos a la columna 'Embarked'. Observa la implementación y el resultado (mostraremos los nombres de 5 pasajeros aleatorios y las nuevas columnas que creamos).


              1234
            
import pandas as pd
data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/titanic3.csv', index_col = 0)
data = pd.get_dummies(data, columns = ['Embarked'])
print(data[['Name', 'Embarked_C', 'Embarked_Q', 'Embarked_S']].sample(5))

Analicemos una de las posibles salidas, específicamente una de las posibles combinaciones de cinco filas seleccionadas aleatoriamente. Puedes desplazarte horizontalmente por la tabla para ver todas las columnas:

Explicación:

Como resultado, nuestra función dividió la columna 'Embarked' en tres columnas: 'Embarked_C', 'Embarked_Q' y 'Embarked_S'. En total, tenemos tres categorías. Cada pasajero tiene su categoría en la columna 'Embarked'. Así, nuestra función crea tres columnas correspondientes a cada categoría y, en la fila de cada pasajero, coloca un 1 en la columna si la persona estaba relacionada inicialmente con esa geografía; de lo contrario, coloca un 0. De este modo, obtenemos un 1 en solo una columna.

pd.get_dummies(data, columns = ['Embarked'])

pd.get_dummies() - esta función convierte variables categóricas en variables dummy (1 o 0);
data - el data frame que se desea utilizar;
columns = ['Embarked'] - columnas que contienen variables categóricas que se desean transformar en variables dummy. Atención: es obligatorio colocar los nombres de las columnas en una lista.

¿Todo estuvo claro?

¡Gracias por tus comentarios!

Sección 5. Capítulo 6

single

Desliza para mostrar el menú

Ahora trabajarás con el conjunto de datos que no contiene valores faltantes. Los valores NaN de la columna 'Age' fueron reemplazados por el promedio de la columna, y el valor NaN de la columna 'Fare' fue eliminado. Así que ahora es momento de aprender cómo gestionar variables categóricas. Categórico significa que tienen algunas categorías. Por ejemplo, en la columna 'Sex', están 'male' y 'female'; o en la columna 'Embarked', están 'Q', 'S' y 'C'.

¿Qué debemos hacer para calcular la cantidad de valores en cada categoría o para obtener información sobre ellas?

Ya conoces .loc[], .isin(), .between() y muchas funciones, pero en pandas, existe una forma más elegante y conveniente de hacerlo. Utiliza la función .get_dummies(). Como ejemplo, la aplicaremos a la columna 'Embarked'. Observa la implementación y el resultado (mostraremos los nombres de 5 pasajeros aleatorios y las nuevas columnas que creamos).


              1234
            
import pandas as pd
data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/titanic3.csv', index_col = 0)
data = pd.get_dummies(data, columns = ['Embarked'])
print(data[['Name', 'Embarked_C', 'Embarked_Q', 'Embarked_S']].sample(5))

Analicemos una de las posibles salidas, específicamente una de las posibles combinaciones de cinco filas seleccionadas aleatoriamente. Puedes desplazarte horizontalmente por la tabla para ver todas las columnas:

Explicación:

Como resultado, nuestra función dividió la columna 'Embarked' en tres columnas: 'Embarked_C', 'Embarked_Q' y 'Embarked_S'. En total, tenemos tres categorías. Cada pasajero tiene su categoría en la columna 'Embarked'. Así, nuestra función crea tres columnas correspondientes a cada categoría y, en la fila de cada pasajero, coloca un 1 en la columna si la persona estaba relacionada inicialmente con esa geografía; de lo contrario, coloca un 0. De este modo, obtenemos un 1 en solo una columna.

pd.get_dummies(data, columns = ['Embarked'])

pd.get_dummies() - esta función convierte variables categóricas en variables dummy (1 o 0);
data - el data frame que se desea utilizar;
columns = ['Embarked'] - columnas que contienen variables categóricas que se desean transformar en variables dummy. Atención: es obligatorio colocar los nombres de las columnas en una lista.

Tarea

Desliza para comenzar a programar

La tarea consiste en transformar la columna 'Sex' en una con variables dummy en lugar de variables categóricas. Luego, mostrar la suma de los valores en cada categoría.

Solución

Cambia al escritorio para practicar en el mundo realContinúe desde donde se encuentra utilizando una de las siguientes opciones

¿Todo estuvo claro?

¡Gracias por tus comentarios!

Sección 5. Capítulo 6

single

Pregunte a AI

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla