Contenido del Curso
Procesamiento Previo de Datos
Procesamiento Previo de Datos
Codificación One-Hot
Así pues, empecemos a comprender cuándo y qué métodos de codificación es mejor utilizar.
Por lo general, es mejor utilizar la codificación única cuando la variable categórica no tiene un orden o jerarquía natural entre las categorías y cuando el número de categorías únicas es relativamente pequeño. Se suele utilizar para datos categóricos nominales, en los que las categorías no tienen un orden o relación inherente entre ellas.
Vea algunos ejemplos de datos categóricos nominales:
- Colores: rojo, azul, verde, amarillo, etc;
- Países: EE.UU., Canadá, México, Japón, etc;
- Diferentes mascotas: perro, gato, pájaro, pez, etc;
- Géneros musicales: pop, rock, hip hop, country, etc;
- Estado civil: soltero, casado, divorciado, viudo, etc.
La idea básica de la codificación one-hot es crear una variable binaria (0/1) para cada categoría de la variable categórica.
Podemos realizar la codificación one-hot utilizando el método pd.get_dummies()
, que crea 3 nuevas columnas binarias para cada uno de los tres valores de color únicos. El conjunto de datos resultante muestra la representación binaria de cada valor de color:
import pandas as pd # Create a sample dataset with categorical data dataset = pd.DataFrame({'color': ['red', 'green', 'blue', 'red', 'blue']}) # Perform one-hot encoding one_hot_encoded = pd.get_dummies(dataset['color']) # Display the one-hot encoded dataframe print(one_hot_encoded)
Swipe to show code editor
Utilice el método de codificación de una sola vez en el conjunto de datos 'cars.csv'
.
Solución
¡Gracias por tus comentarios!
Codificación One-Hot
Así pues, empecemos a comprender cuándo y qué métodos de codificación es mejor utilizar.
Por lo general, es mejor utilizar la codificación única cuando la variable categórica no tiene un orden o jerarquía natural entre las categorías y cuando el número de categorías únicas es relativamente pequeño. Se suele utilizar para datos categóricos nominales, en los que las categorías no tienen un orden o relación inherente entre ellas.
Vea algunos ejemplos de datos categóricos nominales:
- Colores: rojo, azul, verde, amarillo, etc;
- Países: EE.UU., Canadá, México, Japón, etc;
- Diferentes mascotas: perro, gato, pájaro, pez, etc;
- Géneros musicales: pop, rock, hip hop, country, etc;
- Estado civil: soltero, casado, divorciado, viudo, etc.
La idea básica de la codificación one-hot es crear una variable binaria (0/1) para cada categoría de la variable categórica.
Podemos realizar la codificación one-hot utilizando el método pd.get_dummies()
, que crea 3 nuevas columnas binarias para cada uno de los tres valores de color únicos. El conjunto de datos resultante muestra la representación binaria de cada valor de color:
import pandas as pd # Create a sample dataset with categorical data dataset = pd.DataFrame({'color': ['red', 'green', 'blue', 'red', 'blue']}) # Perform one-hot encoding one_hot_encoded = pd.get_dummies(dataset['color']) # Display the one-hot encoded dataframe print(one_hot_encoded)
Swipe to show code editor
Utilice el método de codificación de una sola vez en el conjunto de datos 'cars.csv'
.
Solución
¡Gracias por tus comentarios!