Contenido del Curso
Procesamiento Previo de Datos
Procesamiento Previo de Datos
Codificación Ordinal
Si la codificación unívoca ha transformado una variable categórica en una forma binaria, la codificación ordinal utiliza un algoritmo de transformación diferente. Pero empecemos por los datos para los que se utiliza.
La codificación ordinal es una técnica para codificar variables categóricas en valores numéricos basados en el orden o rango de las categorías. Se utiliza mejor cuando existe una clasificación u orden claro de las categorías. Por ejemplo, en una encuesta en la que se pide a los encuestados que valoren su satisfacción con un producto, las opciones pueden ser "Muy satisfecho", "Satisfecho", "Neutral", "Insatisfecho" o "Muy insatisfecho". Estas opciones pueden codificarse como 5, 4, 3, 2 y 1.
Codificación ordinal - es un método útil para codificar datos categóricos cuando las categorías tienen un orden o clasificación natural. Sin embargo, debe utilizarse con precaución, ya que asume que la distancia entre cada categoría es igual, lo que puede no ser siempre el caso. Además, la codificación ordinal puede no ser adecuada para algoritmos que asumen una relación lineal entre las categorías codificadas, como la regresión lineal o las redes neuronales.
La codificación ordinal tiene en cuenta el orden en que se encuentran las variables categóricas, es decir, antes de utilizarla es importante ordenar las variables de la categoría más baja a la más alta.
He aquí cómo utilizar la codificación ordinal en Python:
import pandas as pd from sklearn.preprocessing import OrdinalEncoder # Read the dataset dataset = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/9c23bf60-276c-4989-a9d7-3091716b4507/datasets/students.csv') cat_columns = ['Grade Level'] # Sorting categorical variables categories = [[None, "Freshman", "Sophomore", "Junior", "Senior"]] # Create an OrdinalEncoder model encoder = OrdinalEncoder(categories=categories) # Transform dataset dataset[cat_columns] = encoder.fit_transform(dataset[cat_columns]) print(dataset)
El método .fit_transform()
de la clase OrdinalEncoder
ajusta el codificador a las variables categóricas y las transforma en valores numéricos.
Swipe to show code editor
Lea el conjunto de datos 'controls.csv'
y transforme la columna 'Education_Level'
con codificación ordinal.
Solución
¡Gracias por tus comentarios!
Codificación Ordinal
Si la codificación unívoca ha transformado una variable categórica en una forma binaria, la codificación ordinal utiliza un algoritmo de transformación diferente. Pero empecemos por los datos para los que se utiliza.
La codificación ordinal es una técnica para codificar variables categóricas en valores numéricos basados en el orden o rango de las categorías. Se utiliza mejor cuando existe una clasificación u orden claro de las categorías. Por ejemplo, en una encuesta en la que se pide a los encuestados que valoren su satisfacción con un producto, las opciones pueden ser "Muy satisfecho", "Satisfecho", "Neutral", "Insatisfecho" o "Muy insatisfecho". Estas opciones pueden codificarse como 5, 4, 3, 2 y 1.
Codificación ordinal - es un método útil para codificar datos categóricos cuando las categorías tienen un orden o clasificación natural. Sin embargo, debe utilizarse con precaución, ya que asume que la distancia entre cada categoría es igual, lo que puede no ser siempre el caso. Además, la codificación ordinal puede no ser adecuada para algoritmos que asumen una relación lineal entre las categorías codificadas, como la regresión lineal o las redes neuronales.
La codificación ordinal tiene en cuenta el orden en que se encuentran las variables categóricas, es decir, antes de utilizarla es importante ordenar las variables de la categoría más baja a la más alta.
He aquí cómo utilizar la codificación ordinal en Python:
import pandas as pd from sklearn.preprocessing import OrdinalEncoder # Read the dataset dataset = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/9c23bf60-276c-4989-a9d7-3091716b4507/datasets/students.csv') cat_columns = ['Grade Level'] # Sorting categorical variables categories = [[None, "Freshman", "Sophomore", "Junior", "Senior"]] # Create an OrdinalEncoder model encoder = OrdinalEncoder(categories=categories) # Transform dataset dataset[cat_columns] = encoder.fit_transform(dataset[cat_columns]) print(dataset)
El método .fit_transform()
de la clase OrdinalEncoder
ajusta el codificador a las variables categóricas y las transforma en valores numéricos.
Swipe to show code editor
Lea el conjunto de datos 'controls.csv'
y transforme la columna 'Education_Level'
con codificación ordinal.
Solución
¡Gracias por tus comentarios!