Conteúdo do Curso
Pré-processamento de Dados
Pré-processamento de Dados
Codificação Ordinal
Se a codificação one-hot transformou uma variável categórica em forma binária, então a codificação ordinal utiliza um algoritmo de transformação diferente. Mas vamos começar entendendo para que tipo de dados ela é utilizada.
A codificação ordinal é uma técnica para codificar variáveis categóricas em valores numéricos com base na ordem ou no ranking das categorias. É melhor utilizada quando existe um claro ranqueamento ou ordem das categorias. Por exemplo, em uma pesquisa que pede aos respondentes para classificar sua satisfação com um produto, as opções podem ser "Muito Satisfeito", "Satisfeito", "Neutro", "Insatisfeito" ou "Muito Insatisfeito". Essas opções podem ser codificadas como 5, 4, 3, 2 e 1.
Codificação ordinal - é um método útil de codificação de dados categóricos quando as categorias possuem uma ordem ou ranking natural. No entanto, deve ser usada com cautela, pois presume que a distância entre cada categoria é igual, o que nem sempre pode ser o caso. Além disso, a codificação ordinal pode não ser adequada para algoritmos que assumem uma relação linear entre as categorias codificadas, como regressão linear ou redes neurais.
A codificação ordinal leva em conta a ordem em que as variáveis categóricas são encontradas; ou seja, antes de utilizá-la, é importante organizar as variáveis da categoria mais baixa para a mais alta.
Veja como utilizar a codificação ordinal em Python:
import pandas as pd from sklearn.preprocessing import OrdinalEncoder # Read the dataset dataset = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/9c23bf60-276c-4989-a9d7-3091716b4507/datasets/students.csv') cat_columns = ['Grade Level'] # Sorting categorical variables categories = [[None, "Freshman", "Sophomore", "Junior", "Senior"]] # Create an OrdinalEncoder model encoder = OrdinalEncoder(categories=categories) # Transform dataset dataset[cat_columns] = encoder.fit_transform(dataset[cat_columns]) print(dataset)
O método .fit_transform()
da classe OrdinalEncoder
ajusta o codificador às variáveis categóricas e as transforma em valores numéricos.
Swipe to show code editor
Leia o conjunto de dados 'controls.csv'
e transforme a coluna 'Education_Level'
com codificação ordinal.
Solução
Obrigado pelo seu feedback!
Codificação Ordinal
Se a codificação one-hot transformou uma variável categórica em forma binária, então a codificação ordinal utiliza um algoritmo de transformação diferente. Mas vamos começar entendendo para que tipo de dados ela é utilizada.
A codificação ordinal é uma técnica para codificar variáveis categóricas em valores numéricos com base na ordem ou no ranking das categorias. É melhor utilizada quando existe um claro ranqueamento ou ordem das categorias. Por exemplo, em uma pesquisa que pede aos respondentes para classificar sua satisfação com um produto, as opções podem ser "Muito Satisfeito", "Satisfeito", "Neutro", "Insatisfeito" ou "Muito Insatisfeito". Essas opções podem ser codificadas como 5, 4, 3, 2 e 1.
Codificação ordinal - é um método útil de codificação de dados categóricos quando as categorias possuem uma ordem ou ranking natural. No entanto, deve ser usada com cautela, pois presume que a distância entre cada categoria é igual, o que nem sempre pode ser o caso. Além disso, a codificação ordinal pode não ser adequada para algoritmos que assumem uma relação linear entre as categorias codificadas, como regressão linear ou redes neurais.
A codificação ordinal leva em conta a ordem em que as variáveis categóricas são encontradas; ou seja, antes de utilizá-la, é importante organizar as variáveis da categoria mais baixa para a mais alta.
Veja como utilizar a codificação ordinal em Python:
import pandas as pd from sklearn.preprocessing import OrdinalEncoder # Read the dataset dataset = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/9c23bf60-276c-4989-a9d7-3091716b4507/datasets/students.csv') cat_columns = ['Grade Level'] # Sorting categorical variables categories = [[None, "Freshman", "Sophomore", "Junior", "Senior"]] # Create an OrdinalEncoder model encoder = OrdinalEncoder(categories=categories) # Transform dataset dataset[cat_columns] = encoder.fit_transform(dataset[cat_columns]) print(dataset)
O método .fit_transform()
da classe OrdinalEncoder
ajusta o codificador às variáveis categóricas e as transforma em valores numéricos.
Swipe to show code editor
Leia o conjunto de dados 'controls.csv'
e transforme a coluna 'Education_Level'
com codificação ordinal.
Solução
Obrigado pelo seu feedback!