Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Codificação One-Hot | Processamento de Dados Categóricos
Pré-processamento de Dados
course content

Conteúdo do Curso

Pré-processamento de Dados

Pré-processamento de Dados

1. Breve Introdução
2. Processamento de Dados Quantitativos
3. Processamento de Dados Categóricos
4. Processamento de Dados de Séries Temporais
5. Engenharia de Recursos
6. Passando para as Tarefas

Codificação One-Hot

Então, vamos começar a entender quando e quais métodos de codificação são melhores para usar.

A codificação one-hot geralmente é melhor usar quando a variável categórica não tem uma ordenação ou hierarquia natural entre as categorias e quando o número de categorias únicas é relativamente pequeno. É comumente usado para dados categóricos nominais, onde as categorias não têm uma ordem ou relação inerente entre elas.

Veja alguns exemplos de dados categóricos nominais:

  • Cores: vermelho, azul, verde, amarelo, etc.;
  • Países: EUA, Canadá, México, Japão, etc.;
  • Diferentes animais de estimação: cachorro, gato, pássaro, peixe, etc.;
  • Gêneros de música: pop, rock, hip hop, country, etc.;
  • Estado civil: solteiro, casado, divorciado, viúvo, etc..

A ideia básica por trás da codificação one-hot é criar uma variável binária (0/1) para cada categoria na variável categórica.

Podemos realizar a codificação one-hot usando o método pd.get_dummies(), que cria 3 novas colunas binárias para cada um dos três valores únicos de cor. O conjunto de dados resultante mostra a representação binária de cada valor de cor:

12345678910
import pandas as pd # Create a sample dataset with categorical data dataset = pd.DataFrame({'color': ['red', 'green', 'blue', 'red', 'blue']}) # Perform one-hot encoding one_hot_encoded = pd.get_dummies(dataset['color']) # Display the one-hot encoded dataframe print(one_hot_encoded)
copy

Tarefa

Utilize o método de codificação one-hot no dataset 'cars.csv'.

Tarefa

Utilize o método de codificação one-hot no dataset 'cars.csv'.

Mude para o desktop para praticar no mundo realContinue de onde você está usando uma das opções abaixo

Tudo estava claro?

Seção 3. Capítulo 2
toggle bottom row

Codificação One-Hot

Então, vamos começar a entender quando e quais métodos de codificação são melhores para usar.

A codificação one-hot geralmente é melhor usar quando a variável categórica não tem uma ordenação ou hierarquia natural entre as categorias e quando o número de categorias únicas é relativamente pequeno. É comumente usado para dados categóricos nominais, onde as categorias não têm uma ordem ou relação inerente entre elas.

Veja alguns exemplos de dados categóricos nominais:

  • Cores: vermelho, azul, verde, amarelo, etc.;
  • Países: EUA, Canadá, México, Japão, etc.;
  • Diferentes animais de estimação: cachorro, gato, pássaro, peixe, etc.;
  • Gêneros de música: pop, rock, hip hop, country, etc.;
  • Estado civil: solteiro, casado, divorciado, viúvo, etc..

A ideia básica por trás da codificação one-hot é criar uma variável binária (0/1) para cada categoria na variável categórica.

Podemos realizar a codificação one-hot usando o método pd.get_dummies(), que cria 3 novas colunas binárias para cada um dos três valores únicos de cor. O conjunto de dados resultante mostra a representação binária de cada valor de cor:

12345678910
import pandas as pd # Create a sample dataset with categorical data dataset = pd.DataFrame({'color': ['red', 'green', 'blue', 'red', 'blue']}) # Perform one-hot encoding one_hot_encoded = pd.get_dummies(dataset['color']) # Display the one-hot encoded dataframe print(one_hot_encoded)
copy

Tarefa

Utilize o método de codificação one-hot no dataset 'cars.csv'.

Tarefa

Utilize o método de codificação one-hot no dataset 'cars.csv'.

Mude para o desktop para praticar no mundo realContinue de onde você está usando uma das opções abaixo

Tudo estava claro?

Seção 3. Capítulo 2
toggle bottom row

Codificação One-Hot

Então, vamos começar a entender quando e quais métodos de codificação são melhores para usar.

A codificação one-hot geralmente é melhor usar quando a variável categórica não tem uma ordenação ou hierarquia natural entre as categorias e quando o número de categorias únicas é relativamente pequeno. É comumente usado para dados categóricos nominais, onde as categorias não têm uma ordem ou relação inerente entre elas.

Veja alguns exemplos de dados categóricos nominais:

  • Cores: vermelho, azul, verde, amarelo, etc.;
  • Países: EUA, Canadá, México, Japão, etc.;
  • Diferentes animais de estimação: cachorro, gato, pássaro, peixe, etc.;
  • Gêneros de música: pop, rock, hip hop, country, etc.;
  • Estado civil: solteiro, casado, divorciado, viúvo, etc..

A ideia básica por trás da codificação one-hot é criar uma variável binária (0/1) para cada categoria na variável categórica.

Podemos realizar a codificação one-hot usando o método pd.get_dummies(), que cria 3 novas colunas binárias para cada um dos três valores únicos de cor. O conjunto de dados resultante mostra a representação binária de cada valor de cor:

12345678910
import pandas as pd # Create a sample dataset with categorical data dataset = pd.DataFrame({'color': ['red', 'green', 'blue', 'red', 'blue']}) # Perform one-hot encoding one_hot_encoded = pd.get_dummies(dataset['color']) # Display the one-hot encoded dataframe print(one_hot_encoded)
copy

Tarefa

Utilize o método de codificação one-hot no dataset 'cars.csv'.

Tarefa

Utilize o método de codificação one-hot no dataset 'cars.csv'.

Mude para o desktop para praticar no mundo realContinue de onde você está usando uma das opções abaixo

Tudo estava claro?

Então, vamos começar a entender quando e quais métodos de codificação são melhores para usar.

A codificação one-hot geralmente é melhor usar quando a variável categórica não tem uma ordenação ou hierarquia natural entre as categorias e quando o número de categorias únicas é relativamente pequeno. É comumente usado para dados categóricos nominais, onde as categorias não têm uma ordem ou relação inerente entre elas.

Veja alguns exemplos de dados categóricos nominais:

  • Cores: vermelho, azul, verde, amarelo, etc.;
  • Países: EUA, Canadá, México, Japão, etc.;
  • Diferentes animais de estimação: cachorro, gato, pássaro, peixe, etc.;
  • Gêneros de música: pop, rock, hip hop, country, etc.;
  • Estado civil: solteiro, casado, divorciado, viúvo, etc..

A ideia básica por trás da codificação one-hot é criar uma variável binária (0/1) para cada categoria na variável categórica.

Podemos realizar a codificação one-hot usando o método pd.get_dummies(), que cria 3 novas colunas binárias para cada um dos três valores únicos de cor. O conjunto de dados resultante mostra a representação binária de cada valor de cor:

12345678910
import pandas as pd # Create a sample dataset with categorical data dataset = pd.DataFrame({'color': ['red', 'green', 'blue', 'red', 'blue']}) # Perform one-hot encoding one_hot_encoded = pd.get_dummies(dataset['color']) # Display the one-hot encoded dataframe print(one_hot_encoded)
copy

Tarefa

Utilize o método de codificação one-hot no dataset 'cars.csv'.

Mude para o desktop para praticar no mundo realContinue de onde você está usando uma das opções abaixo
Seção 3. Capítulo 2
Mude para o desktop para praticar no mundo realContinue de onde você está usando uma das opções abaixo
We're sorry to hear that something went wrong. What happened?
some-alt