Summary  
This chapter explains how to use a transformer to apply one-hot encoding on nominal categorical features, converting each unique category into its own binary indicator column without implying any order.  

General domain of usage  
Preprocessing categorical data for machine learning models

Quando se trata de valores **nominais**, o tratamento é um pouco mais complexo.

Para dados **ordinais**, como avaliações de usuários que variam de 'Terrível' a 'Ótimo', codificá-los como números de 0 a 4 é adequado, pois o modelo pode capturar a ordem inerente.

Em contraste, para uma característica como `'city'` com cinco categorias distintas, codificá-las como números de 0 a 4 sugeriria incorretamente uma ordem. Nesse caso, a **codificação one-hot** é uma escolha melhor, pois representa as categorias sem implicar uma hierarquia.


Para codificar **dados nominais**, utiliza-se o transformador `OneHotEncoder`. Ele cria uma coluna para cada valor único. Em seguida, para cada linha, define 1 na coluna correspondente ao valor dessa linha e 0 nas demais colunas.


O que originalmente era `'NewYork'` agora possui **1** na coluna `'City_NewYork'` e **0** nas outras colunas `City_`.

Aplicação do `OneHotEncoder` ao conjunto de dados **penguins**. As variáveis nominais são `'island'` e `'sex'`. A coluna `'species'` é o alvo e será tratada separadamente ao abordar **codificação do alvo** no próximo capítulo.


import pandas as pd

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins_imputed.csv')

print('island: ', df['island'].unique())
print('sex: ', df['sex'].unique())

Para aplicar o `OneHotEncoder`, inicializar o objeto do codificador e passar as colunas selecionadas para `.fit_transform()`, da mesma forma que com outros transformadores.

import pandas as pd
from sklearn.preprocessing import OneHotEncoder

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins_imputed.csv')
# Assign X, y variables
y = df['species']
X = df.drop('species', axis=1)
# Initialize an OneHotEncoder object
one_hot = OneHotEncoder()
# Print transformed 'sex', 'island' columns
print(one_hot.fit_transform(X[['sex', 'island']]).toarray())

O método `.toarray()` converte a **matriz esparsa** gerada pelo `OneHotEncoder` em um array denso do NumPy. **Arrays densos** exibem todos os valores explicitamente, facilitando a visualização e manipulação dos dados codificados dentro de um DataFrame. Matrizes esparsas armazenam apenas **elementos diferentes de zero**, otimizando o uso de memória. É possível omitir este método para ver a diferença no resultado.

Nota

`OneHotEncoder` cria novas colunas. Isso está correto?

O aprendizado de máquina está presente em todos os lugares atualmente. Quer aprender por conta própria? Este curso é uma introdução ao mundo do aprendizado de máquina para que você compreenda os conceitos básicos, trabalhe com o Scikit-learn – a biblioteca mais popular para ML – e desenvolva seu primeiro projeto de aprendizado de máquina.
Este curso é destinado a estudantes com conhecimentos básicos em Python, Pandas e Numpy.

Aprenda os conceitos de Machine Learning e o fluxo de trabalho de projetos de ML.

O pré-processamento é provavelmente a etapa mais importante de um projeto de ML. Este capítulo aborda as etapas de pré-processamento necessárias para praticamente qualquer conjunto de dados.

Um pipeline é uma maneira organizada de combinar todas as etapas de pré-processamento, bem como um modelo. Pipelines facilitam muito o treinamento e a utilização de um modelo.

A modelagem é a etapa mais divertida de um projeto de ML. Vamos aprender a construir, ajustar e avaliar o modelo!

One-Hot Encoder