Summary  
This chapter explains how to use a transformer to apply one-hot encoding on nominal categorical features, converting each unique category into its own binary indicator column without implying any order.  

General domain of usage  
Preprocessing categorical data for machine learning models

När det gäller **nominala** värden är hanteringen något mer komplex.

För **ordinala** data, såsom användarbetyg från 'Terrible' till 'Great', är det lämpligt att koda dem som siffror från 0 till 4 eftersom modellen kan fånga den inneboende ordningen.

Däremot, för en egenskap som `'city'` med fem distinkta kategorier, skulle kodning som siffror från 0 till 4 felaktigt antyda en ordning. I detta fall är **one-hot encoding** ett bättre val, eftersom det representerar kategorier utan att antyda någon hierarki.


För att koda **nominaldata** används transformatorn `OneHotEncoder`. Den skapar en kolumn för varje unikt värde. För varje rad sätts sedan 1 i kolumnen för radens värde och 0 i övriga kolumner.


Det som ursprungligen var `'NewYork'` har nu **1** i kolumnen `'City_NewYork'` och **0** i andra `City_`-kolumner.

Applicera `OneHotEncoder` på **penguins**-datasetet. De nominella egenskaperna är `'island'` och `'sex'`. Kolumnen `'species'` är målet och kommer att behandlas separat när **target encoding** diskuteras i nästa kapitel.


import pandas as pd

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins_imputed.csv')

print('island: ', df['island'].unique())
print('sex: ', df['sex'].unique())

För att använda `OneHotEncoder`, initiera encoder-objektet och skicka de valda kolumnerna till `.fit_transform()`, på samma sätt som med andra transformatorer.

import pandas as pd
from sklearn.preprocessing import OneHotEncoder

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins_imputed.csv')
# Assign X, y variables
y = df['species']
X = df.drop('species', axis=1)
# Initialize an OneHotEncoder object
one_hot = OneHotEncoder()
# Print transformed 'sex', 'island' columns
print(one_hot.fit_transform(X[['sex', 'island']]).toarray())

Metoden `.toarray()` konverterar den **glesa matrisen** som returneras av `OneHotEncoder` till en tät NumPy-array. **Täta arrayer** visar alla värden explicit, vilket gör det enklare att visualisera och manipulera den kodade datan i en DataFrame. Glesa matriser lagrar endast **icke-noll element**, vilket optimerar minnesanvändningen. Du kan utelämna denna metod för att se skillnaden i utdata.

Notering

`OneHotEncoder` skapar nya kolumner. Är detta korrekt?

Maskininlärning används nu överallt. Vill du lära dig det själv? Denna kurs är en introduktion till maskininlärningens värld där du får lära dig grundläggande begrepp, arbeta med scikit-learn – det mest populära biblioteket för ML, och bygga ditt första maskininlärningsprojekt.
Kursen är avsedd för studenter med grundläggande kunskaper i Python, Pandas och Numpy.

Lär dig maskininlärningskoncept och arbetsflödet för ML-projekt.

Förbehandling är troligen det viktigaste steget i ett ML-projekt. Detta kapitel behandlar de förbehandlingssteg som krävs för nästan alla datamängder.

En pipeline är ett smidigt sätt att kombinera alla förbehandlingssteg samt en modell. Pipelines gör det mycket enklare att träna och använda en modell.

Modellering är det mest underhållande steget i ett ML-projekt. Lär dig att bygga, finjustera och utvärdera modellen!

One-Hot Encoder