Вивчайте One-Hot Encoder | Попередня Обробка Даних Із Scikit-learn

Свайпніть щоб показати меню

Щодо номінальних значень, їх обробка є дещо складнішою.

Для порядкових даних, таких як оцінки користувачів від 'Жахливо' до 'Чудово', кодування їх числами від 0 до 4 є доцільним, оскільки модель може враховувати притаманний порядок.

Натомість для ознаки на кшталт 'city' з п’ятьма різними категоріями кодування числами від 0 до 4 помилково вказуватиме на наявність порядку. У такому випадку one-hot кодування є кращим вибором, оскільки воно представляє категорії без натяку на ієрархію.

Для кодування номінальних даних використовується трансформер OneHotEncoder. Він створює стовпець для кожного унікального значення. Далі для кожного рядка встановлюється 1 у стовпці, що відповідає значенню цього рядка, а в інших стовпцях — 0.

Те, що спочатку було 'NewYork', тепер має 1 у стовпці 'City_NewYork' та 0 в інших стовпцях City_.

Застосування OneHotEncoder до набору даних penguins. Номінативні ознаки: 'island' та 'sex'. Стовпець 'species' є цільовим і буде розглядатися окремо під час обговорення target encoding у наступному розділі.


              123456
            
import pandas as pd

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins_imputed.csv')

print('island: ', df['island'].unique())
print('sex: ', df['sex'].unique())

Щоб застосувати OneHotEncoder, ініціалізуйте об'єкт енкодера та передайте вибрані стовпці до методу .fit_transform(), так само, як і з іншими трансформерами.


              1234567891011
            
import pandas as pd
from sklearn.preprocessing import OneHotEncoder

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins_imputed.csv')
# Assign X, y variables
y = df['species']
X = df.drop('species', axis=1)
# Initialize an OneHotEncoder object
one_hot = OneHotEncoder()
# Print transformed 'sex', 'island' columns
print(one_hot.fit_transform(X[['sex', 'island']]).toarray())

Примітка

Метод .toarray() перетворює розріджену матрицю (sparse matrix), отриману з OneHotEncoder, у щільний масив NumPy. Щільні масиви відображають усі значення явно, що полегшує візуалізацію та обробку закодованих даних у DataFrame. Розріджені матриці зберігають лише ненульові елементи, оптимізуючи використання пам'яті. Ви можете пропустити цей метод, щоб побачити різницю у виведенні.

Все було зрозуміло?

Дякуємо за ваш відгук!

Секція 2. Розділ 6

Запитати АІ

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Секція 2. Розділ 6