Summary
This chapter covers data preprocessing techniques using pandas, including handling missing values, encoding categorical variables, and preparing features for consistent scaling.

General domain of usage
Machine learning

Початок попередньої обробки даних із дослідження набору даних. Протягом цього курсу буде використовуватися **набір даних penguin**, із завданням передбачення виду пінгвіна.


Існує три можливі варіанти, які часто називають **класами** у машинному навчанні:

Ознаки: `'island'`, `'culmen_depth_mm'`, `'flipper_length_mm'`, `'body_mass_g'` та `'sex'`.

Набір даних зберігається у файлі `penguins.csv`. Його можна завантажити за посиланням за допомогою функції `pd.read_csv()`, щоб переглянути вміст:


import pandas as pd

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv')

print(df.head(10))

У цьому наборі даних присутні кілька проблем, які необхідно вирішити:

* Відсутні дані;
* Категоріальні змінні;
* Різні масштаби ознак.


## Відсутні дані

Більшість алгоритмів машинного навчання не можуть обробляти відсутні значення безпосередньо, тому їх потрібно усунути перед навчанням. Відсутні значення можна або **видалити**, або **імпутувати** (замінити на підставні значення).

У `pandas` порожні комірки позначаються як `NaN`. Багато моделей машинного навчання видадуть помилку, якщо у наборі даних є хоча б одне значення `NaN`.


## Категоріальні дані

У наборі даних містяться категоріальні змінні, які моделі машинного навчання не можуть обробляти безпосередньо.


Категоріальні дані необхідно **кодувати** у числову форму.


## Різні масштаби

Значення `'culmen_depth_mm'` знаходяться в діапазоні від 13.1 до 21.5, тоді як значення `'body_mass_g'` — від 2700 до 6300. Через це деякі моделі машинного навчання можуть вважати ознаку `'body_mass_g'` **набагато важливішою**, ніж `'culmen_depth_mm'`.

**Масштабування** вирішує цю проблему. Це буде розглянуто в наступних розділах.

Машинне навчання використовується всюди. Бажаєте опанувати його самостійно? Цей курс є вступом у світ машинного навчання, де ви ознайомитеся з базовими поняттями, попрацюєте з Scikit-learn – найпопулярнішою бібліотекою для машинного навчання, та створите свій перший проєкт з машинного навчання.
Курс призначений для студентів з базовими знаннями Python, Pandas та Numpy.

Ознайомлення з концепціями машинного навчання та робочим процесом проєкту ML.

Попередня обробка є, ймовірно, найважливішим етапом проєкту машинного навчання. У цьому розділі розглядаються кроки попередньої обробки, необхідні для майже будь-якого набору даних.

Конвеєр — це зручний спосіб об'єднати всі етапи попередньої обробки та модель. Конвеєри значно спрощують навчання та використання моделі.

Моделювання — це найцікавіший етап проєкту машинного навчання. Дізнаймося, як створювати, налаштовувати та оцінювати модель!

Ознайомлення з набором даних

Відсутні дані

Категоріальні дані

Різні масштаби