Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Вивчайте Ознайомлення з Набором Даних | Попередня Обробка Даних Із Scikit-learn
Вступ до ML з Scikit-learn

bookОзнайомлення з Набором Даних

Почніть попередню обробку з ознайомлення з набором даних. Протягом цього курсу буде використовуватися набір даних про пінгвінів, із завданням передбачити вид пінгвіна.

Існує три можливі варіанти, які часто називають класами у машинному навчанні:

Ознаки: 'island', 'culmen_depth_mm', 'flipper_length_mm', 'body_mass_g' та 'sex'.

Набір даних зберігається у файлі penguins.csv. Його можна завантажити за посиланням за допомогою функції pd.read_csv(), щоб переглянути його вміст:

12345
import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
copy

У цьому наборі даних присутні кілька проблем, які необхідно вирішити:

  • Відсутні дані;
  • Категоріальні змінні;
  • Різні масштаби ознак.

Відсутні дані

Більшість алгоритмів машинного навчання не можуть працювати з відсутніми значеннями напряму, тому їх потрібно обробити перед навчанням. Відсутні значення можна або видалити, або імпутувати (замінити на інші значення).

У pandas порожні клітинки позначаються як NaN. Багато моделей машинного навчання видадуть помилку, якщо у наборі даних буде хоча б одне значення NaN.

Категоріальні дані

У наборі даних містяться категоріальні змінні, які моделі машинного навчання не можуть обробляти безпосередньо.

Категоріальні дані необхідно кодувати у числовий формат.

Різні масштаби

Значення 'culmen_depth_mm' знаходяться в діапазоні від 13.1 до 21.5, тоді як значення 'body_mass_g' — від 2700 до 6300. Через це деякі моделі машинного навчання можуть вважати ознаку 'body_mass_g' набагато важливішою, ніж 'culmen_depth_mm'.

Масштабування вирішує цю проблему. Це буде розглянуто в наступних розділах.

question-icon

Відповідність проблеми та способу її вирішення.

Missing values –
Categorical data –

Different Scales –

Натисніть або перетягніть елементи та заповніть пропуски

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 2. Розділ 2

Запитати АІ

expand

Запитати АІ

ChatGPT

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Suggested prompts:

What are the three classes of penguins in the dataset?

How do I handle missing data in the penguin dataset?

Can you explain how to encode categorical variables for machine learning?

Awesome!

Completion rate improved to 3.13

bookОзнайомлення з Набором Даних

Свайпніть щоб показати меню

Почніть попередню обробку з ознайомлення з набором даних. Протягом цього курсу буде використовуватися набір даних про пінгвінів, із завданням передбачити вид пінгвіна.

Існує три можливі варіанти, які часто називають класами у машинному навчанні:

Ознаки: 'island', 'culmen_depth_mm', 'flipper_length_mm', 'body_mass_g' та 'sex'.

Набір даних зберігається у файлі penguins.csv. Його можна завантажити за посиланням за допомогою функції pd.read_csv(), щоб переглянути його вміст:

12345
import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
copy

У цьому наборі даних присутні кілька проблем, які необхідно вирішити:

  • Відсутні дані;
  • Категоріальні змінні;
  • Різні масштаби ознак.

Відсутні дані

Більшість алгоритмів машинного навчання не можуть працювати з відсутніми значеннями напряму, тому їх потрібно обробити перед навчанням. Відсутні значення можна або видалити, або імпутувати (замінити на інші значення).

У pandas порожні клітинки позначаються як NaN. Багато моделей машинного навчання видадуть помилку, якщо у наборі даних буде хоча б одне значення NaN.

Категоріальні дані

У наборі даних містяться категоріальні змінні, які моделі машинного навчання не можуть обробляти безпосередньо.

Категоріальні дані необхідно кодувати у числовий формат.

Різні масштаби

Значення 'culmen_depth_mm' знаходяться в діапазоні від 13.1 до 21.5, тоді як значення 'body_mass_g' — від 2700 до 6300. Через це деякі моделі машинного навчання можуть вважати ознаку 'body_mass_g' набагато важливішою, ніж 'culmen_depth_mm'.

Масштабування вирішує цю проблему. Це буде розглянуто в наступних розділах.

question-icon

Відповідність проблеми та способу її вирішення.

Missing values –
Categorical data –

Different Scales –

Натисніть або перетягніть елементи та заповніть пропуски

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 2. Розділ 2
some-alt