Ознайомлення з Набором Даних
Почніть попередню обробку з ознайомлення з набором даних. Протягом цього курсу буде використовуватися набір даних про пінгвінів, із завданням передбачити вид пінгвіна.
Існує три можливі варіанти, які часто називають класами у машинному навчанні:
Ознаки: 'island'
, 'culmen_depth_mm'
, 'flipper_length_mm'
, 'body_mass_g'
та 'sex'
.
Набір даних зберігається у файлі penguins.csv
. Його можна завантажити за посиланням за допомогою функції pd.read_csv()
, щоб переглянути його вміст:
12345import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
У цьому наборі даних присутні кілька проблем, які необхідно вирішити:
- Відсутні дані;
- Категоріальні змінні;
- Різні масштаби ознак.
Відсутні дані
Більшість алгоритмів машинного навчання не можуть працювати з відсутніми значеннями напряму, тому їх потрібно обробити перед навчанням. Відсутні значення можна або видалити, або імпутувати (замінити на інші значення).
У pandas
порожні клітинки позначаються як NaN
. Багато моделей машинного навчання видадуть помилку, якщо у наборі даних буде хоча б одне значення NaN
.
Категоріальні дані
У наборі даних містяться категоріальні змінні, які моделі машинного навчання не можуть обробляти безпосередньо.
Категоріальні дані необхідно кодувати у числовий формат.
Різні масштаби
Значення 'culmen_depth_mm'
знаходяться в діапазоні від 13.1 до 21.5, тоді як значення 'body_mass_g'
— від 2700 до 6300. Через це деякі моделі машинного навчання можуть вважати ознаку 'body_mass_g'
набагато важливішою, ніж 'culmen_depth_mm'
.
Масштабування вирішує цю проблему. Це буде розглянуто в наступних розділах.
Дякуємо за ваш відгук!
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат
What are the three classes of penguins in the dataset?
How do I handle missing data in the penguin dataset?
Can you explain how to encode categorical variables for machine learning?
Awesome!
Completion rate improved to 3.13
Ознайомлення з Набором Даних
Свайпніть щоб показати меню
Почніть попередню обробку з ознайомлення з набором даних. Протягом цього курсу буде використовуватися набір даних про пінгвінів, із завданням передбачити вид пінгвіна.
Існує три можливі варіанти, які часто називають класами у машинному навчанні:
Ознаки: 'island'
, 'culmen_depth_mm'
, 'flipper_length_mm'
, 'body_mass_g'
та 'sex'
.
Набір даних зберігається у файлі penguins.csv
. Його можна завантажити за посиланням за допомогою функції pd.read_csv()
, щоб переглянути його вміст:
12345import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
У цьому наборі даних присутні кілька проблем, які необхідно вирішити:
- Відсутні дані;
- Категоріальні змінні;
- Різні масштаби ознак.
Відсутні дані
Більшість алгоритмів машинного навчання не можуть працювати з відсутніми значеннями напряму, тому їх потрібно обробити перед навчанням. Відсутні значення можна або видалити, або імпутувати (замінити на інші значення).
У pandas
порожні клітинки позначаються як NaN
. Багато моделей машинного навчання видадуть помилку, якщо у наборі даних буде хоча б одне значення NaN
.
Категоріальні дані
У наборі даних містяться категоріальні змінні, які моделі машинного навчання не можуть обробляти безпосередньо.
Категоріальні дані необхідно кодувати у числовий формат.
Різні масштаби
Значення 'culmen_depth_mm'
знаходяться в діапазоні від 13.1 до 21.5, тоді як значення 'body_mass_g'
— від 2700 до 6300. Через це деякі моделі машинного навчання можуть вважати ознаку 'body_mass_g'
набагато важливішою, ніж 'culmen_depth_mm'
.
Масштабування вирішує цю проблему. Це буде розглянуто в наступних розділах.
Дякуємо за ваш відгук!