Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Вивчайте Завдання: Заповнення Пропущених Значень | Попередня Обробка Даних Із Scikit-learn
Quizzes & Challenges
Quizzes
Challenges
/
Вступ до машинного навчання з Python

bookЗавдання: Заповнення Пропущених Значень

Клас SimpleImputer автоматично замінює відсутні значення.

from sklearn.impute import SimpleImputer
imputer = SimpleImputer()

Основні параметри:

  • missing_value: позначення, яке вважається відсутнім (типово np.nan);
  • strategy: метод заповнення пропусків (типово 'mean');
  • fill_value: використовується, якщо strategy='constant'.

Як трансформер, надає методи .fit(), .transform(), та .fit_transform().

Вибір способу заповнення відсутніх даних є важливим. Поширений підхід:

  • числові ознаки → середнє значення;
  • категоріальні ознаки → найчастіше значення.

Опції параметра strategy:

  • 'mean' — заповнення середнім значенням;
  • 'median' — заповнення медіаною;
  • 'most_frequent' — заповнення модою;
  • 'constant' — заповнення вказаним значенням через fill_value.

missing_values визначає, які значення вважаються відсутніми (типово NaN, але може бути '' або інший маркер).

Note
Примітка

SimpleImputer очікує DataFrame, а не Series. Для вибору DataFrame з одним стовпцем слід використовувати подвійні дужки:

imputer.fit_transform(df[['column']])

fit_transform() повертає 2D-масив, але для присвоєння значення назад у стовпець DataFrame потрібен 1D-масив. Використайте .ravel() для перетворення результату:

df['column'] = imputer.fit_transform(df[['column']]).ravel()
Завдання

Swipe to start coding

Вам надано DataFrame df з даними про пінгвінів. У стовпці 'sex' є пропущені значення. Заповніть їх, використовуючи найчастішу категорію.

  1. Імпортуйте SimpleImputer;
  2. Створіть імпутер зі стратегією strategy='most_frequent';
  3. Застосуйте його до df[['sex']];
  4. Призначте імпутовані значення назад у df['sex'].

Рішення

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 2. Розділ 4
single

single

Запитати АІ

expand

Запитати АІ

ChatGPT

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Suggested prompts:

Can you explain how to use SimpleImputer with categorical data?

What happens if my data has multiple types of missing value markers?

Can you show an example of using a different strategy, like 'median'?

close

Awesome!

Completion rate improved to 3.13

bookЗавдання: Заповнення Пропущених Значень

Свайпніть щоб показати меню

Клас SimpleImputer автоматично замінює відсутні значення.

from sklearn.impute import SimpleImputer
imputer = SimpleImputer()

Основні параметри:

  • missing_value: позначення, яке вважається відсутнім (типово np.nan);
  • strategy: метод заповнення пропусків (типово 'mean');
  • fill_value: використовується, якщо strategy='constant'.

Як трансформер, надає методи .fit(), .transform(), та .fit_transform().

Вибір способу заповнення відсутніх даних є важливим. Поширений підхід:

  • числові ознаки → середнє значення;
  • категоріальні ознаки → найчастіше значення.

Опції параметра strategy:

  • 'mean' — заповнення середнім значенням;
  • 'median' — заповнення медіаною;
  • 'most_frequent' — заповнення модою;
  • 'constant' — заповнення вказаним значенням через fill_value.

missing_values визначає, які значення вважаються відсутніми (типово NaN, але може бути '' або інший маркер).

Note
Примітка

SimpleImputer очікує DataFrame, а не Series. Для вибору DataFrame з одним стовпцем слід використовувати подвійні дужки:

imputer.fit_transform(df[['column']])

fit_transform() повертає 2D-масив, але для присвоєння значення назад у стовпець DataFrame потрібен 1D-масив. Використайте .ravel() для перетворення результату:

df['column'] = imputer.fit_transform(df[['column']]).ravel()
Завдання

Swipe to start coding

Вам надано DataFrame df з даними про пінгвінів. У стовпці 'sex' є пропущені значення. Заповніть їх, використовуючи найчастішу категорію.

  1. Імпортуйте SimpleImputer;
  2. Створіть імпутер зі стратегією strategy='most_frequent';
  3. Застосуйте його до df[['sex']];
  4. Призначте імпутовані значення назад у df['sex'].

Рішення

Switch to desktopПерейдіть на комп'ютер для реальної практикиПродовжуйте з того місця, де ви зупинились, використовуючи один з наведених нижче варіантів
Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 2. Розділ 4
single

single

some-alt