Чому Потрібно Масштабувати Дані?
Після обробки відсутніх значень і кодування категоріальних ознак, набір даних не містить проблем, які можуть спричинити помилки в моделі. Однак залишається ще одна задача: різні масштаби ознак.
Ця проблема не спричинить помилок при передачі даних у поточному стані до моделі, але може суттєво погіршити роботу деяких ML-моделей.
Розглянемо приклад, де одна ознака — це 'age'
, діапазон значень від 18 до 50, а друга ознака — 'income'
, діапазон значень від $25,000 до $500,000. Очевидно, що різниця у десять років віку є значно суттєвішою, ніж різниця у десять доларів доходу.
Однак деякі моделі, наприклад k-NN (яку ми будемо використовувати в цьому курсі), можуть розглядати ці відмінності як однаково важливі. У результаті стовпець 'income'
матиме набагато більший вплив на модель. Тому для ефективної роботи k-NN важливо, щоб ознаки мали приблизно однаковий діапазон значень.
Хоча інші моделі можуть бути менш чутливими до різних масштабів, масштабування даних може значно підвищити швидкість обробки. Тому масштабування даних зазвичай включають як фінальний етап попередньої обробки.
Як зазначалося вище, масштабування даних зазвичай є останнім кроком етапу попередньої обробки. Це пов'язано з тим, що зміни у ознаках після масштабування можуть призвести до втрати масштабованості даних.
У наступному розділі розглядатимуться три найпоширеніші трансформатори для масштабування даних: StandardScaler
, MinMaxScaler
та MaxAbsScaler
.
Дякуємо за ваш відгук!
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат
What are the main differences between StandardScaler, MinMaxScaler, and MaxAbsScaler?
Why does k-NN require features to be on the same scale?
Can you explain how scaling improves processing speed in machine learning models?
Awesome!
Completion rate improved to 3.13
Чому Потрібно Масштабувати Дані?
Свайпніть щоб показати меню
Після обробки відсутніх значень і кодування категоріальних ознак, набір даних не містить проблем, які можуть спричинити помилки в моделі. Однак залишається ще одна задача: різні масштаби ознак.
Ця проблема не спричинить помилок при передачі даних у поточному стані до моделі, але може суттєво погіршити роботу деяких ML-моделей.
Розглянемо приклад, де одна ознака — це 'age'
, діапазон значень від 18 до 50, а друга ознака — 'income'
, діапазон значень від $25,000 до $500,000. Очевидно, що різниця у десять років віку є значно суттєвішою, ніж різниця у десять доларів доходу.
Однак деякі моделі, наприклад k-NN (яку ми будемо використовувати в цьому курсі), можуть розглядати ці відмінності як однаково важливі. У результаті стовпець 'income'
матиме набагато більший вплив на модель. Тому для ефективної роботи k-NN важливо, щоб ознаки мали приблизно однаковий діапазон значень.
Хоча інші моделі можуть бути менш чутливими до різних масштабів, масштабування даних може значно підвищити швидкість обробки. Тому масштабування даних зазвичай включають як фінальний етап попередньої обробки.
Як зазначалося вище, масштабування даних зазвичай є останнім кроком етапу попередньої обробки. Це пов'язано з тим, що зміни у ознаках після масштабування можуть призвести до втрати масштабованості даних.
У наступному розділі розглядатимуться три найпоширеніші трансформатори для масштабування даних: StandardScaler
, MinMaxScaler
та MaxAbsScaler
.
Дякуємо за ваш відгук!