Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Вивчайте Чому Необхідно Масштабувати Дані? | Попередня Обробка Даних Із Scikit-learn
Вступ до ML з Scikit-learn

bookЧому Необхідно Масштабувати Дані?

Після обробки пропущених значень і кодування категоріальних ознак, набір даних не містить проблем, які могли б спричинити помилки в моделі. Однак залишається ще одна задача: різні масштаби ознак.

Ця проблема не призведе до помилок при подачі поточних даних у модель, але може суттєво погіршити роботу деяких ML-моделей.

Розглянемо приклад, де одна ознака — це 'age', діапазон значень якої становить 1850, а друга ознака — 'income', діапазон якої — від $25,000 до $500,000. Очевидно, що різниця у десять років віку є значно важливішою, ніж різниця у десять доларів доходу.

Однак деякі моделі, наприклад k-NN (яку ми будемо використовувати в цьому курсі), можуть розглядати ці відмінності як однаково важливі. У результаті стовпець 'income' матиме набагато більший вплив на модель. Тому важливо, щоб ознаки мали приблизно однаковий діапазон значень, щоб k-NN працював ефективно.

Хоча інші моделі можуть бути менш чутливими до різних масштабів, масштабування даних може суттєво підвищити швидкість обробки. Тому масштабування даних зазвичай включають як фінальний етап попередньої обробки.

Note
Примітка

Як зазначалося вище, масштабування даних зазвичай є останнім кроком етапу попередньої обробки. Це пов'язано з тим, що зміни ознак після масштабування можуть знову зробити дані немасштабованими.

У наступному розділі буде розглянуто три найпоширеніші трансформатори для масштабування даних: StandardScaler, MinMaxScaler та MaxAbsScaler.

question mark

Чому важливо масштабувати ознаки в моделях машинного навчання, таких як k-ближчих сусідів (KNN)?

Select the correct answer

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 2. Розділ 9

Запитати АІ

expand

Запитати АІ

ChatGPT

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Suggested prompts:

What are the main differences between StandardScaler, MinMaxScaler, and MaxAbsScaler?

Why does k-NN require features to be on the same scale?

Can you explain how scaling improves processing speed in machine learning models?

Awesome!

Completion rate improved to 3.13

bookЧому Необхідно Масштабувати Дані?

Свайпніть щоб показати меню

Після обробки пропущених значень і кодування категоріальних ознак, набір даних не містить проблем, які могли б спричинити помилки в моделі. Однак залишається ще одна задача: різні масштаби ознак.

Ця проблема не призведе до помилок при подачі поточних даних у модель, але може суттєво погіршити роботу деяких ML-моделей.

Розглянемо приклад, де одна ознака — це 'age', діапазон значень якої становить 1850, а друга ознака — 'income', діапазон якої — від $25,000 до $500,000. Очевидно, що різниця у десять років віку є значно важливішою, ніж різниця у десять доларів доходу.

Однак деякі моделі, наприклад k-NN (яку ми будемо використовувати в цьому курсі), можуть розглядати ці відмінності як однаково важливі. У результаті стовпець 'income' матиме набагато більший вплив на модель. Тому важливо, щоб ознаки мали приблизно однаковий діапазон значень, щоб k-NN працював ефективно.

Хоча інші моделі можуть бути менш чутливими до різних масштабів, масштабування даних може суттєво підвищити швидкість обробки. Тому масштабування даних зазвичай включають як фінальний етап попередньої обробки.

Note
Примітка

Як зазначалося вище, масштабування даних зазвичай є останнім кроком етапу попередньої обробки. Це пов'язано з тим, що зміни ознак після масштабування можуть знову зробити дані немасштабованими.

У наступному розділі буде розглянуто три найпоширеніші трансформатори для масштабування даних: StandardScaler, MinMaxScaler та MaxAbsScaler.

question mark

Чому важливо масштабувати ознаки в моделях машинного навчання, таких як k-ближчих сусідів (KNN)?

Select the correct answer

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 2. Розділ 9
some-alt