Вивчайте Перенавчання та регуляризація

Свайпніть щоб показати меню

Як показано в попередньому розділі, використовуючи PolynomialFeatures, можна створити складну межу прийняття рішень. Поліноміальні ознаки другого ступеня можуть навіть створити межі, зображені на малюнку нижче:

І це лише другий ступінь. Вищий ступінь може призвести до ще складніших форм. Але це має і недолік. Межа прийняття рішень, побудована за допомогою логістичної регресії, може стати надто складною, що призводить до перенавчання моделі.

Перенавчання — це коли модель, замість того щоб знаходити загальні закономірності в даних, створює дуже складну межу прийняття рішень для кожного навчального прикладу. Проте вона не показує хороших результатів на нових даних, хоча саме робота з невідомими даними є основним завданням моделі машинного навчання.

Регуляризація вирішує проблему перенавчання. Насправді, l2-регуляризація використовується у класі LogisticRegression за замовчуванням. Однак необхідно налаштувати, наскільки сильно модель має бути регуляризована. Це контролюється параметром C:

більше значення C — менша регуляризація, більше перенавчання;
менше значення C — сильніша регуляризація, менше перенавчання (але можливе недонавчання).

Які значення C забезпечать хорошу модель, залежить від набору даних, тому краще обирати їх за допомогою GridSearchCV.

Примітка

Під час використання логістичної регресії з регуляризацією важливо масштабувати дані. Регуляризація штрафує великі коефіцієнти, і без масштабування ознаки з більшими значеннями можуть спотворювати результати. Насправді, масштабування майже завжди необхідне — навіть якщо регуляризація не використовується.

Клас LogisticRegression за замовчуванням включає регуляризацію, тому слід або вимкнути регуляризацію (встановивши penalty=None), або масштабувати дані (наприклад, використовуючи StandardScaler).

Примітка

Якщо ви використовуєте одночасно PolynomialFeatures та StandardScaler, переконайтеся, що застосовуєте StandardScaler після створення поліноміальних ознак. Масштабування даних до поліноміального розширення може спотворити отримані ознаки, оскільки операції, такі як піднесення до квадрату або множення вже стандартизованих значень, можуть призвести до неприродних розподілів.

1. Оберіть НЕПРАВИЛЬНЕ твердження.

2. Який правильний порядок попередньої обробки даних

Все було зрозуміло?

Дякуємо за ваш відгук!

Секція 2. Розділ 5

Запитати АІ

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Секція 2. Розділ 5