Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Вивчайте Підсумок моделювання | Моделювання
Вступ до ML з Scikit-learn

bookПідсумок моделювання

Тепер ви дізналися, як створювати модель, інтегрувати її у конвеєр та налаштовувати гіперпараметри. Також розглянуто два методи оцінки: розділення на навчальну та тестову вибірки і крос-валідацію.

Наступний крок — поєднання оцінки моделі з налаштуванням гіперпараметрів за допомогою GridSearchCV або RandomizedSearchCV.

Note
Примітка

Оскільки наш набір даних дуже малий, ми використаємо GridSearchCV, але все, що зазначено нижче, також стосується і RandomizedSearchCV.

Мета — отримати найвищий бал крос-валідації на наборі даних, оскільки крос-валідація є більш стабільною і менш залежить від способу розділення даних, ніж підхід train-test.

GridSearchCV спеціально створений для цієї мети: він визначає гіперпараметри, які забезпечують найкращий бал крос-валідації, створюючи оптимізовану модель, що найкраще працює на навчальних даних.

Атрибут .best_score_ зберігає найвищий бал крос-валідації, знайдений під час пошуку.

Note
Примітка

Найкращі гіперпараметри для однієї конкретної вибірки можуть бути не найкращими загалом. Якщо додати нові дані, оптимальні гіперпараметри можуть змінитися.

Відповідно, значення .best_score_, яке було досягнуто, може бути вищим за результат на повністю нових даних, оскільки гіперпараметри можуть не так добре узагальнюватися за межами навчальної вибірки.

Зазвичай набір даних спочатку розділяють на навчальну та тестову вибірки. Крос-валідацію застосовують до навчальної вибірки для тонкого налаштування моделі та визначення найкращої конфігурації. Нарешті, оптимізовану модель оцінюють на тестовій вибірці, яка містить повністю нові дані, щоб оцінити її ефективність у реальних умовах.

Підсумовуючи, повний робочий процес складається з:

  1. Передобробки даних;
  2. Розділення набору даних на навчальну та тестову вибірки;
  3. Використання крос-валідації на навчальній вибірці для пошуку найкращої моделі;
  4. Оцінювання цієї моделі на тестовій вибірці.
Note
Додаткове вивчення

Третій етап зазвичай передбачає тестування декількох алгоритмів і налаштування їхніх гіперпараметрів для визначення найкращого варіанту. Для спрощення в цьому курсі використовувався лише один алгоритм.

Перш ніж перейти до фінального завдання, важливо зазначити, що крос-валідація не є єдиним методом для тонкого налаштування моделей. Із зростанням розміру наборів даних обчислення оцінок крос-валідації стає більш тривалим, а звичайний поділ на тренувальний і тестовий набори забезпечує більшу стабільність завдяки збільшеному розміру тестового набору.

Відповідно, великі набори даних часто поділяють на три частини: тренувальний набір, валідаційний набір та тестовий набір. Модель навчається на тренувальному наборі та оцінюється на валідаційному наборі для вибору моделі або гіперпараметрів, які показують найкращі результати.

Цей вибір здійснюється за допомогою оцінок на валідаційному наборі замість оцінок крос-валідації. Нарешті, обрана модель перевіряється на тестовому наборі, який складається з повністю нових даних, щоб перевірити її ефективність.

Набір даних penguins є невеликим і містить лише 342 екземпляри. Через обмежений розмір для оцінювання у наступному розділі буде використано оцінку за допомогою крос-валідації.

question mark

Чому крос-валідація є особливо цінною для налаштування гіперпараметрів на менших наборах даних, на відміну від більших, де може бути доцільніше використовувати розділення на навчальну та тестову вибірки?

Select the correct answer

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 4. Розділ 9

Запитати АІ

expand

Запитати АІ

ChatGPT

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Suggested prompts:

What is the difference between cross-validation and the train-test split?

How does GridSearchCV help in hyperparameter tuning?

Why is a validation set used for large datasets?

Awesome!

Completion rate improved to 3.13

bookПідсумок моделювання

Свайпніть щоб показати меню

Тепер ви дізналися, як створювати модель, інтегрувати її у конвеєр та налаштовувати гіперпараметри. Також розглянуто два методи оцінки: розділення на навчальну та тестову вибірки і крос-валідацію.

Наступний крок — поєднання оцінки моделі з налаштуванням гіперпараметрів за допомогою GridSearchCV або RandomizedSearchCV.

Note
Примітка

Оскільки наш набір даних дуже малий, ми використаємо GridSearchCV, але все, що зазначено нижче, також стосується і RandomizedSearchCV.

Мета — отримати найвищий бал крос-валідації на наборі даних, оскільки крос-валідація є більш стабільною і менш залежить від способу розділення даних, ніж підхід train-test.

GridSearchCV спеціально створений для цієї мети: він визначає гіперпараметри, які забезпечують найкращий бал крос-валідації, створюючи оптимізовану модель, що найкраще працює на навчальних даних.

Атрибут .best_score_ зберігає найвищий бал крос-валідації, знайдений під час пошуку.

Note
Примітка

Найкращі гіперпараметри для однієї конкретної вибірки можуть бути не найкращими загалом. Якщо додати нові дані, оптимальні гіперпараметри можуть змінитися.

Відповідно, значення .best_score_, яке було досягнуто, може бути вищим за результат на повністю нових даних, оскільки гіперпараметри можуть не так добре узагальнюватися за межами навчальної вибірки.

Зазвичай набір даних спочатку розділяють на навчальну та тестову вибірки. Крос-валідацію застосовують до навчальної вибірки для тонкого налаштування моделі та визначення найкращої конфігурації. Нарешті, оптимізовану модель оцінюють на тестовій вибірці, яка містить повністю нові дані, щоб оцінити її ефективність у реальних умовах.

Підсумовуючи, повний робочий процес складається з:

  1. Передобробки даних;
  2. Розділення набору даних на навчальну та тестову вибірки;
  3. Використання крос-валідації на навчальній вибірці для пошуку найкращої моделі;
  4. Оцінювання цієї моделі на тестовій вибірці.
Note
Додаткове вивчення

Третій етап зазвичай передбачає тестування декількох алгоритмів і налаштування їхніх гіперпараметрів для визначення найкращого варіанту. Для спрощення в цьому курсі використовувався лише один алгоритм.

Перш ніж перейти до фінального завдання, важливо зазначити, що крос-валідація не є єдиним методом для тонкого налаштування моделей. Із зростанням розміру наборів даних обчислення оцінок крос-валідації стає більш тривалим, а звичайний поділ на тренувальний і тестовий набори забезпечує більшу стабільність завдяки збільшеному розміру тестового набору.

Відповідно, великі набори даних часто поділяють на три частини: тренувальний набір, валідаційний набір та тестовий набір. Модель навчається на тренувальному наборі та оцінюється на валідаційному наборі для вибору моделі або гіперпараметрів, які показують найкращі результати.

Цей вибір здійснюється за допомогою оцінок на валідаційному наборі замість оцінок крос-валідації. Нарешті, обрана модель перевіряється на тестовому наборі, який складається з повністю нових даних, щоб перевірити її ефективність.

Набір даних penguins є невеликим і містить лише 342 екземпляри. Через обмежений розмір для оцінювання у наступному розділі буде використано оцінку за допомогою крос-валідації.

question mark

Чому крос-валідація є особливо цінною для налаштування гіперпараметрів на менших наборах даних, на відміну від більших, де може бути доцільніше використовувати розділення на навчальну та тестову вибірки?

Select the correct answer

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 4. Розділ 9
some-alt