Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Вивчайте Робочий Процес Машинного Навчання | Концепції Машинного Навчання
Вступ до ML з Scikit-learn

bookРобочий Процес Машинного Навчання

Розглянемо робочий процес, який необхідно пройти для створення успішного проєкту машинного навчання.

Крок 1. Отримання даних

Почніть із визначення задачі та ідентифікації необхідних даних. Оберіть метрику для оцінки ефективності та визначте, який результат вважатиметься задовільним.

Далі зберіть дані, часто з декількох джерел, таких як бази даних, і приведіть їх до формату, придатного для обробки в Python.

Якщо дані вже доступні у файлі .csv, можна одразу переходити до попередньої обробки, і цей крок може бути пропущено.

Приклад

Лікарня надає історичні записи пацієнтів зі своєї бази даних разом із демографічною інформацією з національної медичної бази, зібрані у CSV-файл. Завдання — прогнозування повторних госпіталізацій пацієнтів, причому точність понад 80% визначена як цільова метрика для задовільної ефективності.

Крок 2. Попередня обробка даних

Цей етап складається з:

  • Очищення даних: обробка пропущених значень, нечислових даних тощо;
  • Розвідувальний аналіз даних (EDA): аналіз і візуалізація набору даних для виявлення закономірностей і взаємозв'язків між ознаками, а також для отримання загальних уявлень про те, як можна покращити навчальний набір;
  • Створення ознак: вибір, трансформація або створення нових ознак на основі висновків EDA для підвищення ефективності моделі.

Приклад

У наборі даних лікарні пропущені значення для ключових показників, таких як артеріальний тиск, можуть бути заповнені, а категоріальні змінні, такі як раса, перетворені на числові коди для аналізу.

Крок 3. Моделювання

Цей крок включає:

  • Вибір моделі: вибір однієї або декількох моделей, які найбільше підходять для задачі, на основі характеристик алгоритму та експериментальних результатів;
  • Налаштування гіперпараметрів: коригування гіперпараметрів для досягнення найкращої продуктивності.
Note
Дізнатися більше

Уявіть гіперпараметри як ручки та перемикачі на машині, які можна налаштовувати для контролю її роботи. У машинному навчанні ці "ручки та перемикачі" — це налаштування (значення), які спеціаліст з даних встановлює до початку навчання моделі. Наприклад, гіперпараметри можуть визначати, скільки часу навчати модель або наскільки детальним має бути навчання.

  • Оцінювання моделі: вимірювання продуктивності на невідомих даних.

Приклад

Вибирається модель класифікації для прогнозування повторної госпіталізації пацієнтів, що підходить для бінарних результатів (повторна госпіталізація або ні). Її гіперпараметри налаштовуються для оптимізації продуктивності. Нарешті, оцінювання проводиться на окремій валідаційній або тестовій вибірці, щоб перевірити, наскільки добре модель узагальнює результати за межами навчальних даних.

Крок 4. Розгортання

Після отримання налаштованої моделі з задовільною продуктивністю наступним етапом є розгортання. Розгорнуту модель необхідно постійно моніторити, вдосконалювати за потреби та оновлювати новими даними у міру їх надходження. Цей процес часто повертає до Кроку 1.

Приклад

Після того, як модель точно прогнозує повторні госпіталізації, її інтегрують у базу даних лікарні для сповіщення персоналу про пацієнтів із високим ризиком під час госпіталізації, що підвищує якість догляду за пацієнтами.

Note
Примітка

Деякі з термінів, згаданих тут, можуть здатися незнайомими, але ми розглянемо їх детальніше пізніше у цьому курсі.

Попередня обробка даних і моделювання можуть виконуватися за допомогою бібліотеки scikit-learn (імпортується як sklearn). У наступних розділах розглядаються базові етапи попередньої обробки та побудова конвеєрів. Далі етап моделювання демонструється на прикладі алгоритму k-ближчих сусідів (KNeighborsClassifier у sklearn). Це охоплює побудову моделі, налаштування гіперпараметрів і оцінювання продуктивності.

1. Яка основна мета етапу «Отримати дані» у проєкті машинного навчання?

2. Яке з наведеного найкраще описує важливість етапу «Попередня обробка даних» у робочому процесі проєкту машинного навчання?

question mark

Яка основна мета етапу «Отримати дані» у проєкті машинного навчання?

Select the correct answer

question mark

Яке з наведеного найкраще описує важливість етапу «Попередня обробка даних» у робочому процесі проєкту машинного навчання?

Select the correct answer

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 1. Розділ 5

Запитати АІ

expand

Запитати АІ

ChatGPT

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Awesome!

Completion rate improved to 3.13

bookРобочий Процес Машинного Навчання

Свайпніть щоб показати меню

Розглянемо робочий процес, який необхідно пройти для створення успішного проєкту машинного навчання.

Крок 1. Отримання даних

Почніть із визначення задачі та ідентифікації необхідних даних. Оберіть метрику для оцінки ефективності та визначте, який результат вважатиметься задовільним.

Далі зберіть дані, часто з декількох джерел, таких як бази даних, і приведіть їх до формату, придатного для обробки в Python.

Якщо дані вже доступні у файлі .csv, можна одразу переходити до попередньої обробки, і цей крок може бути пропущено.

Приклад

Лікарня надає історичні записи пацієнтів зі своєї бази даних разом із демографічною інформацією з національної медичної бази, зібрані у CSV-файл. Завдання — прогнозування повторних госпіталізацій пацієнтів, причому точність понад 80% визначена як цільова метрика для задовільної ефективності.

Крок 2. Попередня обробка даних

Цей етап складається з:

  • Очищення даних: обробка пропущених значень, нечислових даних тощо;
  • Розвідувальний аналіз даних (EDA): аналіз і візуалізація набору даних для виявлення закономірностей і взаємозв'язків між ознаками, а також для отримання загальних уявлень про те, як можна покращити навчальний набір;
  • Створення ознак: вибір, трансформація або створення нових ознак на основі висновків EDA для підвищення ефективності моделі.

Приклад

У наборі даних лікарні пропущені значення для ключових показників, таких як артеріальний тиск, можуть бути заповнені, а категоріальні змінні, такі як раса, перетворені на числові коди для аналізу.

Крок 3. Моделювання

Цей крок включає:

  • Вибір моделі: вибір однієї або декількох моделей, які найбільше підходять для задачі, на основі характеристик алгоритму та експериментальних результатів;
  • Налаштування гіперпараметрів: коригування гіперпараметрів для досягнення найкращої продуктивності.
Note
Дізнатися більше

Уявіть гіперпараметри як ручки та перемикачі на машині, які можна налаштовувати для контролю її роботи. У машинному навчанні ці "ручки та перемикачі" — це налаштування (значення), які спеціаліст з даних встановлює до початку навчання моделі. Наприклад, гіперпараметри можуть визначати, скільки часу навчати модель або наскільки детальним має бути навчання.

  • Оцінювання моделі: вимірювання продуктивності на невідомих даних.

Приклад

Вибирається модель класифікації для прогнозування повторної госпіталізації пацієнтів, що підходить для бінарних результатів (повторна госпіталізація або ні). Її гіперпараметри налаштовуються для оптимізації продуктивності. Нарешті, оцінювання проводиться на окремій валідаційній або тестовій вибірці, щоб перевірити, наскільки добре модель узагальнює результати за межами навчальних даних.

Крок 4. Розгортання

Після отримання налаштованої моделі з задовільною продуктивністю наступним етапом є розгортання. Розгорнуту модель необхідно постійно моніторити, вдосконалювати за потреби та оновлювати новими даними у міру їх надходження. Цей процес часто повертає до Кроку 1.

Приклад

Після того, як модель точно прогнозує повторні госпіталізації, її інтегрують у базу даних лікарні для сповіщення персоналу про пацієнтів із високим ризиком під час госпіталізації, що підвищує якість догляду за пацієнтами.

Note
Примітка

Деякі з термінів, згаданих тут, можуть здатися незнайомими, але ми розглянемо їх детальніше пізніше у цьому курсі.

Попередня обробка даних і моделювання можуть виконуватися за допомогою бібліотеки scikit-learn (імпортується як sklearn). У наступних розділах розглядаються базові етапи попередньої обробки та побудова конвеєрів. Далі етап моделювання демонструється на прикладі алгоритму k-ближчих сусідів (KNeighborsClassifier у sklearn). Це охоплює побудову моделі, налаштування гіперпараметрів і оцінювання продуктивності.

1. Яка основна мета етапу «Отримати дані» у проєкті машинного навчання?

2. Яке з наведеного найкраще описує важливість етапу «Попередня обробка даних» у робочому процесі проєкту машинного навчання?

question mark

Яка основна мета етапу «Отримати дані» у проєкті машинного навчання?

Select the correct answer

question mark

Яке з наведеного найкраще описує важливість етапу «Попередня обробка даних» у робочому процесі проєкту машинного навчання?

Select the correct answer

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 1. Розділ 5
some-alt