Робочий процес машинного навчання
Розглянемо робочий процес, який необхідно пройти для створення успішного проєкту машинного навчання.
Крок 1. Отримання даних
Почніть із визначення задачі та ідентифікації необхідних даних. Оберіть метрику для оцінки ефективності та визначте, який результат вважатиметься задовільним.
Далі зберіть дані, часто з декількох джерел, таких як бази даних, і приведіть їх до формату, придатного для обробки в Python.
Якщо дані вже доступні у файлі .csv, можна одразу переходити до попередньої обробки, і цей крок може бути пропущено.
Приклад
Лікарня надає історичні записи пацієнтів зі своєї бази даних разом із демографічною інформацією з національної медичної бази, зібрані у CSV-файл. Завдання — прогнозування повторних госпіталізацій пацієнтів, причому точність понад 80% визначена як цільова метрика для задовільної ефективності.
Крок 2. Попередня обробка даних
Цей крок включає:
- Очищення даних: обробка пропущених значень, нечислових даних тощо;
- Розвідувальний аналіз даних (EDA): аналіз і візуалізація набору даних для виявлення закономірностей і зв'язків між ознаками, а також для отримання загальних уявлень про те, як можна покращити навчальний набір;
- Інженерія ознак: вибір, трансформація або створення нових ознак на основі висновків EDA для підвищення ефективності моделі.
Приклад
У лікарняному наборі даних пропущені значення для ключових показників, таких як артеріальний тиск, можна заповнити, а категоріальні змінні, такі як раса, перетворити на числові коди для аналізу.
Крок 3. Моделювання
Цей крок включає:
- Вибір моделі: вибір однієї або декількох моделей, які найкраще підходять для задачі, з урахуванням характеристик алгоритму та експериментальних результатів;
- Налаштування гіперпараметрів: коригування гіперпараметрів для досягнення найкращої продуктивності.
Уявіть гіперпараметри як ручки та перемикачі на машині, які можна налаштовувати для контролю її роботи. У машинному навчанні ці "ручки та перемикачі" — це налаштування (значення), які спеціаліст з даних встановлює до початку навчання моделі. Наприклад, гіперпараметри можуть визначати, скільки часу навчати модель або наскільки детальним має бути навчання.
- Оцінювання моделі: вимірювання продуктивності на невідомих даних.
Приклад
Вибирається модель класифікації для прогнозування повторної госпіталізації пацієнтів, що підходить для бінарних результатів (повторна госпіталізація або ні). Її гіперпараметри налаштовуються для оптимізації продуктивності. Нарешті, оцінювання проводиться на окремій валідаційній або тестовій вибірці, щоб перевірити, наскільки добре модель узагальнює результати за межами навчальних даних.
Крок 4. Розгортання
Після отримання налаштованої моделі з задовільною продуктивністю наступним етапом є розгортання. Розгорнуту модель необхідно постійно моніторити, вдосконалювати за потреби та оновлювати новими даними у міру їх надходження. Цей процес часто повертає до Кроку 1.
Приклад
Після того, як модель точно прогнозує повторні госпіталізації, її інтегрують у систему бази даних лікарні для сповіщення персоналу про пацієнтів із високим ризиком під час госпіталізації, що підвищує якість догляду за пацієнтами.
Деякі з термінів, згаданих тут, можуть здатися незнайомими, але ми розглянемо їх детальніше пізніше у цьому курсі.
Попередня обробка даних і моделювання можуть виконуватися за допомогою бібліотеки scikit-learn (імпортується як sklearn). Наступні розділи зосереджені на базових етапах попередньої обробки та побудові конвеєрів. Далі розглядається етап моделювання на прикладі алгоритму k-найближчих сусідів (KNeighborsClassifier у sklearn). Це охоплює побудову моделі, налаштування гіперпараметрів і оцінювання продуктивності.
1. Яка основна мета етапу "Отримати дані" у проєкті машинного навчання?
2. Яке з наведеного найкраще описує важливість етапу "Попередня обробка даних" у робочому процесі проєкту машинного навчання?
Дякуємо за ваш відгук!
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат
Awesome!
Completion rate improved to 3.13
Робочий процес машинного навчання
Свайпніть щоб показати меню
Розглянемо робочий процес, який необхідно пройти для створення успішного проєкту машинного навчання.
Крок 1. Отримання даних
Почніть із визначення задачі та ідентифікації необхідних даних. Оберіть метрику для оцінки ефективності та визначте, який результат вважатиметься задовільним.
Далі зберіть дані, часто з декількох джерел, таких як бази даних, і приведіть їх до формату, придатного для обробки в Python.
Якщо дані вже доступні у файлі .csv, можна одразу переходити до попередньої обробки, і цей крок може бути пропущено.
Приклад
Лікарня надає історичні записи пацієнтів зі своєї бази даних разом із демографічною інформацією з національної медичної бази, зібрані у CSV-файл. Завдання — прогнозування повторних госпіталізацій пацієнтів, причому точність понад 80% визначена як цільова метрика для задовільної ефективності.
Крок 2. Попередня обробка даних
Цей крок включає:
- Очищення даних: обробка пропущених значень, нечислових даних тощо;
- Розвідувальний аналіз даних (EDA): аналіз і візуалізація набору даних для виявлення закономірностей і зв'язків між ознаками, а також для отримання загальних уявлень про те, як можна покращити навчальний набір;
- Інженерія ознак: вибір, трансформація або створення нових ознак на основі висновків EDA для підвищення ефективності моделі.
Приклад
У лікарняному наборі даних пропущені значення для ключових показників, таких як артеріальний тиск, можна заповнити, а категоріальні змінні, такі як раса, перетворити на числові коди для аналізу.
Крок 3. Моделювання
Цей крок включає:
- Вибір моделі: вибір однієї або декількох моделей, які найкраще підходять для задачі, з урахуванням характеристик алгоритму та експериментальних результатів;
- Налаштування гіперпараметрів: коригування гіперпараметрів для досягнення найкращої продуктивності.
Уявіть гіперпараметри як ручки та перемикачі на машині, які можна налаштовувати для контролю її роботи. У машинному навчанні ці "ручки та перемикачі" — це налаштування (значення), які спеціаліст з даних встановлює до початку навчання моделі. Наприклад, гіперпараметри можуть визначати, скільки часу навчати модель або наскільки детальним має бути навчання.
- Оцінювання моделі: вимірювання продуктивності на невідомих даних.
Приклад
Вибирається модель класифікації для прогнозування повторної госпіталізації пацієнтів, що підходить для бінарних результатів (повторна госпіталізація або ні). Її гіперпараметри налаштовуються для оптимізації продуктивності. Нарешті, оцінювання проводиться на окремій валідаційній або тестовій вибірці, щоб перевірити, наскільки добре модель узагальнює результати за межами навчальних даних.
Крок 4. Розгортання
Після отримання налаштованої моделі з задовільною продуктивністю наступним етапом є розгортання. Розгорнуту модель необхідно постійно моніторити, вдосконалювати за потреби та оновлювати новими даними у міру їх надходження. Цей процес часто повертає до Кроку 1.
Приклад
Після того, як модель точно прогнозує повторні госпіталізації, її інтегрують у систему бази даних лікарні для сповіщення персоналу про пацієнтів із високим ризиком під час госпіталізації, що підвищує якість догляду за пацієнтами.
Деякі з термінів, згаданих тут, можуть здатися незнайомими, але ми розглянемо їх детальніше пізніше у цьому курсі.
Попередня обробка даних і моделювання можуть виконуватися за допомогою бібліотеки scikit-learn (імпортується як sklearn). Наступні розділи зосереджені на базових етапах попередньої обробки та побудові конвеєрів. Далі розглядається етап моделювання на прикладі алгоритму k-найближчих сусідів (KNeighborsClassifier у sklearn). Це охоплює побудову моделі, налаштування гіперпараметрів і оцінювання продуктивності.
1. Яка основна мета етапу "Отримати дані" у проєкті машинного навчання?
2. Яке з наведеного найкраще описує важливість етапу "Попередня обробка даних" у робочому процесі проєкту машинного навчання?
Дякуємо за ваш відгук!