Свайпніть щоб показати меню

Логістична регресія вимагає від комп'ютера лише навчитися знаходити найкращі параметри $β$ . Для цього потрібно визначити, що означає «найкращі параметри». Згадаємо, як працює модель: вона прогнозує $p$ — ймовірність належності до класу 1:

p = \sigma (z) = \sigma (\beta_0 + \beta_1x_1 + ...)

Де

\sigma (z) = \frac{1}{1 + e^{-z}}

Очевидно, що модель з хорошими параметрами — це така, яка прогнозує високе (близьке до 1) $p$ для об'єктів, що дійсно належать до класу 1, і низьке (близьке до 0) $p$ для об'єктів, що належать до класу 0.

Для оцінки якості моделі використовується функція втрат. У лінійній регресії використовувалася MSE (середньоквадратична помилка) як функція втрат. Цього разу використовується інша функція:

Тут $p$ позначає ймовірність належності до класу 1, передбачену моделлю, а $y$ — це фактичне цільове значення.

Ця функція не лише штрафує за неправильні передбачення, а й враховує впевненість моделі у своїх прогнозах. Як показано на зображенні вище, коли значення $p$ близьке до $y$ (фактичної цілі), функція втрат залишається відносно малою, що свідчить про впевнене вибрання правильної категорії. Навпаки, якщо передбачення неправильне, функція втрат зростає експоненціально зі збільшенням впевненості моделі у неправильному класі.

У контексті бінарної класифікації із сигмоїдною функцією використовується функція втрат, яка називається бінарна крос-ентропія (binary cross-entropy loss), як показано вище. Важливо зазначити, що існує також загальна форма, відома як крос-ентропія (cross-entropy loss, або категоріальна крос-ентропія), яка використовується для задач багатокласової класифікації.

Категоріальна крос-ентропія для одного навчального прикладу обчислюється наступним чином:

\text{Categorical Cross-Entropy Loss} = -\sum_{i=1}^{C} y_i \log(p_i)

Де

$C$ — кількість класів;
$y_i$ — фактичне цільове значення (1, якщо клас є правильним, 0 — інакше);
$p_i$ — ймовірність, що передбачає належність прикладу до класу $i$ .

Функція втрат обчислюється для кожного навчального прикладу, після чого знаходиться середнє значення. Це середнє називається функцією вартості (cost function). Логістична регресія знаходить параметри $\beta$ , які мінімізують функцію вартості.