Oppiskele Parametrien Löytäminen | Logistinen Regressio

Logistinen regressio vaatii tietokoneelta vain parhaiden parametrien $β$ oppimista. Tätä varten on määriteltävä, mitä "parhaat parametrit" tarkoittavat. Palataanpa siihen, miten malli toimii: se ennustaa $p$ - todennäköisyyden kuulua luokkaan 1:

p = \sigma (z) = \sigma (\beta_0 + \beta_1x_1 + ...)

Missä

\sigma (z) = \frac{1}{1 + e^{-z}}

On selvää, että malli, jolla on hyvät parametrit, ennustaa korkean (lähellä 1) $p$ arvon havainnoille, jotka todella kuuluvat luokkaan 1, ja matalan (lähellä 0) $p$ arvon havainnoille, joiden todellinen luokka on 0.

Mallin hyvyyden tai huonouden mittaamiseen käytetään kustannusfunktiota. Lineaarisessa regressiossa käytettiin MSE:tä (keskineliövirhe) kustannusfunktiona. Tällä kertaa käytetään eri funktiota:

Tässä $p$ edustaa mallin ennustamaa todennäköisyyttä kuulua luokkaan 1, kun taas $y$ tarkoittaa todellista tavoitearvoa.

Tämä funktio ei ainoastaan rankaise vääriä ennusteita, vaan ottaa huomioon myös mallin varmuuden ennusteissaan. Kuten yllä olevassa kuvassa on esitetty, kun $p$ on lähellä $y$ :tä (todellinen tavoite), kustannusfunktio pysyy melko pienenä, mikä osoittaa, että malli valitsi oikean luokan luottavaisesti. Toisaalta, jos ennuste on väärä, kustannusfunktio kasvaa eksponentiaalisesti mallin varmuuden kasvaessa väärästä luokasta.

Binääriluokittelun ja sigmoidifunktion yhteydessä käytetty kustannusfunktio tunnetaan nimellä binäärinen ristientropiahäviö (binary cross-entropy loss), joka esitettiin yllä. On tärkeää huomata, että on olemassa myös yleisempi muoto, nimeltään ristientropiahäviö (cross-entropy loss) eli kategorinen ristientropiahäviö, jota käytetään moniluokkaisissa luokitteluongelmissa.

Kategorinen ristientropiahäviö yhdelle koulutusesimerkille lasketaan seuraavasti:

\text{Categorical Cross-Entropy Loss} = -\sum_{i=1}^{C} y_i \log(p_i)

Missä

$C$ on luokkien määrä;
$y_i$ on todellinen tavoitearvo (1, jos luokka on oikea, muuten 0);
$p_i$ on ennustettu todennäköisyys, että esimerkki kuuluu luokkaan $i$ .

Häviöfunktio lasketaan jokaiselle koulutusesimerkille ja otetaan keskiarvo. Tätä keskiarvoa kutsutaan kustannusfunktioksi. Logistinen regressio etsii parametrit $\beta$ , jotka minimoivat kustannusfunktion.