Som visats i tidigare kapitel kan modellens förutsägelser variera beroende på värdet av **k** (antalet grannar). Vid skapandet av en k-NN-modell är det viktigt att välja det k-värde som ger **bäst prestanda**.

Ett vanligt tillvägagångssätt är att använda **korsvalidering** för att utvärdera modellens prestanda. Du kan köra en loop och beräkna korsvalideringspoäng **för ett intervall av k-värden**, och sedan välja det med högst poäng. Detta är den mest använda metoden.

För att utföra detta erbjuder `sklearn` ett smidigt verktyg: klassen `GridSearchCV`. 

Parametern `param_grid` tar en **dictionary** där nycklarna är parameternamn och värdena är listor med alternativ att testa. Till exempel, för att testa värden från `1` till `99` för `n_neighbors`, kan du skriva:
```python
param_grid = {'n_neighbors': range(1, 100)}
```
Genom att anropa metoden `.fit(X, y)` på `GridSearchCV`-objektet kommer parametergriden att genomsökas för att hitta de bästa parametrarna och sedan **tränas modellen om på hela datasettet** med dessa bästa parametrar.

Du kan komma åt det **bästa resultatet** med attributet `.best_score_` och göra förutsägelser med den optimerade modellen med hjälp av metoden `.predict()`. På liknande sätt kan du hämta **bästa modellen** själv med attributet `.best_estimator_`. 

import unittest
import importlib


def _dynamic_test(test_case, condition, success_message, failure_message):
    if condition:
        test_case._testMethodName = success_message
        test_case.assertTrue(True, success_message)
    else:
        test_case._testMethodName = failure_message
        test_case.fail(failure_message)


class TestUserCode(unittest.TestCase):

    def test_param_grid_is_declared(self):
        import user_code

        variable = 'param_grid'
        _dynamic_test(
            self,
            hasattr(user_code, variable),
            f"The `{variable}` variable is declared.",
            f"Expected `{variable}` to be declared."
        )

    def test_para_grid_is_dict(self):
        import user_code

        try:
            condition = isinstance(user_code.param_grid, dict)
            failure_message = f"Expected `param_grid` to be a `dict`, but got `{type(user_code.param_grid).__name__}`."
        except AttributeError:
            condition = False
            failure_message = "The `param_grid` variable is not declared."

        _dynamic_test(
            self,
            condition,
            "`param_grid` is a `dict`.",
            failure_message
        )

    def test_param_grid_is_correct(self):
        import user_code
        expected_value = {'n_neighbors': [3, 9, 18, 27]}

        variable = 'param_grid'
        actual_value = getattr(user_code, variable, None)
        if actual_value is None:
            condition = False
            failure_message = f"The `{variable}` variable is not declared."
        elif isinstance(actual_value, dict):
            condition = actual_value == expected_value
            failure_message = f"Expected `{variable}` to contain `{expected_value}`, but got `{actual_value}`."
        else:
            condition = False
            failure_message = f"`{variable}` is not a `dict`."

        _dynamic_test(
            self,
            condition,
            f"`{variable}` contains the correct values.",
            failure_message
        )

    def test_grid_search_is_declared(self):
        import user_code

        variable = 'grid_search'
        _dynamic_test(
            self,
            hasattr(user_code, variable),
            f"The `{variable}` variable is declared.",
            f"Expected `{variable}` to be declared."
        )

    def test_grid_search_is_correct(self):
        import user_code
        from sklearn.model_selection import GridSearchCV
        from sklearn.neighbors import KNeighborsClassifier

        knn = KNeighborsClassifier()
        param_grid = {'n_neighbors': [3, 9, 18, 27]}

        variable = 'grid_search'
        actual_value = getattr(user_code, variable, None)
        if actual_value is None:
            condition = False
            failure_message = f"The `{variable}` variable is not declared."
        elif isinstance(actual_value, GridSearchCV):
            condition = isinstance(actual_value.estimator, KNeighborsClassifier) and actual_value.param_grid == param_grid and actual_value.cv == 4
            failure_message = f"Expected `{variable}` to be a `GridSearchCV` with `knn` as the model, `4` folds, and `param_grid` as the grid of parameters, but got `estimator={actual_value.estimator}`, `param_grid={actual_value.param_grid}`, and `cv={actual_value.cv}`."
        else:
            condition = False
            failure_message = f"`{variable}` is not a `GridSearchCV`."

        _dynamic_test(
            self,
            condition,
            "`grid_search` is a `GridSearchCV` with `estimator=knn`, `param_grid=param_grid`, and `cv=4`.",
            failure_message
        )

    def test_best_model_is_declared(self):
        import user_code

        variable = 'best_model'
        _dynamic_test(
            self,
            hasattr(user_code, variable),
            f"The `{variable}` variable is declared.",
            f"Expected `{variable}` to be declared."
        )

    def test_best_model_is_correct(self):
        import user_code
        from sklearn.neighbors import KNeighborsClassifier

        variable = 'best_model'
        actual_value = getattr(user_code, variable, None)
        if actual_value is None:
            condition = False
            failure_message = f"The `{variable}` variable is not declared."
        elif isinstance(actual_value, KNeighborsClassifier):
            condition = actual_value.n_neighbors == 27
            failure_message = f"Expected `{variable}` to be a `KNeighborsClassifier` with `27` neighbors, but got `n_neighbors={actual_value.n_neighbors}`."
        else:
            condition = False
            failure_message = f"`{variable}` is not a `KNeighborsClassifier`."

        _dynamic_test(
            self,
            condition,
            "`best_model` is a `KNeighborsClassifier` with `27` neighbors.",
            failure_message
        )

    def test_best_score_is_declared(self):
        import user_code

        variable = 'best_score'
        _dynamic_test(
            self,
            hasattr(user_code, variable),
            f"The `{variable}` variable is declared.",
            f"Expected `{variable}` to be declared."
        )

    def test_best_score_is_correct(self):
        import user_code
        expected_value = 0.8039505464098539

        variable = 'best_score'
        actual_value = getattr(user_code, variable, None)
        if actual_value is None:
            condition = False
            failure_message = f"The `{variable}` variable is not declared."
        elif isinstance(actual_value, float):
            condition = actual_value == expected_value
            failure_message = f"Expected `{variable}` to contain `{expected_value}`, but got `{actual_value}`."
        else:
            condition = False
            failure_message = f"`{variable}` is not a `float`."

        _dynamic_test(
            self,
            condition,
            f"`{variable}` is correct.",
            failure_message
        )


if __name__ == '__main__':
    unittest.main()

test_main.py

Behärska de centrala klassificeringsalgoritmerna som driver modern maskininlärning. Utforska hur modeller som k-NN, logistisk regression, beslutsträd och random forests gör prediktioner, utvärderar deras noggrannhet och förstå när varje modell bör användas. Bygg upp färdigheter för att jämföra modeller och välja den mest lämpliga för dina data.

Utforska hur algoritmen k-närmsta grannar gör förutsägelser baserat på likhet. Lär dig hantera flera variabler, justera parametrar och använda korsvalidering för att förbättra noggrannheten.

Förstå hur logistisk regression modellerar sannolikheter och klassificerar utfall. Öva på att implementera metoden, tolka beslutsgränser och tillämpa regularisering för att förhindra överanpassning.

Lär dig hur beslutsträd delar upp data i meningsfulla grupper baserat på egenskapsvärden. Utforska hur parametrar som trädets djup och minsta antal prover per blad påverkar modellens prestanda och generaliseringsförmåga.

Utforska hur random forest kombinerar flera beslutsträd för att förbättra noggrannhet och robusthet. Förstå slumpens roll och tillämpa denna ensemblemetod på verkliga data.

Utvärdera modeller med hjälp av mått såsom noggrannhet, precision, återkallelse och F1-poäng. Lära sig att tolka förväxlingsmatriser och jämföra flera klassificerare för att identifiera den modell som presterar bäst.

Utmaning: Välja det Bästa K-värdet

Lösning