I denna utmaning kommer du att använda **Titanic-datasetet**, som innehåller information om passagerare på Titanic, inklusive deras ålder, kön, familjestorlek och mer. Målet är att förutsäga om en passagerare överlevde eller inte.

import pandas as pd

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/b71ff7ac-3932-41d2-a4d8-060e24b00129/titanic.csv') 
print(df.head())

För att implementera Decision Tree kan du använda `DecisionTreeClassifier` från `sklearn`:

Uppgiften är att bygga ett beslutsträd och hitta bästa `max_depth` och `min_samples_leaf` med hjälp av grid search.

import unittest
import importlib


def _dynamic_test(test_case, condition, success_message, failure_message):
    if condition:
        test_case._testMethodName = success_message
        test_case.assertTrue(True, success_message)
    else:
        test_case._testMethodName = failure_message
        test_case.fail(failure_message)


class TestUserCode(unittest.TestCase):
    def test_param_grid_is_declared(self):
        import user_code

        _dynamic_test(
            self,
            hasattr(user_code, 'param_grid'),
            "The `param_grid` variable is declared.",
            "Expected `param_grid` to be declared."
        )

    def test_param_grid_is_correct(self):
        import user_code
        expected_value = {'max_depth': [1, 2, 3, 4, 5, 6, 7], 'min_samples_leaf': [1, 2, 4, 6]}

        variable = 'param_grid'
        actual_value = getattr(user_code, variable, None)
        if actual_value is None:
            condition = False
            failure_message = f"The `{variable}` variable is not declared."
        elif isinstance(actual_value, dict):
            condition = actual_value == expected_value
            failure_message = f"Expected `{variable}` to contain `{expected_value}`, but got `{actual_value}`."
        else:
            condition = False
            failure_message = f"`{variable}` is not a `dict`."

        _dynamic_test(
            self,
            condition,
            f"`{variable}` contains the correct values.",
            failure_message
        )

    def test_grid_cv_is_declared(self):
        import user_code

        variable = 'grid_cv'
        _dynamic_test(
            self,
            hasattr(user_code, variable),
            f"The `{variable}` variable is declared.",
            f"Expected `{variable}` to be declared."
        )

    def test_grid_cv_is_correct(self):
        import user_code
        from sklearn.model_selection import GridSearchCV
        from sklearn.tree import DecisionTreeClassifier

        param_grid = {'max_depth': [1, 2, 3, 4, 5, 6, 7], 'min_samples_leaf': [1, 2, 4, 6]}

        variable = 'grid_cv'
        actual_value = getattr(user_code, variable, None)
        if actual_value is None:
            condition = False
            failure_message = f"The `{variable}` variable is not declared."
        elif isinstance(actual_value, GridSearchCV):
            condition = isinstance(actual_value.estimator,
                                   DecisionTreeClassifier) and actual_value.param_grid == param_grid and actual_value.cv is 10
            failure_message = f"Expected `{variable}` to be a `GridSearchCV` with `estimator=DecisionTreeClassifier()`, `param_grid={param_grid}`, and `cv=10`, but got `estimator={actual_value.estimator}`, `param_grid={actual_value.param_grid}`, and `cv={actual_value.cv}`."
        else:
            condition = False
            failure_message = f"`{variable}` is not a `GridSearchCV`."

        _dynamic_test(
            self,
            condition,
            "`grid_cv` is a `GridSearchCV` with `estimator=lr`, `param_grid=param_grid`, and `cv=None`.",
            failure_message
        )

    def test_best_score_is_correct(self):
        import user_code
        expected_value = 0.8316978776529339

        variable = 'best_score'
        actual_value = getattr(user_code, variable, None)
        if actual_value is None:
            condition = False
            failure_message = f"The `{variable}` variable is not declared."
        elif isinstance(actual_value, float):
            condition = actual_value == expected_value
            failure_message = f"Expected `{variable}` to contain `{expected_value}`, but got `{actual_value}`."
        else:
            condition = False
            failure_message = f"`{variable}` is not a `float`."

        _dynamic_test(
            self,
            condition,
            f"`{variable}` is correct.",
            failure_message
        )


if __name__ == '__main__':
    unittest.main()

test_main.py

Behärska de centrala klassificeringsalgoritmerna som driver modern maskininlärning. Utforska hur modeller som k-NN, logistisk regression, beslutsträd och random forests gör prediktioner, utvärderar deras noggrannhet och förstå när varje modell bör användas. Bygg upp färdigheter för att jämföra modeller och välja den mest lämpliga för dina data.

Utforska hur algoritmen k-närmsta grannar gör förutsägelser baserat på likhet. Lär dig hantera flera variabler, justera parametrar och använda korsvalidering för att förbättra noggrannheten.

Förstå hur logistisk regression modellerar sannolikheter och klassificerar utfall. Öva på att implementera metoden, tolka beslutsgränser och tillämpa regularisering för att förhindra överanpassning.

Lär dig hur beslutsträd delar upp data i meningsfulla grupper baserat på egenskapsvärden. Utforska hur parametrar som trädets djup och minsta antal prover per blad påverkar modellens prestanda och generaliseringsförmåga.

Utforska hur random forest kombinerar flera beslutsträd för att förbättra noggrannhet och robusthet. Förstå slumpens roll och tillämpa denna ensemblemetod på verkliga data.

Utvärdera modeller med hjälp av mått såsom noggrannhet, precision, återkallelse och F1-poäng. Lära sig att tolka förväxlingsmatriser och jämföra flera klassificerare för att identifiera den modell som presterar bäst.

Utmaning: Implementering av ett Beslutsträd

Lösning