Dans ce défi, vous utiliserez le **jeu de données Titanic**, qui contient des informations sur les passagers du Titanic, notamment leur âge, leur sexe, la taille de leur famille, et plus encore. L'objectif est de prédire si un passager a survécu ou non.

import pandas as pd

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/b71ff7ac-3932-41d2-a4d8-060e24b00129/titanic.csv') 
print(df.head())

Pour implémenter l'Arbre de Décision, vous pouvez utiliser le `DecisionTreeClassifier` de `sklearn` :

Construire un arbre de décision et déterminer les meilleures valeurs de `max_depth` et `min_samples_leaf` à l'aide d'une recherche par grille.

import unittest
import importlib


def _dynamic_test(test_case, condition, success_message, failure_message):
    if condition:
        test_case._testMethodName = success_message
        test_case.assertTrue(True, success_message)
    else:
        test_case._testMethodName = failure_message
        test_case.fail(failure_message)


class TestUserCode(unittest.TestCase):
    def test_param_grid_is_declared(self):
        import user_code

        _dynamic_test(
            self,
            hasattr(user_code, 'param_grid'),
            "The `param_grid` variable is declared.",
            "Expected `param_grid` to be declared."
        )

    def test_param_grid_is_correct(self):
        import user_code
        expected_value = {'max_depth': [1, 2, 3, 4, 5, 6, 7], 'min_samples_leaf': [1, 2, 4, 6]}

        variable = 'param_grid'
        actual_value = getattr(user_code, variable, None)
        if actual_value is None:
            condition = False
            failure_message = f"The `{variable}` variable is not declared."
        elif isinstance(actual_value, dict):
            condition = actual_value == expected_value
            failure_message = f"Expected `{variable}` to contain `{expected_value}`, but got `{actual_value}`."
        else:
            condition = False
            failure_message = f"`{variable}` is not a `dict`."

        _dynamic_test(
            self,
            condition,
            f"`{variable}` contains the correct values.",
            failure_message
        )

    def test_grid_cv_is_declared(self):
        import user_code

        variable = 'grid_cv'
        _dynamic_test(
            self,
            hasattr(user_code, variable),
            f"The `{variable}` variable is declared.",
            f"Expected `{variable}` to be declared."
        )

    def test_grid_cv_is_correct(self):
        import user_code
        from sklearn.model_selection import GridSearchCV
        from sklearn.tree import DecisionTreeClassifier

        param_grid = {'max_depth': [1, 2, 3, 4, 5, 6, 7], 'min_samples_leaf': [1, 2, 4, 6]}

        variable = 'grid_cv'
        actual_value = getattr(user_code, variable, None)
        if actual_value is None:
            condition = False
            failure_message = f"The `{variable}` variable is not declared."
        elif isinstance(actual_value, GridSearchCV):
            condition = isinstance(actual_value.estimator,
                                   DecisionTreeClassifier) and actual_value.param_grid == param_grid and actual_value.cv is 10
            failure_message = f"Expected `{variable}` to be a `GridSearchCV` with `estimator=DecisionTreeClassifier()`, `param_grid={param_grid}`, and `cv=10`, but got `estimator={actual_value.estimator}`, `param_grid={actual_value.param_grid}`, and `cv={actual_value.cv}`."
        else:
            condition = False
            failure_message = f"`{variable}` is not a `GridSearchCV`."

        _dynamic_test(
            self,
            condition,
            "`grid_cv` is a `GridSearchCV` with `estimator=lr`, `param_grid=param_grid`, and `cv=None`.",
            failure_message
        )

    def test_best_score_is_correct(self):
        import user_code
        expected_value = 0.8316978776529339

        variable = 'best_score'
        actual_value = getattr(user_code, variable, None)
        if actual_value is None:
            condition = False
            failure_message = f"The `{variable}` variable is not declared."
        elif isinstance(actual_value, float):
            condition = actual_value == expected_value
            failure_message = f"Expected `{variable}` to contain `{expected_value}`, but got `{actual_value}`."
        else:
            condition = False
            failure_message = f"`{variable}` is not a `float`."

        _dynamic_test(
            self,
            condition,
            f"`{variable}` is correct.",
            failure_message
        )


if __name__ == '__main__':
    unittest.main()

test_main.py

Maîtrisez les principaux algorithmes de classification qui alimentent l'apprentissage automatique moderne. Découvrez comment des modèles tels que k-NN, la régression logistique, les arbres de décision et les forêts aléatoires effectuent des prédictions, évaluez leur précision et comprenez quand utiliser chacun d'eux. Développez les compétences nécessaires pour comparer les modèles et choisir le plus adapté à vos données.

Découvrez comment l'algorithme des k plus proches voisins effectue des prédictions basées sur la similarité. Apprenez à gérer plusieurs caractéristiques, à ajuster les paramètres et à appliquer la validation croisée pour améliorer la précision.

Comprendre comment la régression logistique modélise les probabilités et classe les résultats. S'exercer à l'implémenter, à interpréter les frontières de décision et à appliquer la régularisation pour éviter le surapprentissage.

Découvrez comment les arbres de décision divisent les données en groupes significatifs selon les valeurs des caractéristiques. Explorez l'influence de paramètres tels que la profondeur de l'arbre et le nombre minimal d'échantillons par feuille sur la performance et la généralisation du modèle.

Découvrez comment les forêts aléatoires combinent plusieurs arbres de décision pour améliorer la précision et la robustesse. Comprenez le rôle de l'aléatoire et appliquez cette méthode d'ensemble à des données réelles.

Évaluation des modèles à l'aide de métriques telles que l'exactitude, la précision, le rappel et le score F1. Interprétation des matrices de confusion et comparaison de plusieurs classificateurs afin d'identifier le modèle le plus performant.

Défi : Implémentation d'un Arbre de Décision

Solution