Summary  
This chapter demonstrates how to implement and tune the DBSCAN density-based clustering algorithm, illustrating how the `eps` and `min_samples` hyperparameters affect cluster formation and how core points, border points, and noise are identified.  

General domain of usage  
Unsupervised learning (data clustering)

Vous allez créer deux ensembles de données pour démontrer les atouts de DBSCAN :

- **Moons :** deux demi-cercles entrelacés ;
- **Circles :** un petit cercle à l'intérieur d'un cercle plus grand.

L'algorithme est le suivant :

1. Instanciation de l'objet `DBSCAN` en définissant `eps` et `min_samples` ;

2. Ajustement du modèle sur les données ;

3. Visualisation des résultats en affichant les **points de données** et en les coloriant selon leurs **étiquettes de cluster** attribuées.

## Réglage des hyperparamètres

Le choix de `eps` et `min_samples` influence fortement le résultat du clustering. Tester différentes valeurs pour déterminer celles qui conviennent le mieux à vos données. Par exemple, si `eps` est trop grand, tous les points peuvent se retrouver dans un **seul cluster**. Si `eps` est trop petit, de nombreux points peuvent être classés comme **bruit**. Il est également possible de mettre à l'échelle les variables.

Télécharger le code de ce chapitre

Acquérez une compréhension approfondie de l'analyse de clusters, une technique clé d'apprentissage non supervisé pour révéler des motifs dans des données non étiquetées. Explorez les principes fondamentaux de K-Means, du clustering hiérarchique, de DBSCAN et des GMM, et mettez en pratique vos connaissances sur des jeux de données réels afin de renforcer votre confiance dans l'application du clustering à des problématiques concrètes.

Approfondissement des fondamentaux du clustering et distinction par rapport à la classification. Exploration des algorithmes, outils et bibliothèques essentiels qui alimentent cette technique d'apprentissage non supervisé pour révéler des structures cachées dans les données.

Acquérir une compréhension approfondie des principales techniques de prétraitement garantissant un regroupement efficace. Comprendre la gestion des valeurs manquantes, l'encodage des variables catégorielles, la normalisation des données, ainsi que le choix des mesures de distance et des méthodes de liaison appropriées pour améliorer la précision du regroupement.

Maîtrise des compétences nécessaires pour appliquer efficacement le clustering K-Means. Compréhension du fonctionnement de l'algorithme, détermination du nombre optimal de clusters et expérience pratique de l'implémentation de K-Means sur des jeux de données synthétiques et réels.

Découvrez les principes fondamentaux du regroupement hiérarchique et la manière de regrouper des données en ensembles significatifs à l'aide de dendrogrammes. Acquérez une maîtrise dans l'identification du nombre optimal de groupes et dans l'application de cette technique sur des jeux de données synthétiques et réels.

Découvrez comment DBSCAN excelle dans la détection de groupes de formes variées et la gestion du bruit dans les données. Comprenez le fonctionnement de cet algorithme basé sur la densité, la méthode d’attribution des points aux groupes, et son application sur des ensembles de données synthétiques et réels en toute confiance.

Compréhension approfondie des modèles de mélange gaussien et de l'utilisation de la probabilité pour modéliser des formes de clusters complexes.
Principes de la distribution gaussienne.
Exploration du fonctionnement des GMM.
Application des GMM à des données factices et réelles pour renforcer la compréhension.

Implémentation sur un Jeu de Données Fictif

Réglage des hyperparamètres