Summary  
This chapter demonstrates how to apply the DBSCAN density-based clustering algorithm by scaling features, selecting hyperparameters (epsilon and minimum samples), fitting the model to data, detecting outliers, and visualizing the resulting clusters.  

General domain of usage  
Customer segmentation

Використовується набір даних **mall customers**, який містить такі стовпці:

Унікальний ідентифікатор, призначений кожному клієнту в наборі даних.

Стать клієнта (Male або Female).

Річний дохід клієнта у тисячах доларів.

Оцінка, яку надає торговий центр на основі поведінки клієнта та характеру витрат, де 1 — низька, а 100 — висока.

Також слід виконати такі кроки перед кластеризацією:
     
1.  **Завантаження даних:** використовується `pandas` для завантаження CSV-файлу;
2.  **Вибір релевантних ознак:** фокус на стовпцях `'Annual Income (k$)'` та `'Spending Score (1-100)'`;
3.  **Масштабування даних (важливо для DBSCAN):** оскільки DBSCAN використовує обчислення відстаней, важливо масштабувати ознаки до подібних діапазонів. Для цього можна використати `StandardScaler`.

Завантажити набір даних

## Інтерпретація

У цьому випадку код створює **5 кластерів**. Важливо проаналізувати отримані кластери для отримання уявлення про **сегментацію клієнтів**. Наприклад, можна виявити кластери, що представляють:

- Клієнти з високим доходом і високими витратами;
- Клієнти з високим доходом і низькими витратами;
- Клієнти з низьким доходом і високими витратами;
- Клієнти з низьким доходом і низькими витратами;
- Клієнти із середнім доходом і середніми витратами.

## Підсумкові зауваження



DBSCAN чудово підходить для знаходження кластерів довільної форми та обробки шуму, що робить його придатним для багатьох реальних застосувань, де дані не впорядковані у сферичні кластери.

Підбір параметрів може бути складним. DBSCAN може працювати не найкращим чином на наборах даних із дуже різною щільністю, але існують варіації, такі як HDBSCAN, які можуть показати кращі результати.

Вибирайте DBSCAN, якщо підозрюєте наявність не сферичних кластерів, потрібно ідентифікувати викиди та не бажаєте заздалегідь визначати кількість кластерів.

Розгляньте альтернативи, такі як K-means, якщо ваші кластери, ймовірно, сферичні, потрібен дуже швидкий алгоритм або якщо ви добре знаєте кількість кластерів заздалегідь.

Завантажити код до цього розділу

Завантажити підсумок розділу

Отримайте ґрунтовне розуміння кластерного аналізу — ключового методу неконтрольованого навчання для виявлення закономірностей у неозначених даних. Дослідіть основи K-Means, ієрархічного кластерування, DBSCAN та GMM, а також отримайте практичний досвід роботи з реальними наборами даних для впевненого застосування кластеризації до реальних задач.

Занурення в основи кластеризації та виявлення відмінностей від класифікації. Огляд основних алгоритмів, інструментів і бібліотек, що забезпечують роботу цього методу неконтрольованого навчання для виявлення прихованих закономірностей у даних.

Отримайте ґрунтовне розуміння ключових методів попередньої обробки, які забезпечують ефективне кластерування. Дізнайтеся, як обробляти пропущені значення, кодувати категоріальні ознаки, нормалізувати дані та обирати відповідні міри відстані й методи зв’язування для підвищення точності кластеризації.

Опановуйте навички, необхідні для ефективного застосування кластеризації K-Means. Дізнайтеся, як працює алгоритм, визначайте оптимальну кількість кластерів та отримуйте практичний досвід, впроваджуючи K-Means на синтетичних і реальних наборах даних.

Ознайомлення з основами ієрархічного кластерування та групування даних у змістовні кластери за допомогою дендрограм. Формування впевненості у визначенні оптимальної кількості кластерів і застосуванні методу до синтетичних і реальних наборів даних.

Дізнайтеся, як DBSCAN ефективно виявляє кластери різної форми та обробляє шум у даних. Ознайомтеся з принципами роботи цього алгоритму на основі щільності, методами призначення точок до кластерів і застосуванням до синтетичних та реальних наборів даних.

Отримайте ґрунтовне розуміння моделей змішування Гауса та того, як вони використовують ймовірність для моделювання складних форм кластерів. Ознайомтеся з принципами гаусового розподілу, дослідіть роботу GMM та закріпіть знання шляхом застосування до тестових і реальних даних.

Реалізація на реальному наборі даних

Інтерпретація

Підсумкові зауваження