Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Implementierung mit einem Dummy-Datensatz | K-Means
Clusteranalyse Mit Python

Implementierung mit einem Dummy-Datensatz

Swipe um das Menü anzuzeigen

In diesem Abschnitt wird ein praktisches Beispiel für die Anwendung des K-means-Clustering vorgestellt. Dazu wird ein Dummy-Datensatz verwendet. Dummy-Datensätze sind künstlich erzeugte Datensätze, die häufig zu Demonstrations- und Lernzwecken eingesetzt werden. Sie ermöglichen es, die Eigenschaften der Daten gezielt zu steuern und das Verhalten von Algorithmen wie K-means klar zu beobachten.

Dummy-Datensatz

Für diese Demonstration wird ein Dummy-Datensatz mit der Funktion make_blobs() erstellt. Diese Funktion eignet sich hervorragend, um Cluster von Datenpunkten anschaulich und kontrollierbar zu generieren. Die Daten werden mit folgenden Eigenschaften erzeugt:

  • Anzahl der Stichproben: Es wird ein Datensatz mit 300 Datenpunkten erstellt;

  • Anzahl der Zentren: Die Anzahl der tatsächlichen Cluster wird auf 4 festgelegt. Das bedeutet, dass die Dummy-Daten vier klar unterscheidbare Gruppen enthalten;

  • Standardabweichung der Cluster: Die Streuung der Datenpunkte innerhalb jedes Clusters wird kontrolliert und auf 0.60 gesetzt, um relativ kompakte Cluster zu erhalten;

  • Random State: Für die Reproduzierbarkeit wird ein fester random_state verwendet, sodass die Datengenerierung bei jedem Ausführen des Codes gleich bleibt.

X, y_true = make_blobs(n_samples=300,
                       centers=4,
                       cluster_std=0.60,
                       random_state=0)

K-Means-Implementierung

Mit diesen Dummy-Daten wird anschließend der K-means-Algorithmus angewendet. Es wird untersucht, wie K-means versucht, diese Daten in Cluster zu unterteilen, basierend auf den in den vorherigen Kapiteln behandelten Prinzipien.

K-means kann in Python wie folgt initialisiert und trainiert werden:

kmeans = KMeans(n_clusters=k, random_state=42) 
kmeans.fit(X)

Um die optimale Anzahl an Clustern für diese Daten zu bestimmen, werden die in den vorherigen Kapiteln vorgestellten Methoden verwendet:

  • WSS-Methode: Die Within-Sum-of-Squares wird für verschiedene Werte von K berechnet und das Elbow-Diagramm analysiert, um ein mögliches optimales K zu identifizieren;

  • Silhouette-Score-Methode: Der Silhouette-Score wird für verschiedene Werte von K berechnet. Das Silhouette-Diagramm und die durchschnittlichen Silhouette-Scores werden betrachtet, um das K zu finden, das die Clusterqualität maximiert.

Abschließend spielen Visualisierungen eine entscheidende Rolle bei der Umsetzung. Visualisiert werden:

  • Die Dummy-Daten selbst, um die zugrunde liegende Clusterstruktur zu erkennen;

  • Das WSS-Diagramm, um den Elbow-Punkt zu identifizieren;

  • Das Silhouette-Diagramm, um die Clusterqualität für verschiedene K-Werte zu beurteilen;

  • Die finalen K-means-Cluster überlagert auf den Dummy-Daten, um die Clustering-Ergebnisse und das gewählte optimale K visuell zu überprüfen.

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 5

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Abschnitt 3. Kapitel 5
some-alt