Implementierung mit einem Dummy-Datensatz
Swipe um das Menü anzuzeigen
In diesem Abschnitt wird ein praktisches Beispiel für die Anwendung des K-means-Clustering vorgestellt. Dazu wird ein Dummy-Datensatz verwendet. Dummy-Datensätze sind künstlich erzeugte Datensätze, die häufig zu Demonstrations- und Lernzwecken eingesetzt werden. Sie ermöglichen es, die Eigenschaften der Daten gezielt zu steuern und das Verhalten von Algorithmen wie K-means klar zu beobachten.
Dummy-Datensatz
Für diese Demonstration wird ein Dummy-Datensatz mit der Funktion make_blobs() erstellt. Diese Funktion eignet sich hervorragend, um Cluster von Datenpunkten anschaulich und kontrollierbar zu generieren. Die Daten werden mit folgenden Eigenschaften erzeugt:
-
Anzahl der Stichproben: Es wird ein Datensatz mit
300Datenpunkten erstellt; -
Anzahl der Zentren: Die Anzahl der tatsächlichen Cluster wird auf
4festgelegt. Das bedeutet, dass die Dummy-Daten vier klar unterscheidbare Gruppen enthalten; -
Standardabweichung der Cluster: Die Streuung der Datenpunkte innerhalb jedes Clusters wird kontrolliert und auf
0.60gesetzt, um relativ kompakte Cluster zu erhalten; -
Random State: Für die Reproduzierbarkeit wird ein fester
random_stateverwendet, sodass die Datengenerierung bei jedem Ausführen des Codes gleich bleibt.
X, y_true = make_blobs(n_samples=300,
centers=4,
cluster_std=0.60,
random_state=0)
K-Means-Implementierung
Mit diesen Dummy-Daten wird anschließend der K-means-Algorithmus angewendet. Es wird untersucht, wie K-means versucht, diese Daten in Cluster zu unterteilen, basierend auf den in den vorherigen Kapiteln behandelten Prinzipien.
K-means kann in Python wie folgt initialisiert und trainiert werden:
kmeans = KMeans(n_clusters=k, random_state=42)
kmeans.fit(X)
Um die optimale Anzahl an Clustern für diese Daten zu bestimmen, werden die in den vorherigen Kapiteln vorgestellten Methoden verwendet:
-
WSS-Methode: Die Within-Sum-of-Squares wird für verschiedene Werte von K berechnet und das Elbow-Diagramm analysiert, um ein mögliches optimales K zu identifizieren;
-
Silhouette-Score-Methode: Der Silhouette-Score wird für verschiedene Werte von K berechnet. Das Silhouette-Diagramm und die durchschnittlichen Silhouette-Scores werden betrachtet, um das K zu finden, das die Clusterqualität maximiert.
Abschließend spielen Visualisierungen eine entscheidende Rolle bei der Umsetzung. Visualisiert werden:
-
Die Dummy-Daten selbst, um die zugrunde liegende Clusterstruktur zu erkennen;
-
Das WSS-Diagramm, um den Elbow-Punkt zu identifizieren;
-
Das Silhouette-Diagramm, um die Clusterqualität für verschiedene K-Werte zu beurteilen;
-
Die finalen K-means-Cluster überlagert auf den Dummy-Daten, um die Clustering-Ergebnisse und das gewählte optimale K visuell zu überprüfen.
Danke für Ihr Feedback!
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen