Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Bestimmung der Optimalen Clusteranzahl Mittels Silhouette-Score | K-Means
Clusteranalyse Mit Python

bookBestimmung der Optimalen Clusteranzahl Mittels Silhouette-Score

Neben der WSS-Methode ist der Silhouette-Score eine weitere wertvolle Kennzahl zur Bestimmung der optimalen Anzahl von Clustern (K) im K-Means-Verfahren. Er bewertet, wie gut jeder Datenpunkt zu seinem Cluster im Vergleich zu anderen passt.

Für jeden Datenpunkt berücksichtigt der Silhouette-Score:

  • Kohäsion (a): durchschnittlicher Abstand zu Punkten im eigenen Cluster;

  • Separation (b): durchschnittlicher Abstand zu Punkten im nächstgelegenen anderen Cluster.

Der Silhouette-Score wird berechnet als: (b - a) / max(a, b) und liegt im Bereich von -1 bis +1.

Interpretation des Scores:

  • +1: Punkt ist gut zugeordnet;

  • ~0: Punkt liegt an der Clustergrenze;

  • -1: Punkt ist möglicherweise falsch zugeordnet.

Die Schritte zur Bestimmung des optimalen K mit dem Silhouette-Score sind wie folgt:

  • K-Means für einen Bereich von K-Werten ausführen (z. B. K=2 bis zu einer sinnvollen Obergrenze);

  • Für jedes K den durchschnittlichen Silhouette-Score berechnen;

  • Durchschnittlichen Silhouette-Score gegen K auftragen (Silhouette-Plot);

  • Das K mit dem höchsten durchschnittlichen Silhouette-Score auswählen.

Die Analyse des Silhouette-Plots, der die Scores für jeden Punkt zeigt, kann zusätzliche Einblicke in die Konsistenz der Cluster geben. Höhere Durchschnittswerte und konsistente Scores über alle Punkte sind wünschenswert.

Zusammenfassend gilt: Während WSS die innerhalb der Cluster liegenden Distanzen minimiert, balanciert der Silhouette-Score Kohäsion und Separation. Die Verwendung beider Methoden bietet einen robusteren Ansatz zur Bestimmung des optimalen K.

question mark

Was zeigt ein hoher durchschnittlicher Silhouette-Score (nahe +1) bei der Bewertung von Clustering-Ergebnissen an?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 4

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

bookBestimmung der Optimalen Clusteranzahl Mittels Silhouette-Score

Swipe um das Menü anzuzeigen

Neben der WSS-Methode ist der Silhouette-Score eine weitere wertvolle Kennzahl zur Bestimmung der optimalen Anzahl von Clustern (K) im K-Means-Verfahren. Er bewertet, wie gut jeder Datenpunkt zu seinem Cluster im Vergleich zu anderen passt.

Für jeden Datenpunkt berücksichtigt der Silhouette-Score:

  • Kohäsion (a): durchschnittlicher Abstand zu Punkten im eigenen Cluster;

  • Separation (b): durchschnittlicher Abstand zu Punkten im nächstgelegenen anderen Cluster.

Der Silhouette-Score wird berechnet als: (b - a) / max(a, b) und liegt im Bereich von -1 bis +1.

Interpretation des Scores:

  • +1: Punkt ist gut zugeordnet;

  • ~0: Punkt liegt an der Clustergrenze;

  • -1: Punkt ist möglicherweise falsch zugeordnet.

Die Schritte zur Bestimmung des optimalen K mit dem Silhouette-Score sind wie folgt:

  • K-Means für einen Bereich von K-Werten ausführen (z. B. K=2 bis zu einer sinnvollen Obergrenze);

  • Für jedes K den durchschnittlichen Silhouette-Score berechnen;

  • Durchschnittlichen Silhouette-Score gegen K auftragen (Silhouette-Plot);

  • Das K mit dem höchsten durchschnittlichen Silhouette-Score auswählen.

Die Analyse des Silhouette-Plots, der die Scores für jeden Punkt zeigt, kann zusätzliche Einblicke in die Konsistenz der Cluster geben. Höhere Durchschnittswerte und konsistente Scores über alle Punkte sind wünschenswert.

Zusammenfassend gilt: Während WSS die innerhalb der Cluster liegenden Distanzen minimiert, balanciert der Silhouette-Score Kohäsion und Separation. Die Verwendung beider Methoden bietet einen robusteren Ansatz zur Bestimmung des optimalen K.

question mark

Was zeigt ein hoher durchschnittlicher Silhouette-Score (nahe +1) bei der Bewertung von Clustering-Ergebnissen an?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 4
some-alt