Lernen Implementierung an Einem Realen Datensatz

Nachdem Sie K-Means an Beispieldaten geübt haben, können Sie es nun auf einen realen Datensatz anwenden: den Wine-Datensatz. Reale Datensätze weisen Komplexitäten wie unklare Clusterstrukturen und unterschiedliche Merkmals-Skalen auf und bieten somit eine praxisnähere Clustering-Herausforderung.

Sie verwenden die Funktion datasets.load_wine(), um diesen Datensatz zu laden. Der Wine-Datensatz enthält verschiedene Attribute unterschiedlicher Weine. Ziel ist es zu prüfen, ob K-Means Cluster erkennen kann, die Weinähnlichkeiten anhand dieser Attribute widerspiegeln.

Reale Daten erfordern häufig eine Vorverarbeitung. Merkmals-Skalierung kann notwendig sein, damit alle Merkmale gleichwertig in die Distanzberechnung von K-Means einfließen.

Um die optimale Clusteranzahl zu bestimmen, verwenden Sie erneut:

WSS-Methode: Analyse des Elbow-Plots für verschiedene K-Werte. Bei realen Daten sind Knicke oft weniger deutlich;
Silhouette-Score-Methode: Auswertung des Silhouette-Plots und der durchschnittlichen Scores zur Bestimmung des besten K. Die Scores können variabler sein als bei Beispieldaten.

Visualisierungen sind entscheidend für das Verständnis der Ergebnisse:

Darstellung von 3 ausgewählten Merkmalen in einem 3D-Plot des Wine-Datensatzes, um die Verteilung der Daten im reduzierten Merkmalsraum visuell zu inspizieren, ohne Dimensionsreduktion;
WSS-Plot zur Identifikation des Elbows;
Silhouette-Plot zur Bewertung der Clusterqualität.

K-Means-Cluster visualisiert im 3-Merkmals-3D-Plot des Wine-Datensatzes, wobei die Clusterzugehörigkeiten in diesem reduzierten Merkmalsraum dargestellt werden.

War alles klar?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 6

Fragen Sie AI

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Swipe um das Menü anzuzeigen