Implementatie op Echte Dataset
Veeg om het menu te tonen
Na het oefenen met K-means op dummydata kun je het nu toepassen op een echte dataset: de wine dataset. Echte datasets brengen complexiteiten met zich mee, zoals onduidelijke clusterstructuren en verschillende schalen van kenmerken, wat een meer praktische clusteringuitdaging biedt.
Je gebruikt de functie datasets.load_wine() om deze dataset te laden. De wine dataset bevat verschillende attributen van diverse wijnen. Het doel is om te onderzoeken of K-means clusters kan ontdekken die wijn-overeenkomsten weerspiegelen op basis van deze attributen.
Echte data vereist vaak preprocessing. Kenmerkenschaalverdeling kan nodig zijn om ervoor te zorgen dat alle kenmerken gelijk bijdragen aan de afstandsberekeningen in K-means.
Om het optimale aantal clusters te vinden, gebruik je opnieuw:
-
WSS-methode: analyseer de elbow-plot voor een reeks K-waarden. Elbows kunnen minder duidelijk zijn in echte data;
-
Silhouette score-methode: bekijk de Silhouette-plot en gemiddelde scores om de beste K te vinden. Scores kunnen variabeler zijn dan bij dummydata.
Visualisaties zijn essentieel om de resultaten te begrijpen:
-
Het plotten van 3 geselecteerde kenmerken in een 3D-plot van de wine dataset maakt het mogelijk om de dataverdeling visueel te inspecteren in een gereduceerde kenmerkruimte, zonder gebruik van dimensionaliteitsreductie;
-
WSS-plot voor het identificeren van de elbow;
-
Silhouette-plot voor de clusterkwaliteit.
K-means clusters gevisualiseerd op de 3-kenmerken 3D-plot van de wine data, waarbij clusterindelingen binnen deze gereduceerde kenmerkruimte worden weergegeven.
Bedankt voor je feedback!
Vraag AI
Vraag AI
Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.