Implementação em Conjunto de Dados Real
Após praticar o K-means em dados simulados, agora é possível aplicá-lo a um conjunto de dados do mundo real: o wine dataset. Conjuntos de dados reais apresentam complexidades como estruturas de clusters pouco claras e escalas de variáveis diferentes, oferecendo um desafio de clusterização mais prático.
Utilize a função datasets.load_wine() para carregar este conjunto de dados. O wine dataset possui diversos atributos de diferentes vinhos. O objetivo é verificar se o K-means consegue identificar clusters que refletem semelhanças entre vinhos com base nesses atributos.
Dados reais frequentemente exigem pré-processamento. Escalonamento de variáveis pode ser necessário para garantir que todas as variáveis contribuam igualmente para os cálculos de distância no K-means.
Para encontrar o número ideal de clusters, utilize novamente:
-
Método WSS: analisar o gráfico do cotovelo para uma faixa de valores de K. Os cotovelos podem ser menos evidentes em dados reais;
-
Método do índice de Silhouette: examinar o gráfico de Silhouette e as médias dos índices para encontrar o melhor K. Os índices podem ser mais variáveis do que em dados simulados.
Visualizações são fundamentais para a compreensão dos resultados:
-
Plotar 3 variáveis selecionadas em um gráfico 3D do wine permite inspecionar visualmente a distribuição dos dados em um espaço de variáveis reduzido, sem utilizar redução de dimensionalidade;
-
Gráfico WSS para identificação do cotovelo;
-
Gráfico de Silhouette para avaliação da qualidade dos clusters.
Clusters do K-means visualizados no gráfico 3D das 3 variáveis do wine dataset, mostrando as atribuições de clusters dentro deste espaço de variáveis reduzido.
Obrigado pelo seu feedback!
Pergunte à IA
Pergunte à IA
Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo
Can you explain why feature scaling is important for K-means clustering?
How do I interpret the elbow and silhouette plots for choosing the optimal number of clusters?
Can you describe how the 3D plot helps in visualizing the clusters in the wine dataset?
Awesome!
Completion rate improved to 2.94
Implementação em Conjunto de Dados Real
Deslize para mostrar o menu
Após praticar o K-means em dados simulados, agora é possível aplicá-lo a um conjunto de dados do mundo real: o wine dataset. Conjuntos de dados reais apresentam complexidades como estruturas de clusters pouco claras e escalas de variáveis diferentes, oferecendo um desafio de clusterização mais prático.
Utilize a função datasets.load_wine() para carregar este conjunto de dados. O wine dataset possui diversos atributos de diferentes vinhos. O objetivo é verificar se o K-means consegue identificar clusters que refletem semelhanças entre vinhos com base nesses atributos.
Dados reais frequentemente exigem pré-processamento. Escalonamento de variáveis pode ser necessário para garantir que todas as variáveis contribuam igualmente para os cálculos de distância no K-means.
Para encontrar o número ideal de clusters, utilize novamente:
-
Método WSS: analisar o gráfico do cotovelo para uma faixa de valores de K. Os cotovelos podem ser menos evidentes em dados reais;
-
Método do índice de Silhouette: examinar o gráfico de Silhouette e as médias dos índices para encontrar o melhor K. Os índices podem ser mais variáveis do que em dados simulados.
Visualizações são fundamentais para a compreensão dos resultados:
-
Plotar 3 variáveis selecionadas em um gráfico 3D do wine permite inspecionar visualmente a distribuição dos dados em um espaço de variáveis reduzido, sem utilizar redução de dimensionalidade;
-
Gráfico WSS para identificação do cotovelo;
-
Gráfico de Silhouette para avaliação da qualidade dos clusters.
Clusters do K-means visualizados no gráfico 3D das 3 variáveis do wine dataset, mostrando as atribuições de clusters dentro deste espaço de variáveis reduzido.
Obrigado pelo seu feedback!