Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Implementação em Conjunto de Dados Real | K-Means
Análise de Clusters

bookImplementação em Conjunto de Dados Real

Após praticar o K-means em dados simulados, agora é possível aplicá-lo a um conjunto de dados do mundo real: o wine dataset. Conjuntos de dados reais apresentam complexidades como estruturas de clusters pouco claras e escalas de variáveis diferentes, oferecendo um desafio de clusterização mais prático.

Utilize a função datasets.load_wine() para carregar este conjunto de dados. O wine dataset possui diversos atributos de diferentes vinhos. O objetivo é verificar se o K-means consegue identificar clusters que refletem semelhanças entre vinhos com base nesses atributos.

Dados reais frequentemente exigem pré-processamento. Escalonamento de variáveis pode ser necessário para garantir que todas as variáveis contribuam igualmente para os cálculos de distância no K-means.

Para encontrar o número ideal de clusters, utilize novamente:

  • Método WSS: analisar o gráfico do cotovelo para uma faixa de valores de K. Os cotovelos podem ser menos evidentes em dados reais;

  • Método do índice de Silhouette: examinar o gráfico de Silhouette e as médias dos índices para encontrar o melhor K. Os índices podem ser mais variáveis do que em dados simulados.

Visualizações são fundamentais para a compreensão dos resultados:

  • Plotar 3 variáveis selecionadas em um gráfico 3D do wine permite inspecionar visualmente a distribuição dos dados em um espaço de variáveis reduzido, sem utilizar redução de dimensionalidade;

  • Gráfico WSS para identificação do cotovelo;

  • Gráfico de Silhouette para avaliação da qualidade dos clusters.

Clusters do K-means visualizados no gráfico 3D das 3 variáveis do wine dataset, mostrando as atribuições de clusters dentro deste espaço de variáveis reduzido.

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 3. Capítulo 6

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Suggested prompts:

Can you explain why feature scaling is important for K-means clustering?

How do I interpret the elbow and silhouette plots for choosing the optimal number of clusters?

Can you describe how the 3D plot helps in visualizing the clusters in the wine dataset?

Awesome!

Completion rate improved to 2.94

bookImplementação em Conjunto de Dados Real

Deslize para mostrar o menu

Após praticar o K-means em dados simulados, agora é possível aplicá-lo a um conjunto de dados do mundo real: o wine dataset. Conjuntos de dados reais apresentam complexidades como estruturas de clusters pouco claras e escalas de variáveis diferentes, oferecendo um desafio de clusterização mais prático.

Utilize a função datasets.load_wine() para carregar este conjunto de dados. O wine dataset possui diversos atributos de diferentes vinhos. O objetivo é verificar se o K-means consegue identificar clusters que refletem semelhanças entre vinhos com base nesses atributos.

Dados reais frequentemente exigem pré-processamento. Escalonamento de variáveis pode ser necessário para garantir que todas as variáveis contribuam igualmente para os cálculos de distância no K-means.

Para encontrar o número ideal de clusters, utilize novamente:

  • Método WSS: analisar o gráfico do cotovelo para uma faixa de valores de K. Os cotovelos podem ser menos evidentes em dados reais;

  • Método do índice de Silhouette: examinar o gráfico de Silhouette e as médias dos índices para encontrar o melhor K. Os índices podem ser mais variáveis do que em dados simulados.

Visualizações são fundamentais para a compreensão dos resultados:

  • Plotar 3 variáveis selecionadas em um gráfico 3D do wine permite inspecionar visualmente a distribuição dos dados em um espaço de variáveis reduzido, sem utilizar redução de dimensionalidade;

  • Gráfico WSS para identificação do cotovelo;

  • Gráfico de Silhouette para avaliação da qualidade dos clusters.

Clusters do K-means visualizados no gráfico 3D das 3 variáveis do wine dataset, mostrando as atribuições de clusters dentro deste espaço de variáveis reduzido.

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 3. Capítulo 6
some-alt