Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Implementação em Conjunto de Dados Fictício | K-Means
Análise de Clusters

bookImplementação em Conjunto de Dados Fictício

Agora você irá acompanhar um exemplo prático de aplicação do agrupamento K-means. Para isso, será utilizado um conjunto de dados fictício. Conjuntos de dados fictícios são conjuntos de dados gerados artificialmente, frequentemente usados para fins de demonstração e aprendizado. Eles permitem controlar as características dos dados e observar claramente como algoritmos como o K-means se comportam.

Conjunto de Dados Fictício

Para esta demonstração, criaremos um conjunto de dados fictício utilizando a função make_blobs(). Esta função é excelente para gerar agrupamentos de pontos de dados de forma visual clara e controlável. Geraremos dados com as seguintes características:

  • Número de amostras: criaremos um conjunto de dados com 300 pontos de dados;

  • Número de centros: definiremos o número de agrupamentos reais como 4. Isso significa que os dados fictícios são projetados para ter quatro grupos distintos;

  • Desvio padrão dos agrupamentos: controlaremos a dispersão dos pontos de dados dentro de cada agrupamento, definindo como 0.60 para agrupamentos relativamente compactos;

  • Estado aleatório: utilizaremos um random_state fixo para reprodutibilidade, garantindo que a geração dos dados seja consistente a cada execução do código.

X, y_true = make_blobs(n_samples=300,
                       centers=4,
                       cluster_std=0.60,
                       random_state=0)

Implementação do K-Means

Com esses dados fictícios criados, aplicaremos o algoritmo K-means. Exploraremos como o K-means tenta particionar esses dados em agrupamentos com base nos princípios apresentados nos capítulos anteriores.

O K-means pode ser inicializado e treinado da seguinte forma em Python:

kmeans = KMeans(n_clusters=k, random_state=42) 
kmeans.fit(X)

Para determinar o número ideal de agrupamentos para esses dados, utilizaremos os métodos discutidos nos capítulos anteriores:

  • Método WSS: calcularemos o Within-Sum-of-Squares para diferentes valores de K e analisaremos o gráfico do cotovelo para identificar um possível K ideal;

  • Método da pontuação Silhouette: calcularemos a Pontuação Silhouette para diferentes valores de K e examinaremos o gráfico Silhouette e as médias das pontuações para encontrar o K que maximiza a qualidade dos agrupamentos.

Por fim, as visualizações desempenharão um papel fundamental em nossa implementação. Iremos visualizar:

  • O próprio conjunto de dados fictício, para observar a estrutura inerente dos agrupamentos;

  • O gráfico WSS, para identificar o ponto de cotovelo;

  • O gráfico Silhouette, para avaliar a qualidade dos agrupamentos para diferentes valores de K;

  • Os agrupamentos finais do K-means sobrepostos ao conjunto de dados fictício, para verificar visualmente os resultados do agrupamento e o K ideal escolhido.

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 3. Capítulo 5

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Suggested prompts:

Can you explain what the WSS (Within-Sum-of-Squares) method is and how it helps determine the optimal number of clusters?

How does the Silhouette score work, and why is it useful for evaluating clustering quality?

Can you walk me through the steps of visualizing the clusters and interpreting the results?

Awesome!

Completion rate improved to 2.94

bookImplementação em Conjunto de Dados Fictício

Deslize para mostrar o menu

Agora você irá acompanhar um exemplo prático de aplicação do agrupamento K-means. Para isso, será utilizado um conjunto de dados fictício. Conjuntos de dados fictícios são conjuntos de dados gerados artificialmente, frequentemente usados para fins de demonstração e aprendizado. Eles permitem controlar as características dos dados e observar claramente como algoritmos como o K-means se comportam.

Conjunto de Dados Fictício

Para esta demonstração, criaremos um conjunto de dados fictício utilizando a função make_blobs(). Esta função é excelente para gerar agrupamentos de pontos de dados de forma visual clara e controlável. Geraremos dados com as seguintes características:

  • Número de amostras: criaremos um conjunto de dados com 300 pontos de dados;

  • Número de centros: definiremos o número de agrupamentos reais como 4. Isso significa que os dados fictícios são projetados para ter quatro grupos distintos;

  • Desvio padrão dos agrupamentos: controlaremos a dispersão dos pontos de dados dentro de cada agrupamento, definindo como 0.60 para agrupamentos relativamente compactos;

  • Estado aleatório: utilizaremos um random_state fixo para reprodutibilidade, garantindo que a geração dos dados seja consistente a cada execução do código.

X, y_true = make_blobs(n_samples=300,
                       centers=4,
                       cluster_std=0.60,
                       random_state=0)

Implementação do K-Means

Com esses dados fictícios criados, aplicaremos o algoritmo K-means. Exploraremos como o K-means tenta particionar esses dados em agrupamentos com base nos princípios apresentados nos capítulos anteriores.

O K-means pode ser inicializado e treinado da seguinte forma em Python:

kmeans = KMeans(n_clusters=k, random_state=42) 
kmeans.fit(X)

Para determinar o número ideal de agrupamentos para esses dados, utilizaremos os métodos discutidos nos capítulos anteriores:

  • Método WSS: calcularemos o Within-Sum-of-Squares para diferentes valores de K e analisaremos o gráfico do cotovelo para identificar um possível K ideal;

  • Método da pontuação Silhouette: calcularemos a Pontuação Silhouette para diferentes valores de K e examinaremos o gráfico Silhouette e as médias das pontuações para encontrar o K que maximiza a qualidade dos agrupamentos.

Por fim, as visualizações desempenharão um papel fundamental em nossa implementação. Iremos visualizar:

  • O próprio conjunto de dados fictício, para observar a estrutura inerente dos agrupamentos;

  • O gráfico WSS, para identificar o ponto de cotovelo;

  • O gráfico Silhouette, para avaliar a qualidade dos agrupamentos para diferentes valores de K;

  • Os agrupamentos finais do K-means sobrepostos ao conjunto de dados fictício, para verificar visualmente os resultados do agrupamento e o K ideal escolhido.

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 3. Capítulo 5
some-alt