Implementação em Conjunto de Dados Fictício
Agora você irá acompanhar um exemplo prático de aplicação do agrupamento K-means. Para isso, será utilizado um conjunto de dados fictício. Conjuntos de dados fictícios são conjuntos de dados gerados artificialmente, frequentemente usados para fins de demonstração e aprendizado. Eles permitem controlar as características dos dados e observar claramente como algoritmos como o K-means se comportam.
Conjunto de Dados Fictício
Para esta demonstração, criaremos um conjunto de dados fictício utilizando a função make_blobs()
. Esta função é excelente para gerar agrupamentos de pontos de dados de forma visual clara e controlável. Geraremos dados com as seguintes características:
-
Número de amostras: criaremos um conjunto de dados com
300
pontos de dados; -
Número de centros: definiremos o número de agrupamentos reais como
4
. Isso significa que os dados fictícios são projetados para ter quatro grupos distintos; -
Desvio padrão dos agrupamentos: controlaremos a dispersão dos pontos de dados dentro de cada agrupamento, definindo como
0.60
para agrupamentos relativamente compactos; -
Estado aleatório: utilizaremos um
random_state
fixo para reprodutibilidade, garantindo que a geração dos dados seja consistente a cada execução do código.
X, y_true = make_blobs(n_samples=300,
centers=4,
cluster_std=0.60,
random_state=0)
Implementação do K-Means
Com esses dados fictícios criados, aplicaremos o algoritmo K-means. Exploraremos como o K-means tenta particionar esses dados em agrupamentos com base nos princípios apresentados nos capítulos anteriores.
O K-means pode ser inicializado e treinado da seguinte forma em Python:
kmeans = KMeans(n_clusters=k, random_state=42)
kmeans.fit(X)
Para determinar o número ideal de agrupamentos para esses dados, utilizaremos os métodos discutidos nos capítulos anteriores:
-
Método WSS: calcularemos o Within-Sum-of-Squares para diferentes valores de K e analisaremos o gráfico do cotovelo para identificar um possível K ideal;
-
Método da pontuação Silhouette: calcularemos a Pontuação Silhouette para diferentes valores de K e examinaremos o gráfico Silhouette e as médias das pontuações para encontrar o K que maximiza a qualidade dos agrupamentos.
Por fim, as visualizações desempenharão um papel fundamental em nossa implementação. Iremos visualizar:
-
O próprio conjunto de dados fictício, para observar a estrutura inerente dos agrupamentos;
-
O gráfico WSS, para identificar o ponto de cotovelo;
-
O gráfico Silhouette, para avaliar a qualidade dos agrupamentos para diferentes valores de K;
-
Os agrupamentos finais do K-means sobrepostos ao conjunto de dados fictício, para verificar visualmente os resultados do agrupamento e o K ideal escolhido.
Obrigado pelo seu feedback!
Pergunte à IA
Pergunte à IA
Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo
Can you explain what the WSS (Within-Sum-of-Squares) method is and how it helps determine the optimal number of clusters?
How does the Silhouette score work, and why is it useful for evaluating clustering quality?
Can you walk me through the steps of visualizing the clusters and interpreting the results?
Awesome!
Completion rate improved to 2.94
Implementação em Conjunto de Dados Fictício
Deslize para mostrar o menu
Agora você irá acompanhar um exemplo prático de aplicação do agrupamento K-means. Para isso, será utilizado um conjunto de dados fictício. Conjuntos de dados fictícios são conjuntos de dados gerados artificialmente, frequentemente usados para fins de demonstração e aprendizado. Eles permitem controlar as características dos dados e observar claramente como algoritmos como o K-means se comportam.
Conjunto de Dados Fictício
Para esta demonstração, criaremos um conjunto de dados fictício utilizando a função make_blobs()
. Esta função é excelente para gerar agrupamentos de pontos de dados de forma visual clara e controlável. Geraremos dados com as seguintes características:
-
Número de amostras: criaremos um conjunto de dados com
300
pontos de dados; -
Número de centros: definiremos o número de agrupamentos reais como
4
. Isso significa que os dados fictícios são projetados para ter quatro grupos distintos; -
Desvio padrão dos agrupamentos: controlaremos a dispersão dos pontos de dados dentro de cada agrupamento, definindo como
0.60
para agrupamentos relativamente compactos; -
Estado aleatório: utilizaremos um
random_state
fixo para reprodutibilidade, garantindo que a geração dos dados seja consistente a cada execução do código.
X, y_true = make_blobs(n_samples=300,
centers=4,
cluster_std=0.60,
random_state=0)
Implementação do K-Means
Com esses dados fictícios criados, aplicaremos o algoritmo K-means. Exploraremos como o K-means tenta particionar esses dados em agrupamentos com base nos princípios apresentados nos capítulos anteriores.
O K-means pode ser inicializado e treinado da seguinte forma em Python:
kmeans = KMeans(n_clusters=k, random_state=42)
kmeans.fit(X)
Para determinar o número ideal de agrupamentos para esses dados, utilizaremos os métodos discutidos nos capítulos anteriores:
-
Método WSS: calcularemos o Within-Sum-of-Squares para diferentes valores de K e analisaremos o gráfico do cotovelo para identificar um possível K ideal;
-
Método da pontuação Silhouette: calcularemos a Pontuação Silhouette para diferentes valores de K e examinaremos o gráfico Silhouette e as médias das pontuações para encontrar o K que maximiza a qualidade dos agrupamentos.
Por fim, as visualizações desempenharão um papel fundamental em nossa implementação. Iremos visualizar:
-
O próprio conjunto de dados fictício, para observar a estrutura inerente dos agrupamentos;
-
O gráfico WSS, para identificar o ponto de cotovelo;
-
O gráfico Silhouette, para avaliar a qualidade dos agrupamentos para diferentes valores de K;
-
Os agrupamentos finais do K-means sobrepostos ao conjunto de dados fictício, para verificar visualmente os resultados do agrupamento e o K ideal escolhido.
Obrigado pelo seu feedback!