Implementação em Conjunto de Dados Fictício
Agora será apresentado um exemplo prático de aplicação do agrupamento K-means. Para isso, será utilizado um conjunto de dados fictício. Conjuntos de dados fictícios são conjuntos de dados gerados artificialmente, frequentemente usados para fins de demonstração e aprendizado. Eles permitem controlar as características dos dados e observar claramente como algoritmos como o K-means se comportam.
Conjunto de Dados Fictício
Para esta demonstração, será criado um conjunto de dados fictício utilizando a função make_blobs(). Esta função é excelente para gerar agrupamentos de pontos de dados de forma visual clara e controlável. Os dados serão gerados com as seguintes características:
-
Número de amostras: será criado um conjunto de dados com
300pontos de dados; -
Número de centros: o número de agrupamentos reais será definido como
4. Isso significa que os dados fictícios são projetados para ter quatro grupos distintos; -
Desvio padrão dos agrupamentos: o espalhamento dos pontos de dados dentro de cada agrupamento será controlado, sendo definido como
0.60para agrupamentos relativamente compactos; -
Estado aleatório: será utilizado um
random_statefixo para reprodutibilidade, garantindo que a geração dos dados seja consistente a cada execução do código.
X, y_true = make_blobs(n_samples=300,
centers=4,
cluster_std=0.60,
random_state=0)
Implementação do K-Means
Com esses dados fictícios criados, será aplicada a seguir o algoritmo K-means. Será explorado como o K-means tenta particionar esses dados em agrupamentos com base nos princípios apresentados nos capítulos anteriores.
O K-means pode ser inicializado e treinado da seguinte forma em Python:
kmeans = KMeans(n_clusters=k, random_state=42)
kmeans.fit(X)
Para determinar o número ideal de agrupamentos para esses dados, serão utilizados os métodos discutidos nos capítulos anteriores:
-
Método WSS: será calculado o Within-Sum-of-Squares para diferentes valores de K e analisado o gráfico do cotovelo para identificar um possível K ideal;
-
Método do índice de silhueta: será calculado o Índice de Silhueta para diferentes valores de K e examinados o gráfico de silhueta e as médias dos índices para encontrar o K que maximize a qualidade dos agrupamentos.
Por fim, visualizações desempenharão um papel fundamental na implementação. Serão visualizados:
-
O próprio conjunto de dados fictício, para observar a estrutura inerente dos agrupamentos;
-
O gráfico WSS, para identificar o ponto de cotovelo;
-
O gráfico de silhueta, para avaliar a qualidade dos agrupamentos para diferentes valores de K;
-
Os agrupamentos finais do K-means sobrepostos ao conjunto de dados fictício, para verificar visualmente os resultados do agrupamento e o K ideal escolhido.
Obrigado pelo seu feedback!
Pergunte à IA
Pergunte à IA
Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo
Can you explain how the elbow method helps determine the optimal number of clusters?
What is the Silhouette score and how is it interpreted in clustering?
Can you walk me through the steps of visualizing the K-means clustering results?
Awesome!
Completion rate improved to 2.94
Implementação em Conjunto de Dados Fictício
Deslize para mostrar o menu
Agora será apresentado um exemplo prático de aplicação do agrupamento K-means. Para isso, será utilizado um conjunto de dados fictício. Conjuntos de dados fictícios são conjuntos de dados gerados artificialmente, frequentemente usados para fins de demonstração e aprendizado. Eles permitem controlar as características dos dados e observar claramente como algoritmos como o K-means se comportam.
Conjunto de Dados Fictício
Para esta demonstração, será criado um conjunto de dados fictício utilizando a função make_blobs(). Esta função é excelente para gerar agrupamentos de pontos de dados de forma visual clara e controlável. Os dados serão gerados com as seguintes características:
-
Número de amostras: será criado um conjunto de dados com
300pontos de dados; -
Número de centros: o número de agrupamentos reais será definido como
4. Isso significa que os dados fictícios são projetados para ter quatro grupos distintos; -
Desvio padrão dos agrupamentos: o espalhamento dos pontos de dados dentro de cada agrupamento será controlado, sendo definido como
0.60para agrupamentos relativamente compactos; -
Estado aleatório: será utilizado um
random_statefixo para reprodutibilidade, garantindo que a geração dos dados seja consistente a cada execução do código.
X, y_true = make_blobs(n_samples=300,
centers=4,
cluster_std=0.60,
random_state=0)
Implementação do K-Means
Com esses dados fictícios criados, será aplicada a seguir o algoritmo K-means. Será explorado como o K-means tenta particionar esses dados em agrupamentos com base nos princípios apresentados nos capítulos anteriores.
O K-means pode ser inicializado e treinado da seguinte forma em Python:
kmeans = KMeans(n_clusters=k, random_state=42)
kmeans.fit(X)
Para determinar o número ideal de agrupamentos para esses dados, serão utilizados os métodos discutidos nos capítulos anteriores:
-
Método WSS: será calculado o Within-Sum-of-Squares para diferentes valores de K e analisado o gráfico do cotovelo para identificar um possível K ideal;
-
Método do índice de silhueta: será calculado o Índice de Silhueta para diferentes valores de K e examinados o gráfico de silhueta e as médias dos índices para encontrar o K que maximize a qualidade dos agrupamentos.
Por fim, visualizações desempenharão um papel fundamental na implementação. Serão visualizados:
-
O próprio conjunto de dados fictício, para observar a estrutura inerente dos agrupamentos;
-
O gráfico WSS, para identificar o ponto de cotovelo;
-
O gráfico de silhueta, para avaliar a qualidade dos agrupamentos para diferentes valores de K;
-
Os agrupamentos finais do K-means sobrepostos ao conjunto de dados fictício, para verificar visualmente os resultados do agrupamento e o K ideal escolhido.
Obrigado pelo seu feedback!