Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprende Implementación en un Conjunto de Datos Ficticio | Clustering Jerárquico
Análisis de Conglomerados con Python

bookImplementación en un Conjunto de Datos Ficticio

Como es habitual, se utilizarán las siguientes bibliotecas:

  • sklearn para generar datos ficticios e implementar el clustering jerárquico (AgglomerativeClustering);

  • scipy para generar y trabajar con el dendrograma;

  • matplotlib para visualizar los clústeres y el dendrograma;

  • numpy para operaciones numéricas.

Generación de datos ficticios

Se puede utilizar la función make_blobs() de scikit-learn para generar conjuntos de datos con diferentes cantidades de clústeres y grados de separación variables. Esto permitirá observar cómo se comporta el clustering jerárquico en distintos escenarios.

El algoritmo general es el siguiente:

  1. Instanciar el objeto AgglomerativeClustering, especificando el método de enlace y otros parámetros;

  2. Ajustar el modelo a los datos;

  3. Extraer etiquetas de clúster si se decide un número específico de clústeres;

  4. Visualizar los clústeres (si los datos son 2D o 3D) utilizando gráficos de dispersión;

  5. Utilizar linkage de SciPy para crear la matriz de enlace y luego dendrogram para visualizar el dendrograma.

También se puede experimentar con diferentes métodos de enlace (por ejemplo, single, complete, average, Ward's) y observar cómo afectan los resultados del clustering y la estructura del dendrograma.

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 4. Capítulo 3

Pregunte a AI

expand

Pregunte a AI

ChatGPT

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

bookImplementación en un Conjunto de Datos Ficticio

Desliza para mostrar el menú

Como es habitual, se utilizarán las siguientes bibliotecas:

  • sklearn para generar datos ficticios e implementar el clustering jerárquico (AgglomerativeClustering);

  • scipy para generar y trabajar con el dendrograma;

  • matplotlib para visualizar los clústeres y el dendrograma;

  • numpy para operaciones numéricas.

Generación de datos ficticios

Se puede utilizar la función make_blobs() de scikit-learn para generar conjuntos de datos con diferentes cantidades de clústeres y grados de separación variables. Esto permitirá observar cómo se comporta el clustering jerárquico en distintos escenarios.

El algoritmo general es el siguiente:

  1. Instanciar el objeto AgglomerativeClustering, especificando el método de enlace y otros parámetros;

  2. Ajustar el modelo a los datos;

  3. Extraer etiquetas de clúster si se decide un número específico de clústeres;

  4. Visualizar los clústeres (si los datos son 2D o 3D) utilizando gráficos de dispersión;

  5. Utilizar linkage de SciPy para crear la matriz de enlace y luego dendrogram para visualizar el dendrograma.

También se puede experimentar con diferentes métodos de enlace (por ejemplo, single, complete, average, Ward's) y observar cómo afectan los resultados del clustering y la estructura del dendrograma.

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 4. Capítulo 3
some-alt