domingo, 10 de noviembre de 2013

Cómo encontrar el centroide en un análisis de la agregación

Los clusters son grupos de datos que tienen características similares.

 

Agrupación de centroides

Cluster análisis es un método para organizar los datos en grupos representativos sobre la base de características similares. Cada miembro del grupo tiene más en común con los demás miembros del mismo grupo que con los miembros de los otros grupos. El punto más representativo dentro del grupo se llama el centro de gravedad. Por lo general, esta es la media de los valores de los puntos de datos de la agrupación.

 

Lo que necesita

Calculadora

Papel cuadriculado

 

Organizar los datos. Si los datos están formados de una sola variable, un histograma podría ser apropiado. Si se trata de dos variables, gráfico de los datos en un plano de coordenadas. Por ejemplo, si se busca en la altura y el peso de los niños en edad escolar en un aula, trazar los puntos de datos de cada niño en un gráfico, con el peso de ser el eje horizontal y la altura de ser el eje vertical. Si están implicados más de dos variables, pueden ser necesarias las matrices para mostrar los datos.

 

Grupo de los datos en grupos. Cada grupo está constituido por los puntos de datos más cercanos a ella. En la altura y el peso de ejemplo, el grupo de los puntos de datos que parecen estar muy juntos. El número de grupos, y si todos los puntos de datos tiene que estar en un clúster, puede depender de los propósitos del estudio.

 

Para cada grupo, agregue los valores de todos los miembros. Por ejemplo, si un grupo de datos consistió en los puntos (80, 56), (75, 53), (60, 50), y (68,54), la suma de los valores sería (283, 213).

 

Divida el total por el número de miembros del clúster. En el ejemplo anterior, 283 dividido por cuatro es 70,75, y 213 dividido por cuatro es 53,25, por lo que el centro de gravedad de la agrupación es (70.75, 53.25).

 

Representar gráficamente los centroides de grupo y determinar si cualquiera de los puntos están más cerca de un centroide de otro clúster de lo que son para el centroide de su propio clúster. Si los puntos están más cerca de un centro de gravedad diferente, redistribuirlos al clúster que contiene el centro de gravedad más cerca.

 

Repetir los pasos 3, 4 y 5 hasta que todos los puntos de datos están en el grupo que contiene el centroide a los que están más próximos.

 

Consejos y advertencias

Si el centroide tiene que ser un punto de datos en lugar de un punto medio entre los datos en particular, entonces la mediana puede ser utilizado para determinar que, en lugar de la media.

 

 

No hay comentarios:

Publicar un comentario