DOI QR코드

DOI QR Code

A new cluster validity index based on connectivity in self-organizing map

자기조직화지도에서 연결강도에 기반한 새로운 군집타당성지수

  • Kim, Sangmin (Department of Statistics, Sungkyunkwan University) ;
  • Kim, Jaejik (Department of Statistics, Sungkyunkwan University)
  • 김상민 (성균관대학교 통계학과) ;
  • 김재직 (성균관대학교 통계학과)
  • Received : 2020.08.04
  • Accepted : 2020.08.19
  • Published : 2020.10.31

Abstract

The self-organizing map (SOM) is a unsupervised learning method projecting high-dimensional data into low-dimensional nodes. It can visualize data in 2 or 3 dimensional space using the nodes and it is available to explore characteristics of data through the nodes. To understand the structure of data, cluster analysis is often used for nodes obtained from SOM. In cluster analysis, the optimal number of clusters is one of important issues. To help to determine it, various cluster validity indexes have been developed and they can be applied to clustering outcomes for nodes from SOM. However, while SOM has an advantage in that it reflects the topological properties of original data in the low-dimensional space, these indexes do not consider it. Thus, we propose a new cluster validity index for SOM based on connectivity between nodes which considers topological properties of data. The performance of the proposed index is evaluated through simulations and it is compared with various existing cluster validity indexes.

자기조직화지도는 고차원의 원자료를 노드들로 이루어진 저차원의 공간으로 투영하는 비지도학습 방법이다. 이 방법은 고차원의 자료를 노드들을 사용하여 2 또는 3차원의 공간에서 시각화할 수 있고, 이를 통해 자료의 특성을 탐색하는데 유용하다. 자료의 구조를 파악하기 위해 종종 노드들에 대한 군집분석을 시도하는데, 군집분석의 중요한 문제중 하나는 군집의 개수를 결정하는 것이다. 이 문제를 해결하기 위해 다양한 군집타당성지수들이 지금까지 개발되어 왔고, 이러한 지수들은 자기조직화지도의 노드들의 군집분석에 직접적으로 적용될 수 있다. 그러나, 자기조직화 지도가 원자료의 위상적 특성을 저차원 공간에 반영할 수 있다는 특징을 갖는데 반해, 이러한 일반적인 지수들은 이를 고려하지 않는 문제가 있다. 이에 본 연구에서는 원자료의 위상적 특성을 고려한 노드들 사이의 연결강도를 기반으로 하는 군집타당성지수를 제안한다. 이 새로운 군집타당성지수의 성능은 모의실험을 통해 기존의 군집타당성지수들과의 비교되고 검증된다.

Keywords

References

  1. Calinski, T. and Harabasz, J. (1974). A dendrite method for cluster analysis, Communications in Statistics, 3, 1-27.
  2. Hubert, L. and Levin J. (1976). A general statistical framework for assessing categorical clustering in free recall, Psychological Bulletin, 83, 1072-1080. https://doi.org/10.1037/0033-2909.83.6.1072
  3. Kaufman, L. and Rousseeuw, P. (1990). Finding Groups in Data, Wiley, New York.
  4. Kohonen, T. (1997). Self-Organizing Maps (2nd ed.), Springer-Verlag, Berlin, Germany.
  5. Krzanowski, W. and Lai, Y. (1988). A criterion for determining the number of groups in a dataset using sum of squares clustering, Biometrics, 44, 23-34. https://doi.org/10.2307/2531893
  6. Milligan, G. and Cooper, M. (1985). An examination of procedures for determining the number of clusters in a data set, Psychometrika, 50, 159-179. https://doi.org/10.1007/BF02294245
  7. Milligan, G. and Mahajan, V. (1980). A note on procedures for testing the quality of a clustering of a set of objects, Decision Science, 11, 669-677. https://doi.org/10.1111/j.1540-5915.1980.tb01168.x
  8. Tasdemir, K. and Merenyi, E. (2006). Data topology visualization for the self-organizing maps. In Proceeding of the 14th European Symposium on Artificial Neural Networks, Bruges, Belgium, 277-282.
  9. Vesanto, J. and Alhoniemi, E. (2000). Clustering of the self-organizing map, IEEE Transactions on Neural Networks and Learning Systems, 11, 586-600. https://doi.org/10.1109/72.846731
  10. Ward, J. H., Jr. (1963). Hierarchical grouping to optimize an objective function, Journal of the American Statistical Association, 58, 236-244. https://doi.org/10.1080/01621459.1963.10500845