Exploration of Symmetric Similarity Measures by Conditional Probabilities as Association Rule Thresholds

조건부 확률에 의한 대칭 유사성 측도의 연관성 평가 기준 활용 방안

  • Published : 2012.04.30

Abstract

Association rule mining is the method to quantify the relationship between each set of items in a huge database, and has been applied in various fields like healthcare, insurance, and internet shopping mall. There are three primary quality measures for meaningful association rules ; support and confidence and lift. We generate some association rules using confidence. Confidence is the most important measure of these measures, but it is an asymmetric measure. If we change antecedent items with consequent items, we have other confidence values. Thus we can face with difficult problems in generation of association rules. In this paper we apply some symmetric similarity measures by conditional probabilities used in cluster analysis and multi-dimensional analysis to find a solution to this problem. The comparative studies with support, two confidences, and some similarity measures by conditional probabilities are shown by numerical example.

연관성 규칙 탐사는 거대한 양의 데이터베이스에 내재되어 있는 항목들 간의 관련성을 수치화 하는 것으로 데이터마이닝 기법 중에서는 가장 많이 현업에서 활용되고 있다. 의미 있는 연관성 규칙을 탐사하기 위한 가장 기본적인 연관성 규칙 평가 기준에는 지지도, 신뢰도, 향상도 등이 있다. 이들 중에서 가장 중심이 되는 신뢰도는 비대칭적 측도로써 전항과 후항이 바뀌게 되면 그 값이 달라지므로 항목들 간에 연관성 규칙을 생성하는 데 어려움이 따른다. 본 논문에서는 이러한 문제를 해결하기 위해 군집분석이나 다차원 분석에서 이용되고 있는 조건부 확률에 의한 대칭 유사성 측도를 연관성 평가 기준으로 활용하는 방안에 대해 연구하였다. 먼저 조건부 확률에 의한 유사성 측도를 정의하고 지지도 및 신뢰도와의 관계식을 유도한 후, 예제에 의한 비교를 통하여 이들 유사성 측도의 유용성을 알아보았다. 그 결과, 본 논문에서 고려한 유사성 측도들은 신뢰도와는 달리 대칭적인 평가 기준으로 활용할 수 있다는 사실을 확인하였다.

Keywords

References

  1. 김민환, 박희창 (2007). 연관성 규칙을 이용한 왜곡변수 발견에 관한 연구, Journal of the Korean Data Analysis Society, 8(2), 711-719.
  2. 박희창 (2011). 유사성 측도에 대한 연관성 규칙 평가 기준으로의 적용 방안, Journal of the Korean Data Analysis Society, 13(3), 1331-1342.
  3. 박희창, 조광현 (2005). 연관성규칙을 이용한 지역정보와 통합된 폐기물 데이터 분석, Journal of the Korean Data Analysis Society, 7(3), 763-772.
  4. 조광현, 박희창 (2007). 연관성 발견을 위한 군집분석의 적용 방안, Journal of the Korean Data Analysis Society, 9(6), 2919-2930.
  5. 조광현, 박희창 (2011). 외적 변수를 이용한 의미 없는 연관성 규칙 발견, Journal of the Korean Data Analysis Society, 13(3), 1343-1352.
  6. 진도승, 강창완, 김규곤, 최승배 (2011). 연관성분석을 이용한 여행업 고객 분석, Journal of the Korean Data Analysis Society, 13(6), 2945-2952.
  7. Agrawal, R., Imielinski, R., Swami, A. (1993). Mining association rules between sets of items in large databases, Proceedings of the ACM SIGMOD Conference on Management of Data, 207-216.
  8. Agrawal, R., Srikant, R. (1994). Fast algorithms for mining association rules, Proceedings of the 20th VLDB Conference, 487-499.
  9. Bayardo, R. J. (1998). Efficiently mining long patterns from databases, Proceedings of ACM SIGMOD Conference on Management of Data, 85-93.
  10. Cai, C. H., Fu, A. W. C., Cheng, C. H., Kwong, W. W. (1998). Mining association rules with weighted items, Proceedings of International Database Engineering and Applications Symposium, 68-77.
  11. Han, J., Fu, Y. (1995). Discovery of multiple-level association rules from large databases, Proceeding of the 21st VLDB Conference, 420-431.
  12. Han, J., Fu, Y. (1999). Mining multiple-level association rules in large databases, IEEE Transactions on Knowledge and Data Engineering, 11(5), 68-77.
  13. Han, J., Pei, J., Yin, Y. (2000). Mining frequent patterns without candidate generation, Proceedings of ACM SIGMOD Conference on Management of Data, 1-12.
  14. Liu, B., Hsu, W., Ma, Y. (1999). Mining association rules with multiple minimum supports, Proceedings of the 5th International Conference on Knowledge Discovery and Data Mining, 337-241.
  15. Park, J. S., Chen, M. S., Philip, S. Y. (1995). An effective hash-based algorithms for mining association rules, Proceedings of ACM SIGMOD Conference on Management of Data, 175-186.
  16. Pasquier, N., Bastide, Y., Taouil, R., Lakhal, L. (1999). Discovering frequent closed itemsets for association rules, Proceedings of the 7th International Conference on Database Theory, 398-416.
  17. Pei, J., Han, J., Mao, R. (2000). CLOSET: An efficient algorithm for mining frequent closed itemsets, Proceedings of ACM SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discovery, 21-30.
  18. Romesburg, H. C. (1984). Cluster analysis for researchers, Lifetime Learning Publications, Belmont, California.
  19. Srikant, R., Agrawal, R. (1995). Mining generalized association rules, Proceedings of the 21st VLDB Conference, 407-419.
  20. Srinkant R., Vu Q., Agrawal R. (1997). Mining association rules with item constraints, Proceedings of the 3rd International Conference on Knowledge Discovery and Data Mining, 67-73.
  21. Toivonen H. (1996). Sampling large database for association rules, Proceedings of the 22nd VLDB Conference, 134-145.