DOI QR코드

DOI QR Code

Impact of Diverse Document-evaluation Measure-based Searching Methods in Big Data Search Accuracy

빅데이터 검색 정확도에 미치는 다양한 측정 방법 기반 검색 기법의 효과

  • 김지영 (서울대학교 컴퓨터공학과) ;
  • 한다현 (서울대학교 컴퓨터공학과) ;
  • 김종권 (서울대학교 컴퓨터공학과)
  • Received : 2016.12.05
  • Accepted : 2017.03.22
  • Published : 2017.05.15

Abstract

With the rapid growth of Big Data, research on extracting meaningful information is being pursued by both academia and industry. Especially, data characteristics derived from analysis, and researcher intention are key factors for search algorithms to obtain accurate output. Therefore, reflecting both data characteristics and researcher intention properly is the final goal of data analysis research. The data analyzed properly can help users to increase loyalty to the service provided by company, and to utilize information more effectively and efficiently. In this paper, we explore various methods of document-evaluation, so that we can improve the accuracy of searching article one of the most frequently searches used in real life. We also analyze the experiment result, and suggest the proper manners to use various methods.

빅데이터의 공급이 늘어남에 따라, 이로부터 유용한 정보를 추출해내기 위한 학계와 업계의 연구가 활발히 진행 되고 있다. 특히 분석한 정보의 특징과 함께, 정보 검색 시 검색자의 의도를 함께 반영하여 정보를 여과해 주는 것이 대부분의 연구의 최종 목표이다. 정확하게 분석된 자료는 기업이 제공하는 서비스에 대한 사용자의 충성도를 높여주고, 사용자 스스로 보다 효율적이고 효과적으로 정보를 이용할 수 있게 된다. 본 논문에서는 가장 높은 빈도로 사용되는 검색 분야인 기사를 검색하는 경우의 정확도를 높이기 위해, 관련 데이터를 TF-IDF, 결정 트리, 코사인 유사도, 단순 베이지안 분류기 등의 다양한 측도방법으로 평가해 보고, 이를 분석하였다. 또한, 분석 결과를 바탕으로 가장 적합한 측도 방법을 제안한다.

Keywords

References

  1. Leskovec, Jure, Anand Rajaraman, and Jeffrey David Ullman, Mining of massive datasets, Cambridge University Press, 2014.
  2. Russell, Stuart Jonathan, et al., Artificial intelligence: a modern approach, Vol. 2, Upper Saddle River: Prentice hall, 2003.
  3. Hyafil, Laurent, and Ronald L. Rivest, "Constructing optimal binary decision trees is NP-complete," Information Processing Letters 5.1, 15-17, 1976. https://doi.org/10.1016/0020-0190(76)90095-8
  4. Singhal, Amit, "Modern information retrieval: A brief overview," IEEE Data Eng. Bull. 24.4, 35-43, 2001.
  5. Johannes Furnkranz, Gerhard Widmer: Incremental Reduced Error Pruning," W. Cohen and H. Hirsh, editors, Proc. of the 11th International Conference on Machine Learning (ML-94), pp. 70-77, New Brunswick, NJ, Morgan Kaufmann, 1994.
  6. Johannes Furnkranz, "A Tight Integration of Pruning and Learning," N. Lavrac and S. Wrobel, editors, Proc. of the 8th European Conference on Machine Learning (ECML-95), pp. 291-294, Crete, Greece, Springer-Verlag, 1995.
  7. William W. Cohen: Fast Eective Rule Induction," Proc. of the Twelfth International, Conference on Machine Learning, Lake Tahoe, California, 1995.
  8. William W. Cohen: Learning to Classify English Text with ILP Methods," Advances in Inductive Logic Programming (Ed. L. De Raedt), IOS Press, 1995.
  9. Blei, David M.; Ng, Andrew Y., Jordan, Michael I (January 2003). Lafferty, John, ed., "Latent Dirichlet Allocation," Journal of Machine Learning Research, 3 (4-5): pp. 993-1022. doi:10.1162/jmlr.2003.3.4-5.993.
  10. Hoffman, Matthew, Francis R. Bach, and David M. Blei, (2010), "Online learning for latent dirichlet allocation."