DOI QR코드

DOI QR Code

A study on unstructured text mining algorithm through R programming based on data dictionary

Data Dictionary 기반의 R Programming을 통한 비정형 Text Mining Algorithm 연구

  • Received : 2015.01.20
  • Accepted : 2015.03.21
  • Published : 2015.04.30

Abstract

Unlike structured data which are gathered and saved in a predefined structure, unstructured text data which are mostly written in natural language have larger applications recently due to the emergence of web 2.0. Text mining is one of the most important big data analysis techniques that extracts meaningful information in the text because it has not only increased in the amount of text data but also human being's emotion is expressed directly. In this study, we used R program, an open source software for statistical analysis, and studied algorithm implementation to conduct analyses (such as Frequency Analysis, Cluster Analysis, Word Cloud, Social Network Analysis). Especially, to focus on our research scope, we used keyword extract method based on a Data Dictionary. By applying in real cases, we could find that R is very useful as a statistical analysis software working on variety of OS and with other languages interface.

미리 선언된 구조를 이용하여 수집 저장된 정형적 데이터와는 달리 웹 2.0의 시대에서 일반 사용자들이 평상시에 사용하는 자연어 형태로 작성된 비정형 데이터 분석은 과거보다 훨씬 더 넓은 응용범위를 가지고 있다. 데이터 양이 폭발적으로 증가하고 있다는 특성뿐 만 아니라 인간의 감성이 그대로 표현된 특성을 가진 텍스트에서 의미 있는 정보를 추출하는 빅데이터 분석 기법을 텍스트마이닝(Text Mining)이라 하며 본 연구는 이를 주제로 하고 있다. 본 연구를 위해 오픈 소스인 통계분석용 소프트웨어 R 프로그램을 이용하였으며, 비정형 텍스트 문서를 웹 환경에서 수집, 저장, 전처리, 분석 작업과 시각화(Frequency Analysis, Cluster Analysis, Word Cloud, Social Network Analysis)작업 등의 과정에 관한 알고리즘 구현을 연구하였다. 특히, 연구자의 연구 영역 분석에 초점을 더욱 높이기 위해 Data Dictionary를 참조한 키워드 추출 기법을 사용하였다. 실제 사례에 적용한 R은 다양한 OS 구동, 일반적 언어와의 인터페이스 지원 등 통계 분석용 소프트웨어로써 매우 유용하다는 점을 발견할 수 있었다.

Keywords

References

  1. Lee Ji Ho, "Big Data, Data Mining and Temporary Reproduction", The Journal of Intellectual Property, Vol. 8, No. 4, pp. 93-125, 2013. https://doi.org/10.1093/jiplp/jps218
  2. Kang S. J., "Constructing a Large Interlinked Ontology Network for the Web of Data", Journal of Korean Industrial Information Systems Society, Vol. 15, No. 1, pp. 15-23, 2010.
  3. URL http://www.worldometers.info/kr
  4. URL htt://www.wikipedia.org
  5. Won J. Y. and Kim D. G., "Deduction of Social Risk Issues Using Text Mining", Korean Review of Crisis & Emergency Management, Vol. 10, No. 7, pp. 33-52, 2014.
  6. Kwon H. R., Na J. H., Yoo J. S., Cho W. S., "Text-mining Techniques for Metabolic Pathway Reconstruction", Journal of Korean Industrial Information Systems Society, Vol. 12, No. 4, pp. 138-147, 2007.
  7. Feinerer I, "An introduction to text mining in R". R News. Vol. 8, No. 2, pp. 19-22, 2008.
  8. Zhang J, Jang J, Kim S, Lee H, Lee C, Semicon L, "A study on the efficient patent search process using big data analysis tool R", Journal of Korea Safety Management & Science, Vol. 15, No. 4, pp. 289-294, 2013. https://doi.org/10.12812/ksms.2013.15.4.289
  9. Yang S. and Ko Y., "Extracting Comparative Elements for Korean Comparison Mining", Journal of KIISE, Vol. 38, No. 12, pp. 689-696, 2011.
  10. "THE R TIPS(THE SECOND EDITION)", Nobuo Funao, 2009.
  11. Feinerer I, "Introduction to the tm package text mining in R. nd)", n.pag.Web, 2014.
  12. Meyer D, Hornik K, Feinerer I, "Text mining infrastructure in R", Journal of Statistical Software, Vol. 25, No. 5, pp. 1-54, 2008,
  13. Zhao Y, "R and data mining: Examples and case studies", Academic Press, 2012.
  14. Williams G, "Data science with R text mining", 2014.
  15. Ingo F. and Kurt H., "tm: Text Mining Package". R package version 0.6., 2014. http://CRAN.R-project.org/package=tm
  16. Hadley W., "stringr: Make it easier to work with strings". R package version 0.6.2., 2012. http://CRAN.R-project.org/package=stringr
  17. Kam M. and Song M., "A Study on Differences of Contents and Tones of Arguments among Newspapers Using Text Mining Analysis", Journal of intelligence and information systems, Vol. 8, No. 3, pp. 53-77, 2012.
  18. Kurt H., "NLP: Natural Language Processing Infrastructure". R package version 0.1-5, 2014. http://CRAN.R-project.org/package=NLP
  19. Harley W., "ggplot2: elegant graphics for data analysis". Springer New York, 2009.
  20. Csardi G., Nepusz T., "The igraph software package for complex network research", InterJournal, Complex Systems 1695. 2006. http://igraph.org
  21. Ian F, "wordcloud: Word Clouds". R package version 2.5, 2014. http://CRAN.R-project.org/package=wordcloud
  22. Telecommunication Technology Association (http://www.tta.or.kr/)
  23. Lee H. K., "An analysis of mobile communication environment by a socio-technical approach", Journal of Korean Industrial Information Systems Society, Vol. 18, No. 2, pp. 59-69, 2013

Cited by

  1. Research on Methods for Processing Nonstandard Korean Words on Social Network Services vol.21, pp.3, 2016, https://doi.org/10.9723/jksiis.2016.21.3.035
  2. A Study on Political Attitude Estimation of Korean OSN Users vol.21, pp.4, 2016, https://doi.org/10.9723/jksiis.2016.21.4.001
  3. Research on Natural Language Processing Package using Open Source Software vol.25, pp.4, 2016, https://doi.org/10.5859/KAIS.2016.25.4.121
  4. 빅데이터 분석을 위한 비용효과적 오픈 소스 시스템 설계 vol.19, pp.1, 2015, https://doi.org/10.15813/kmr.2018.19.1.007
  5. 민원 분석을 위한 텍스트 마이닝 기법 연구: 계층적 연관성 분석 vol.23, pp.3, 2015, https://doi.org/10.9723/jksiis.2018.23.3.013
  6. Korean and English Sentiment Analysis Using the Deep Learning vol.23, pp.3, 2018, https://doi.org/10.9723/jksiis.2018.23.3.059
  7. 비정형 텍스트 기반의 토픽 모델링을 이용한 건설 안전사고 동향 분석 vol.19, pp.10, 2015, https://doi.org/10.5762/kais.2018.19.10.176
  8. Python을 이용한 SNS 크롤링 시스템 구축 vol.23, pp.5, 2015, https://doi.org/10.9723/jksiis.2018.23.5.061
  9. 연관관계 규칙을 이용한 학생 유지율 관리 방안 연구 vol.23, pp.6, 2015, https://doi.org/10.9723/jksiis.2018.23.6.067
  10. Analysis for internet health counseling about precocious puberty using text mining and topic modeling vol.37, pp.3, 2015, https://doi.org/10.14367/kjhep.2020.37.3.71
  11. 감성분석을 활용한 사물인터넷(IoT) 서비스 리뷰 분석: 사업자 특성에 따른 차이를 중심으로 vol.25, pp.5, 2015, https://doi.org/10.9723/jksiis.2020.25.5.091