DOI QR코드

DOI QR Code

Geographical Name Denoising by Machine Learning of Event Detection Based on Twitter

트위터 기반 이벤트 탐지에서의 기계학습을 통한 지명 노이즈제거

  • 우승민 (가톨릭대학교 컴퓨터정보공학부) ;
  • 황병연 (가톨릭대학교 컴퓨터정보공학부)
  • Received : 2015.07.07
  • Accepted : 2015.09.21
  • Published : 2015.10.31

Abstract

This paper proposes geographical name denoising by machine learning of event detection based on twitter. Recently, the increasing number of smart phone users are leading the growing user of SNS. Especially, the functions of short message (less than 140 words) and follow service make twitter has the power of conveying and diffusing the information more quickly. These characteristics and mobile optimised feature make twitter has fast information conveying speed, which can play a role of conveying disasters or events. Related research used the individuals of twitter user as the sensor of event detection to detect events that occur in reality. This research employed geographical name as the keyword by using the characteristic that an event occurs in a specific place. However, it ignored the denoising of relationship between geographical name and homograph, it became an important factor to lower the accuracy of event detection. In this paper, we used removing and forecasting, these two method to applied denoising technique. First after processing the filtering step by using noise related database building, we have determined the existence of geographical name by using the Naive Bayesian classification. Finally by using the experimental data, we earned the probability value of machine learning. On the basis of forecast technique which is proposed in this paper, the reliability of the need for denoising technique has turned out to be 89.6%.

본 논문에서는 트위터 기반 이벤트 탐지에서의 기계학습을 통한 지명 노이즈제거 방식을 제안한다. 최근 스마트폰 이용자의 증가로 소셜 네트워크 서비스(SNS) 이용자가 증가하고 있는 추세이다. 그중 트위터는 140자 이내의 단문서비스와 팔로우 기능으로 정보의 빠른 전달력과 확산성을 가지고 있다. 이러한 특성과 모바일에 최적화된 트위터의 특성상 정보 전달 속도가 매우 빠르기 때문에 재난 상황이나 이벤트 전달의 매개체 역할을 하고 있다. 이와 관련된 연구로는 트위터 사용자 개개인을 이벤트 탐지의 센서로 사용하여 현실에서 발생하는 이벤트를 탐지하였는데 이벤트가 특정 장소에서 발생한다는 특성을 이용해서 지명 키워드를 사용하였다. 그러나 지명과 동형이의어 관계에 관한 노이즈제거에 대한 부분이 누락되어있어서 이벤트 탐지의 정확도를 낮추는 요인이 된다. 이에 본 논문에서는 제거와 예측 두 가지 방식으로 노이즈제거 기법을 적용하였다. 먼저 노이즈 관련 데이터베이스 구축을 이용하여 제거 필터링을 진행한 후에 나이브 베이지안 분류를 이용해서 지명 유무를 결정하였다. 실험 데이터를 이용해서 기계학습을 위한 확률값을 구했으며, 지명마다 본 논문에서 제시하는 예측기법을 검증했을 때 89.6%의 신뢰도로 노이즈제거 기법의 필요성을 보였다.

Keywords

References

  1. Statistic Brain, Twitter Statistics [Internet], http://www.statisticbrain.com.
  2. E. Lee, J. Kim, and D. Baik, "An Evaluation Method for Contents Importance Based on Twitter Characteristics," Journal of KIISE, Vol.41, No.12, pp.1136-1144, 2014. https://doi.org/10.5626/JOK.2014.41.12.1136
  3. T. Bayar and K. Lee, "Extracting Core Events Based on Timeline and Retweet Analysis in Twitter Corpus," KIPS Transactions on Software and Data Engineering, Vol.1 No.1, pp.69-74, 2012. https://doi.org/10.3745/KTSDE.2012.1.1.069
  4. H. Kwak, C. Lee, H. Park, and S. Moon, "What is Twitter, a Social Network or a News Media?," Proc. of the 19th International Conference on World Wide Web, pp.591-600, 2010.
  5. T. Sakaki, M. Okzaki, and Y. Matsuo, "Earthquake Shakes Twitter Users: Real-time Event Detection by Social Sensors," Proc. of the 19th International Conference on World Wide Web, pp.851-860, 2010.
  6. R. Li, K. H. Lei, R. Khadiwala, and K. Chang, "TEDAS: a Twitter Based Event Detection and Analysis System," Proc. of the IEEE 28th International Conference on Data Engineering, pp.1273-1276. 2012.
  7. J. Yim, J. Yoon, B. Lee, and B. Hwang, "Designing of Event Decision Module using Twitter," Proc. of Korea Computer Congress, pp.248-250, 2013.
  8. J. Shin and C. Ock, "A Stage Transition Model for Korean Part-of-Speech and Homograph Tagging," Journal of KIISE, Vol.39 No.11, pp.889-901, 2012.
  9. Twitter Streaming API [Internet], http://dev.twitter.com/docs/streaming-apis.
  10. W. lan H, F. Eibe, and H. Mark A, "Data Mining," 3rd ed., Morgan Kaufmann, pp.594-595, 2011.
  11. J. Yim and B. Hwang, "Predicting Movie Success based on Machine Learning Using Twitter," KIPS Transactions on Software and Data Engineering, Vol.3 No.7, pp.263-270, 2014. https://doi.org/10.3745/KTSDE.2014.3.7.263

Cited by

  1. Keyword Filtering about Disaster and the Method of Detecting Area in Detecting Real-Time Event Using Twitter vol.5, pp.7, 2016, https://doi.org/10.3745/KTSDE.2016.5.7.345