DOI QR코드

DOI QR Code

Keyword Filtering about Disaster and the Method of Detecting Area in Detecting Real-Time Event Using Twitter

트위터를 활용한 실시간 이벤트 탐지에서의 재난 키워드 필터링과 지명 검출 기법

  • 하현수 (가톨릭대학교 컴퓨터공학과) ;
  • 황병연 (가톨릭대학교 컴퓨터정보공학부)
  • Received : 2016.01.26
  • Accepted : 2016.05.10
  • Published : 2016.07.31

Abstract

This research suggests the keyword filtering about disaster and the method of detecting area in real-time event detecting system by analyzing contents of twitter. The diffusion of smart-mobile has lead to a fast spread of SNS and nowadays, various researches based on studying SNS are being processed. Among SNS, the twitter has a characteristic of fast diffusion since it is written in 140 words of short paragraph. Therefore, the tweets that are written by twitter users are able to perform a role of sensor. By using these features the research has been constructed which detects the events that have been occurred. However, people became reluctant to open their information of location because it is reported that private information leakage are increasing. Also, problems associated with accuracy are occurred in process of analyzing the tweet contents that do not follow the spelling rule. Therefore, additional designing keyword filtering and the method of area detection on detecting real-time event process were required in order to develop the accuracy. This research suggests the method of keyword filtering about disaster and two methods of detecting area. One is the method of removing area noise which removes the noise that occurred in the local name words. And the other one is the method of determinating the area which confirms local name words by using landmarks. By applying the method of keyword filtering about disaster and two methods of detecting area, the accuracy has improved. It has improved 49% to 78% by using the method of removing area noise and the other accuracy has improved 49% to 89% by using the method of determinating the area.

본 논문에서는 트위터를 활용하여 이벤트를 실시간으로 탐지하는 시스템에서의 재난 키워드 필터링과 지명 검출 기법을 제안한다. 스마트폰의 보급이 SNS의 빠른 확산을 이끌었고, 최근 SNS를 활용하여 다양한 연구들이 진행되고 있다. SNS 중에서 트위터는 140자의 단문으로 작성되어 빠르게 확산되는 특성을 가지고 있다. 따라서 트윗 사용자들이 작성하는 트윗은 하나의 센서 역할을 수행할 수 있다. 이러한 특성들을 이용하여 발생한 이벤트를 탐지하는 연구가 진행되었다. 그러나 최근 개인 정보 유출 사례가 증가해 자신의 위치 정보를 공개하기 꺼려함에 따라 재난이 발생한 지역을 파악하는데 어려움이 있다. 또한 맞춤법을 따르지 않은 게시글의 내용을 분석하는 과정에서 정확성과 관련된 문제가 발생한다. 따라서 이벤트 발생 탐지 과정에 재난 관련 키워드 필터링과 지명 검출 기법이 추가적으로 적용되어야 한다. 본 논문에서는 재난 관련 키워드 필터링의 적용과 두 가지 지명 검출 기법을 제안한다. 지명을 검출하는 두 가지 기법은 지명 단어에서 발생되는 노이즈를 제거하는 지명 노이즈 제거 기법과 랜드 마크를 이용하여 지명 단어를 확정하는 지명 확정 기법이다. 재난 관련 키워드와 두 지명 검출 기법을 적용한 결과 기존 시스템의 정확도 49%에서 지명노이즈 제거기법은 78%, 지명확정기법은 89%로 향상되었다.

Keywords

References

  1. J. Yim and B. Hwang, "Twitter Based Realtime Event-Location Detector," KIPS Transactions on Software and Data Engineering, Vol.4, No.8, pp.301-308, 2015. https://doi.org/10.3745/KTSDE.2015.4.8.301
  2. R. Li, K. H. Lei, R. Khadiwala, and K. Chang, "TEDAS: a Twitter Based Event Detection and Analysis System," Proc. of the IEEE 28th International Conference on Data Engineering, pp.1273-1276, 2012.
  3. X. Zhou and L. Chen, "Event Detection over Twitter Social Media Streams," The VLDB Journal, Vol.23, No.3, pp.381-400, 2014. https://doi.org/10.1007/s00778-013-0320-3
  4. J. Shin and C. Ock, "A Stage Transition Model for Korean Part-of-Speech and Homograph Tagging," Journal of KIISE : Software and Applications, Vol.39, No.11, pp.889-901, 2012.
  5. J. Hur and C. Ock, "A Homonym Disambiguation System based on Semantic Information Extracted from Dictionary Definitions," Journal of KIISE : Software and Applications, Vol.28, No.9, pp.688-698, 2001.
  6. J. Yim, H. Ha, and B. Hwang, The Method for Removing Noises from Event Detection using Twitter," Proc. of KSII Fall Conference, pp.105-106, 2014.
  7. S. Woo and B. Hwang, "Geographical Name Denoising by Machine Learning of Event Detection Based on Twitter," KIPS Transactions on Software and Data Engineering, Vol. 4, No.10, pp.447-454, 2015. https://doi.org/10.3745/KTSDE.2015.4.10.447
  8. Twitter Streaming API [Internet], http://dev.twitter.com/docs/streaming-apis.
  9. S. Lee, Lucean Korean Morph Analyzer [Internet], http://cafe.naver.com/korlucene.
  10. Republic of Korea National Statistical Office, Population and Housing Census [Internet], http://www.kostat.go.kr.
  11. Naver Breaking News [internet], http://news.naver.com/main/list.nhn?mode=LSD&mid=sec&sid1=001.