Prediction for the Films Success using Stylometry

Stylometry를 이용한 영화 흥행 예측

  • Baek, Gwangil (Department of Information Statistics, Dongeui University) ;
  • Kim, Kyu Kon (Department of Information Statistics, Dongeui University) ;
  • Choi, Seung Bae (Department of Information Statistics, Dongeui University) ;
  • Kang, Changwan (Department of Information Statistics, Dongeui University)
  • 백광일 (동의대학교 데이터정보학과) ;
  • 김규곤 (동의대학교 데이터정보학과) ;
  • 최승배 (동의대학교 데이터정보학과) ;
  • 강창완 (동의대학교 데이터정보학과)
  • Received : 2015.01.19
  • Accepted : 2015.04.10
  • Published : 2015.04.30

Abstract

In recent years, another interesting application field of text mining techniques has been stylometry research. Textual stylometry deals with identifying the linguistic style of text documents. Typical research topics are the authorship identification problem, i.e., who wrote a specific text passage, or linguistic forensic tests. The advance of text mining techniques and computing power has led to a steady rise in usage of text mining for stylometry. Classical textual stylometry mainly deals with historical documents subject to unclear author-document correspondence. Examples are poems of Shakespeare, books of the Wizard of Oz, or the Federalist Papers. In this paper we introduce text mining in Stylometry using R and predict the movie success. In case study, we predicted that 'Jeboja' would be more successful than 'Slow Video' using Stylometry method.

최근 스마트폰 등 모바일 장치의 대중화로 인하여 시간과 장소에 구애받지 않고 인터넷에 접속할 수 있는 소셜 미디어 시대로 들어섰으며 이러한 환경에서 기업이나 국가는 소셜 미디어 분석을 통한 가치 있는 정보 획득을 최우선 과제로 설정하고 있다. 더욱이 요즘 들어 다양한 분야에서 빅데이터가 발생하고 있고 이러한 빅데이터를 활용한 성공사례가 증가하고 있는 상황에서 음악이나 영화 컨텐츠 산업과 같은 문화 컨텐츠 분야에서 빅데이터 분석 역시 흥미있는 주제로 자리잡고 있다. 본 연구에서는 소셜 미디어 분석에서 핵심적인 분석방법인 텍스트 마이닝을 소개하고 텍스트 마이닝 분석 방법 중 Stylometry 방법에 대한 고찰과 이를 이용한 영화 흥행 예측을 시도하고자 한다. 분석 도구로는 R 프로그램을 이용하였고 온라인 상의 영화 댓글 데이터 수집부터 흥행 예측을 위한 소셜네트워크 분석까지 실제 사용한 R 프로그램을 제시하였다. 사례분석에서는 Stylometry 기법을 이용하여 흥행영화인 "명량"을 기본 데이터로 하여 같은 시점에 동시 개봉한 두 개의 후보 영화(제보자, 슬로우 비디오) 중 상대적으로 더 흥행을 할 영화를 예측하였고 예측 결과는 "제보자"로 나타났다.

Keywords

Acknowledgement

Supported by : 동의대학교

References

  1. Bouchet-Valat, M., Bastin, G. (2013). RcmdrPlugin.temis : Graphical integrated text mining solution, URL http://CRAN.R-project.org/package=RcmdrPlugin.temis.
  2. Feinerer, I., Hornik, K., Meyer, D. (2008). Text mining infrastructure in R, Journal of Statistical Software, 25, 5.
  3. He, R. C., Rasheed, K. (2004). Using machine learning techniques for stylometry, Proceedings of the International Conference on Artificial Intelligence, 897-903.
  4. Holmes, D., Kardos, J. (2003). Who was the author? An introduction to Stylometry, Chance, 16(2), 5-8. https://doi.org/10.1080/09332480.2003.10554842
  5. Korea Creative Content Agency (2014). A case study of big data for contents area, Culture and Technology, 34, 50-63. (in Korean).
  6. Kim, D. (2009). On the silhouette plot in cluster analysis, Journal of the Korean Data Analysis Society, 11(6), 2955-2964. (in Korean).
  7. Kim, J., Jin, S. (2012). A study on application of opinion mining based on big data, Journal of the Korean Data Analysis Society, 15(1), 101-113. (in Korean).
  8. Oh, H., Cho, S., Kang, C., Lim, D. (2010). Fashion company's claim data analysis using text mining, Journal of the Korean Data Analysis Society, 12(1), 297-306. (in Korean).
  9. Oh, S., Jin, S. (2012). A study on analysis of internet shopping mall customers' reviews by text mining, Journal of the Korean Data Analysis Society, 14(1), 125-138. (in Korean).