DOI QR코드

DOI QR Code

Semi-supervised learning for sentiment analysis in mass social media

대용량 소셜 미디어 감성분석을 위한 반감독 학습 기법

  • Hong, Sola (College of Information and Communication Engineering, Sungkyunkwan University) ;
  • Chung, Yeounoh (College of Information and Communication Engineering, Sungkyunkwan University) ;
  • Lee, Jee-Hyong (College of Information and Communication Engineering, Sungkyunkwan University)
  • 홍소라 (성균관대학교 정보통신대학) ;
  • 정연오 (성균관대학교 정보통신대학) ;
  • 이지형 (성균관대학교 정보통신대학)
  • Received : 2014.03.09
  • Accepted : 2014.09.12
  • Published : 2014.10.25

Abstract

This paper aims to analyze user's emotion automatically by analyzing Twitter, a representative social network service (SNS). In order to create sentiment analysis models by using machine learning techniques, sentiment labels that represent positive/negative emotions are required. However it is very expensive to obtain sentiment labels of tweets. So, in this paper, we propose a sentiment analysis model by using self-training technique in order to utilize "data without sentiment labels" as well as "data with sentiment labels". Self-training technique is that labels of "data without sentiment labels" is determined by utilizing "data with sentiment labels", and then updates models using together with "data with sentiment labels" and newly labeled data. This technique improves the sentiment analysis performance gradually. However, it has a problem that misclassifications of unlabeled data in an early stage affect the model updating through the whole learning process because labels of unlabeled data never changes once those are determined. Thus, labels of "data without sentiment labels" needs to be carefully determined. In this paper, in order to get high performance using self-training technique, we propose 3 policies for updating "data with sentiment labels" and conduct a comparative analysis. The first policy is to select data of which confidence is higher than a given threshold among newly labeled data. The second policy is to choose the same number of the positive and negative data in the newly labeled data in order to avoid the imbalanced class learning problem. The third policy is to choose newly labeled data less than a given maximum number in order to avoid the updates of large amount of data at a time for gradual model updates. Experiments are conducted using Stanford data set and the data set is classified into positive and negative. As a result, the learned model has a high performance than the learned models by using "data with sentiment labels" only and the self-training with a regular model update policy.

대표적인 소셜 네트워크 서비스(SNS)인 트위터의 내용을 분석하여 자동으로 트윗에 나타난 사용자의 감성을 분석하고자 한다. 기계학습 기법을 사용해서 감성 분석 모델을 생성하기 위해서는 각각의 트윗에 긍정 또는 부정을 나타내는 감성 레이블이 필요하다. 그러나 사람이 모든 트윗에 감성 레이블을 붙이는 것은 비용이 많이 소요되고, 실질적으로 불가능하다. 그래서 본 연구에서는 "감성 레이블이 있는 데이터"와 함께 "감성 레이블이 없는 데이터"도 활용하기 위해서 반감독 학습기법인 self-training 알고리즘을 적용하여 감성분석 모델을 생성한다. Self-training 알고리즘은 "레이블이 있는 데이터"의 레이블이 있는 데이터를 활용하여 "레이블이 없는 데이터"의 레이블을 확정하여 "레이블이 있는 데이터"를 확장하는 방식으로, 분류모델을 점진적으로 개선시키는 방식이다. 그러나 데이터의 레이블이 한번 확정되면 향후 학습에서 계속 사용되므로, 초기의 오류가 계속적으로 학습에 영향을 미치게 된다. 그러므로 조금 더 신중하게 "레이블이 없는 데이터"의 레이블을 결정할 필요가 있다. 본 논문에서는 self-training 알고리즘을 이용하여 보다 높은 정확도의 감성 분석 모델을 생성하기 위하여, self-training 중 "감성 레이블이 없는 데이터"의 레이블을 결정하여 "감성 레이블이 있는 데이터"로 확장하기 위한 3가지 정책을 제시하고, 각각의 성능을 비교 분석한다. 첫 번째 정책은 임계치를 고려하는 것이다. 분류 경계로부터 일정거리 이상 떨어져 있는 데이터를 선택하고자 하는 것이다. 두 번째 정책은 같은 개수의 긍/부정 데이터를 추가하는 것이다. 한쪽 감성에 해당하는 데이터에만 국한된 학습을 하는 것을 방지하기 위한 것이다. 세 번째 정책은 최대 개수를 고려하는 것이다. 한 번에 많은 양의 데이터가 "감성 레이블이 있는 데이터"에 추가되는 것을 방지하고 상위 몇%만 선택하기 위해서, 선택되는 데이터의 개수의 상한선을 정한 것이다. 실험은 긍정과 부정으로 분류되어 있는 트위터 데이터 셋인 Stanford data set에 적용하여 실험하였다. 그 결과 학습된 모델은 "감성 레이블이 있는 데이터" 만을 가지고 모델을 생성한 것보다 감성분석의 성능을 향상 시킬 수 있었고 3가지 정책을 적용한 방법의 효과를 입증하였다.

Keywords

References

  1. B. Pang, L. Lee, and S. Vaithyanathan, "Thumbs up? Sentiment classification using machine learning techniques," In Proceeding of the ACL-02 conference on Empirical methods in natural language processing. Volume 10. Association for Computational Linguistics, pp. 79-86, 2002.
  2. H. H. Kang, S. J. Yoo, and D. I. Han, "Design and Implementation of System for Classifying Review of Product Attribute to Positive/Negative," In proceeding of The 36th KIISE Fall Conference, vol. 36, no. 2, pp. 1-6, 2009.
  3. A. Agarwal, B. Xie, I. Vovsha, O. Rambow, and R. Passonneau, "Sentiment analysis of twitter data," In Proceeding of the Workshop on Languages in Social Media. Association for Computational Linguistics, pp.30-38. 2011,
  4. I. S. Kang, "A Comparative Study on Using SentiWordNet for English Twitter Sentiment Analysis," Journal of The Korean Institute of Intelligent System, vol. 23, no. 4, pp. 384-388, 2013. https://doi.org/10.5391/JKIIS.2013.23.4.317
  5. A. Hogenboom, D. Bal, F. Frasincar, M. Bal, F. de Jong, and U. Kaymak, "Exploiting Emoticons in Sentiment Analysis," In Proceeding of the 28th Annual ACM Symposium on Applied Computing ACM, pp. 703-710, 2013.
  6. J. H. Yeon, D. J. Lee, J. H. Shim, and S. G. Lee, "Product Review Data and Sentiment Analytical Processing Modeling," The Journal of Society for e-Business Studies, vol. 16, no. 4, pp. 125-137, 2011. https://doi.org/10.7838/jsebs.2011.16.4.125
  7. H. J. Yune, H. J. Kim, and J. Y. Chang, "An Eficient Search Method of Product Reviews using Opinion Mining Technique," The Journal of KIISE, vol. 16, no. 2, pp. 222-226, 2010.
  8. C. CORTES, V. VAPNIK, "Support-vector networks," Machine learning, vol. 20, no. 3, pp. 273-297, 1995.
  9. K. M. Kim, J. D. Lee, and J. H. Lee, "Sentiment Classification using Extracted Rationale Words by Genetic Algorithm," In Proceeding of the 14th International Symposium on Advanced Intelligent Systems, pp. 36-43, 2013.
  10. H. G. Yeom, S. M. Park, J. J. Park, and K. B. Sim, "Superiority Demonstration of Variance-Considered Machines by Comparing Error Rate with Support Vector Machines," International Journal of Control, Automation, and Systems, vol. 9, no. 3, pp. 595-600, 2011. https://doi.org/10.1007/s12555-011-0321-1
  11. H. J. Lee, H. J. Shin, S. Z. Cho, and D. MacLachlan, "Semi-supervised response modeling," Journal of Interactive Marketing, vol. 24, no. 1, pp. 42-54, 2010. https://doi.org/10.1016/j.intmar.2009.10.004
  12. K. Soranaka, M. Matsushita, "Relationship Between Emotional Words and Emoticons in Tweets," In Proceeding of Technologies and Application of Artificial Intelligence, pp.262-265, 2012.
  13. C. Li, K. Liu, and H. Wang, "The incremental learning algorithm with support vector machine based on hyperplane-distance," Applied Intelligence, pp.19-27, 2011.
  14. Yun, "Evolution of big data - The future of IT services to resemble a human," Available: http://cfono1.tistory.com/704, 2013, [Accessed: August 1, 2014].

Cited by

  1. A Study of 'Emotion Trigger' by Text Mining Techniques vol.21, pp.2, 2015, https://doi.org/10.13088/jiis.2015.21.2.69
  2. A corpus-based approach to classifying emotions using Korean linguistic features vol.20, pp.1, 2017, https://doi.org/10.1007/s10586-017-0777-8