A Korean Sentence and Document Sentiment Classification System Using Sentiment Features

감정 자질을 이용한 한국어 문장 및 문서 감정 분류 시스템

  • Published : 2008.05.15

Abstract

Sentiment classification is a recent subdiscipline of text classification, which is concerned not with the topic but with opinion. In this paper, we present a Korean sentence and document classification system using effective sentiment features. Korean sentiment classification starts from constructing effective sentiment feature sets for positive and negative. The synonym information of a English word thesaurus is used to extract effective sentiment features and then the extracted English sentiment features are translated in Korean features by English-Korean dictionary. A sentence or a document is represented by using the extracted sentiment features and is classified and evaluated by SVM(Support Vector Machine).

최근 감정 분류에 대한 관심이 높아져 연구가 활발히 진행되고 있다. 문서 전체에 관한 감정의 분류도 중요하지만, 문서를 이루고 있는 문장에 관한 분류도 점차 그 필요성이 높아지고 있다. 본 논문에서는 한국어 감정 분류 시스템 구축을 위해서 추출된 한국어 감정 자질을 이용한 한국어 문장 및 문서 감정 분류에 관해 연구한다. 한국어 감정 분류의 시작은 감정을 내포한 대표적인 어휘로부터 시작하며, 이와 같은 감정 자질들은 문장 및 문서의 감정을 분류하는데 결정적인 관여를 한다. 한국어 감정 자질의 추출을 위하여 영어 단어 시소러스 정보를 이용하여 자질들을 확장하고, 영한사전을 통해 확장된 자질들을 번역함으로써 감정 자질들을 추출하였다. 추출된 감정 자질들을 사용하여, 단어 벡터로 표현된 입력문서를 이진 분류기인 지지벡터 기계(SVM: Support Vector Machine)를 이용하여 문장과 문서에 내포된 감정을 판단하고 평가하였다.

Keywords

References

  1. M. Rimon, "Sentiment Classification: Linguistic and Non-Linguistic Issues," Hebrew University
  2. B. Pang, L. Lee and S. Vaithyanathan, "Thumbs up? Sentiment Classification Using Machine Learning Techniques," EMNLP, pp. 79-86, 2002
  3. K. Dave, S. Lawrence, D. M. Pennock, "Mining the Peanut Gallery: Opinion Extraction and Semantic Classification of Product Reviews," In Proceedings of WWW 2003, Budapest, Hungry, 2003
  4. L.W. Ku, L.Y. Lee, T.H. Wu, and H.H. Chen, "Major Topic Detection and Its Application to Opinion Summarization," In Proceedings of the EMNLP conference, Geneva, 2004
  5. S.M. Kim and E. Hovy, "Determining the Sentiment of Opinions," In Proceedings of the COLING conference, Geneva, 2004
  6. M. Hu and B. Liu, "Mining and Summarizing Customer Reviews," In Proceedings of KDD'04, USA, 2004
  7. B. Pang and L. Lee, "A Sentimental Education: Sentiment Analysis Using Subjectivity Summarization Based on Minimum Cuts," In Proceedings of the ACL, pp. 271-278, 2004
  8. Y. Mao and G. Lebanon, "Isotonic Conditional Random Fields and Local Sentiment Flow," In Proceedings of the NIPS, 2007
  9. P. Turney, "Thumbs up or Thumbs down? Sentiment Orientation Applied to Unsupervised Classification of Reviews," In Proceedings of the ACL, pp. 417-424, 2002
  10. Y. Choi, C. Cardie, E. Riloff, and S. Patwardhan, "Identifying Sources of Opinions with Conditional Random Fields and Extraction Patterns," In Proceedings of the HLT/EMNLP, pp. 355-362, 2005
  11. M. Thomas, B. Pang, and L. Lee, "Get out the Vote: Determining Support or Opposition from Congressional Floor-debate Transcripts," In Proceedings of the EMNLP, pp. 327-335, 2006
  12. A. Esuli and F. Sebastiani, "Determining the Semantic Orientation of Terms through Gloss Classification," ACM, pp. 617-624, 2005
  13. E. Riloff and J. Wiebe, "Learning Extraction Patterns for Subjective Expressions," EMNLP, pp. 105-112, 2003
  14. 김묘실, 강승식, "SVM을 이용한 악성 댓글 판별 시스템의 설계 및 구현", 한글 및 한국어 정보처리, pp. 285-289, 2006
  15. http://eedic.naver.com/list_thesaurus.naver 네이버 영어단어 시소러스
  16. E. Frank, M. Hall, and L. Trigg, Weka 3: Data Mining Software in Java, The University of Waikato, 2006