A Korean Product Review Analysis System Using a Semi-Automatically Constructed Semantic Dictionary

반자동으로 구축된 의미 사전을 이용한 한국어 상품평 분석 시스템

  • 명재석 (서울대학교 컴퓨터공학부) ;
  • 이동주 (서울대학교 컴퓨터공학부) ;
  • 이상구 (서울대학교 컴퓨터공학부)
  • Published : 2008.06.15

Abstract

User reviews are valuable information that can be used for various purposes. In particular, the product reviews on online shopping sites are important information which can directly affect the purchasing decision of the customers. In this paper, we present our design and implementation of a system for summarizing the customer's opinion and the features of each product by analyzing reviews on a commercial shopping site. During the analysis process, several natural language processing(NLP) techniques and the semantic dictionary were used. The semantic dictionary contains vocabularies that are used to express product features and customer's opinions. And it was constructed in semi-automatic way with the help of the tool we implemented. Furthermore, we discuss how to handle the vocabularies that have different meanings according to the context. We analyzed 1796 reviews about 20 products of 2 categories collected from an actual shopping site and implemented a novel ranking system. We obtained 88.94% for precision and 47.92% for recall on extracting opinion expression, which means our system can be applicable for real use.

사용자가 작성한 리뷰는 다양한 활용성을 갖는 가치 있는 데이타이다. 특히 온라인 쇼핑몰에서의 상품평은 사용자의 구매 결정에 직접적인 영향을 미치는 중요한 정보이다. 본 논문에서는 실제 쇼핑몰 사이트에 있는 상품평을 분석하여 각 상품의 특징과 이에 대한 사용자의 의견을 요약하고 상품의 순위를 산정하는 상품평 분석 시스템을 설계하고 구현하였다. 상품평을 분석하는 과정에서는 자연언어처리 기법과 의미 사전을 사용한다. 의미 사전에는 상품의 특징을 표현하는 어휘와 각 어휘들의 극성(Polarity) 정보들을 반자동화된 도구들을 활용하여 정의할 수 있도록 구현하였다. 이에 더하여 문맥에 따라 다른 의미를 갖는 어휘를 의미 사전에서 정의하고 활용하는 방법에 대해서도 논의하였다. 실험은 2개 상품 분류의 20개 상품, 1796개의 실제 상품평을 수집하여 상품의 순위를 측정하고 주요 요소를 분석하는 방식으로 진행하였다. 그 중 2개 상품에 대한 63개의 상품평에 대하여 분석의 정확률과 재현율을 측정하였으며, 평균 88.94%의 정확률, 47.92%의 재현율을 나타내었다.

Keywords

References

  1. Turney, P. D., 'Thumbs up or thumbs down? Semantic orientation applied to unsupervised classification of reviews,' Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL'02), Philadelphia, Pennsylvania, pp. 417-424. (NRC #44946), 2002
  2. Bo Pang, Lillian Lee, Shivakumar Vaithyanathan, 'Thumbs up? Sentiment classification using machine learning techniques,' Proceedings of the ACL-02 conference on Empirical methods in natural language processing - Volumn 10, 2002
  3. Theresa Wilson, Janyce Wiebe, Paul Hoffmann, 'Recognizing Contextual Polarity in Phrase-Level Sentiment Analysis,' HLT/EMNLP, pp. 347-354, 2005
  4. Kushal Dave, Steve Lawrence, David M. Pennock, 'Mining the peanut gallery : opinion extraction and semantic classification of product reviews,' Proceedings of the 12th international conference on World Wide Web, pp. 519-528, 2003
  5. Bing Liu, Minqing Hu and Junsheng Cheng, 'Opinion Observer: Analyzing and Comparing Opinions on the Web,' Proceedings of the 14th international World Wide Web conference, pp. 342-451, 2005
  6. Christopher Scaffidi, Kevin Bierhoff, Eric Chang, Mikhal Felker, Herman Ng, Chun Jin, 'Red Opal: product-feature scoring from reviews,' Proceedings of the 8th ACM Conference on Electronic Commerce, pp. 182-191, 2007
  7. Hiroshi Kanayama, Tetsuya Nasukawa, Hideo Watanabe, 'Deeper sentiment analysis using machine translation technology,' Proceedings of the 20th International Conference on Computational Linguistics, 2004
  8. Jeonghee Yi, Wayne Niblack, 'Sentiment Mining in WebFountain,' Proceedings of the 21st International Conference on Data Engineering, pp. 1073-1083, 2005
  9. Ana-Maria Popescu, Oren Etzioni, 'Extracting Product Features and Opinions from Reviews,' HLT/EMNLP, pp. 339-346, 2005
  10. Martin J. R., White P. R., The Language of Evaluation: Appraisal in English, Palgrave Macmillan, 2005
  11. Hatzivassiloglou V., Mackeown K., 'Predicting the Semantic Orientation of Adjectives,' Proceedings of the 8th conference on European chapter of the Association for Computational Linguistics, pp. 174-181, 1997
  12. Esuli A., Sebastiani F., 'SentiWordNet: A Publicly Available Lexical Resource for Opinion Mining,' In Proceedings of LREC-06, 5th Conference of Language Resources and Evaluation, pp. 417-422, 2006
  13. 심광섭, 양재형, '인접 조건 검사에 의한 초고속 한글 형태소 분석기', 정보과학회논문지: 소프트웨어 및 응용 제31권 제1호, pp. 89-99, 2004
  14. 양승현, 김영섬, '부분 어절의 기분석에 기반한 고속 한국어 형태소 분석 방법', 정보과학회논문지: 소프트웨어 및 응용 제27권 제3호, pp. 290-301, 2000
  15. 강승식, '한글 문장의 자동 띄어쓰기를 위한 어절 블록 양방향 알고리즘', 정보과학회논문지: 소프트웨어 및 응용 제27권 제4호, pp. 441-447, 2000
  16. 나동렬, '한국어 파싱에 대한 고찰', 정보과학회지 제12권 제8호, pp. 33-46, 1994
  17. 홍영국, 이종혁, 이근배, '의존문법에 기반을 둔 한국어 구문 분석기', 한국정보과학회 1993년도 봄 학술발표논문집 제20권 제1호, pp. 781-784, 1993
  18. 우연문, 송영인, 박소영, 임해창, '지배가능 경로 문맥을 이용한 의존 구문 분석의 수식 거리 모델', 정보과학회논문지: 소프트웨어 및 응용 제34권 제2호, 2007
  19. http://www.bb.co.kr