DOI QR코드

DOI QR Code

Feature Expansion based on LDA Word Distribution for Performance Improvement of Informal Document Classification

비격식 문서 분류 성능 개선을 위한 LDA 단어 분포 기반의 자질 확장

  • 이호경 (동아대학교 컴퓨터공학과) ;
  • 양선 (동아대학교 컴퓨터공학과) ;
  • 고영중 (동아대학교 컴퓨터공학과)
  • Received : 2016.03.17
  • Accepted : 2016.07.04
  • Published : 2016.09.15

Abstract

Data such as Twitter, Facebook, and customer reviews belong to the informal document group, whereas, newspapers that have grammar correction step belong to the formal document group. Finding consistent rules or patterns in informal documents is difficult, as compared to formal documents. Hence, there is a need for additional approaches to improve informal document analysis. In this study, we classified Twitter data, a representative informal document, into ten categories. To improve performance, we revised and expanded features based on LDA(Latent Dirichlet allocation) word distribution. Using LDA top-ranked words, the other words were separated or bundled, and the feature set was thus expanded repeatedly. Finally, we conducted document classification with the expanded features. Experimental results indicated that the proposed method improved the micro-averaged F1-score of 7.11%p, as compared to the results before the feature expansion step.

트위터, 페이스북, 온라인 고객 리뷰 등은 신문기사처럼 정제된 글이 아닌 자유롭게 기술되는 비격식(informal) 텍스트 문서에 속한다. 이러한 비격식 문서에서 일관된 규칙이나 패턴을 찾는 일은 격식(formal) 문서 경우에 비해 용이하지 않기 때문에, 비격식 문서 분석을 위해서는 성능 개선을 위한 추가적인 접근 방법 필요다고 판단된다. 본 연구에서는 대표적 비격식 문서인 트위터 데이터를 열 가지 카테고리로 분류함에 있어 LDA(Latent Dirichlet allocation) 단어 분포를 사용하여 자질(feature)을 교정하고 확장한다. 토픽별로 상위에 랭크된 단어 자질들을 기반으로 다른 단어 자질들을 분해 및 병합하는 방식으로 유용한 자질 집합을 반복적으로 확장시킨다. 이렇게 생성된 자질로 문서 분류를 수행한 결과 자질 확장 이전에 비해 마이크로 평균 F1-score 7.11%p의 성능 개선 효과를 확인할 수 있었다.

Keywords

Acknowledgement

Supported by : 한국연구재단

References

  1. D. M. Blei, A. Y. Ng and M. I. Jordan, "Latent dirichlet allocation," Journal of machine Learning research, Vol. 3, pp. 993-1022, 2003.
  2. P C Rafeeque and S. Sendhilkumar, "A survey on Short text analysis in Web," Proc. of Advanced Computing (ICoAC), Third International Conference on. IEEE, pp. 365-371, 2011.
  3. G. Song, Y. Ye, X. Du, X. Huang and S. Bie, "Short Text Classification: A Survey," Journal of multimedia, Vol. 9, No. 5, pp. 635-643, 2014.
  4. H. Y. Jun, J. J. Xin and C. H. You, "Chinese Short-Text Classification Based on Topic Model with High-Frequency Feature Expansion," Journal of Multimedia, Vol. 8, No. 4, pp. 425-431, 2013.
  5. B. Wang Y. Huang, W. Yang and X. Li, "Short text classification based on strong feature thesaurus," Journal of Zhejiang University SCIENCE C, Vol. 13, No. 9, pp. 649-659, 2012. https://doi.org/10.1631/jzus.C1100373
  6. A. Sun, "Short text classification using very few words," Proc. of the 35th international ACM SIGIR conference on Research and development in information retrieval, pp. 1145-1146, 2012.
  7. B. Sriram, D. Fuhry, E. Demir, H. Ferhatosmanoglu and M. Demirbas, "Short Text Classification in Twitter to Improve Information Filtering," Proc. of the 33rd international ACM SIGIR conference on Research and development in information retrieval, pp. 841-842, 2010.
  8. LIBSVM, [Online]. Available: https://www.csie.ntu.edu.tw/-cjlin/libsvm
  9. Mallet toolkit, [Online]. Available: https://mallet.cs.umass.edu/download.php