DOI QR코드

DOI QR Code

Topic Modeling of News Article about International Construction Market Using Latent Dirichlet Allocation

Latent Dirichlet Allocation 기법을 활용한 해외건설시장 뉴스기사의 토픽 모델링(Topic Modeling)

  • 문성현 (서울대학교 건설환경공학부) ;
  • 정세환 (서울대학교 건설환경공학부) ;
  • 지석호 (서울대학교 건설환경공학부, 서울대학교 건설환경종합연구소)
  • Received : 2018.04.07
  • Accepted : 2018.05.14
  • Published : 2018.08.01

Abstract

Sufficient understanding of oversea construction market status is crucial to get profitability in the international construction project. Plenty of researchers have been considering the news article as a fine data source for figuring out the market condition, since the data includes market information such as political, economic, and social issue. Since the text data exists in unstructured format with huge size, various text-mining techniques were studied to reduce the unnecessary manpower, time, and cost to summarize the data. However, there are some limitations to extract the needed information from the news article because of the existence of various topics in the data. This research is aimed to overcome the problems and contribute to summarization of market status by performing topic modeling with Latent Dirichlet Allocation. With assuming that 10 topics existed in the corpus, the topics included projects for user convenience (topic-2), private supports to solve poverty problems in Africa (topic-4), and so on. By grouping the topics in the news articles, the results could improve extracting useful information and summarizing the market status.

해외건설 프로젝트를 기획하고 수행하는 과정에서 현지 시장의 상황을 신속하고 정확하게 파악하는 것은 수익성 창출에 매우 큰 영향을 미친다. 뉴스기사 데이터는 정치, 경제, 사회 등 다양한 관한 정보를 담고 있기 때문에 시장의 상황을 파악하는 데 사용할 수 있는 좋은 데이터이다. 텍스트의 형태로 존재하는 대량의 뉴스기사 데이터로부터 정보를 추출하고 내용을 요약하는 과정에서 인력, 비용, 시간의 소모를 줄이기 위해 텍스트마이닝 기술이 필요하다. 본 연구에서는 뉴스기사에 다양한 주제가 공존한다는 특성으로 인해 발생하는 정보 추출의 한계를 극복하기 위해 잠재 디리클레 할당(Latent Dirichlet Allocation) 방법론을 사용하여 토픽 모델링을 수행했다. 문서 집단에 존재하는 주제의 개수가 10개라고 가정했을 때, 이용자들의 편의 증진을 위한 프로젝트(2번 주제)와 아프리카 지역의 빈곤 문제를 해결하기 위한 민간 차원의 지원(4번 주제) 등의 주제 집단이 존재하는 것을 확인했다. 이와 같이 문서 집단의 주제를 구분함으로써 더욱 의미있는 정보를 추출하고, 요약 결과의 활용성을 높일 수 있다.

Keywords

References

  1. Bird, S., Loper, E. and Klein, E. (2009). "Natural language processing with python." O'Reilly Media Inc.
  2. Blei, D. M., Jordan, M. I. and Ng, A. Y. (2003). "Latent dirichlet allocation." The Journal of Machine Learning Research, Vol. 3, pp. 993-1022.
  3. Ferreira, R., Freitas, F., Cabral, L. de S., Lins, R. D., Lima, R., Franca, G., Simske, S. J. and Favaro, L. (2014). "A context based text summarization system." 2014 11th IAPR International Workshop on Document Analysis Systems, IEEE, pp. 66-70.
  4. Gambhir, M. and Gupta, V. (2017). "Recent automatic text summarization techniques: A survey." Artificial Intelligence Review, Vol. 47, No. 1, pp. 1-66. DOI: 10.1007/s10462-016-9475-9.
  5. Goldszmidt, R. G. B., Brito, L. A. L. and de Vasconcelos, F. C. (2011). "Country effect on firm performance: A multilevel approach." Journal of Business Research, Vol. 64, No. 3, pp. 273-279. DOI: 10.1016/j.jbusres.2009.11.012.
  6. Hong, L. and Davison, B. D. (2010). "Empirical study of topic modeling in Twitter." Proceedings of the First Workshop on Social Media Analytics, ACM Press, New York, New York, USA, pp. 80-88.
  7. International Contractors Association of Korea (ICAK). (2018). Available online: (31/03/2018).
  8. Javernick-Will, A. N. and Scott, W. R. (2010). "Who needs to know what? institutional knowledge and international projects." Journal of Construction Engineering and Management, Vol. 136, No. 5, pp. 546-557. DOI: 10.1061/͑ASCE͒CO.1943-7862.0000035.
  9. Kim, D. Y., Han, S. H., Kim, H. and Park, H. (2009). "Structuring the prediction model of project performance for international construction projects: A comparative analysis." Expert Systems with Applications, Vol. 36, pp. 1961-1971. DOI: 10.1016/j.eswa.2007.12.048.
  10. Lee, K. W., Han, S. H., Park, H. and Jeong, H. D. (2015). "Empirical analysis of host-country effects in the international construction market: An industry-level approach." Journal of construction engineering and management, Vol. 142, No. 3, DOI: 10.1061/(ASCE)CO.1943-7862.
  11. Manning, C. D., Raghaven, P. and Schutze, H. (2008). Introduction to Information Retrieval, Cambridge University Press.
  12. Newman, D., Chemudugunta, C., Smyth, P. and Steyvers, M. (2006). "Analyzing entities and topics in news articles using statistical topic models." International Conference on Intelligence and Security Informatics, Springer, Berlin, Heidelberg, pp. 93-104.
  13. Pal, A. R. and Saha, D. (2014). "An approach to automatic text summarization using wordnet." Advance Computing Conference (IACC), 2014 IEEE International, pp. 1169-1173. DOI: 10.1109/IAdCC.2014.6779492.
  14. Taroun, A. (2014). "Towards a better modelling and assessment of construction risk: Insights from a literature review." International Journal of Project Management, Vol. 32, pp. 101-115. DOI: 10.1016/j.ijproman.2013.03.004.
  15. Yang, T. I., Torget, A. J. and Mihalcea, R. (2011). "Topic modeling on historical newspapers." Proceedings of the 5th ACL-HLT Workshop on Language Technology for Cultural Heritage, Social Sciences, and Humanities, Association for Computational Linguistics, pp. 96-104.