DOI QR코드

DOI QR Code

Tag2vec 기반의 지능형 불법 도박 사이트 탐지 모형 개발

Development of an Intelligent Illegal Gambling Site Detection Model Based on Tag2Vec

  • 송찬우 (국민대학교 비즈니스IT전문대학원) ;
  • 안현철 (국민대학교 비즈니스IT전문대학원)
  • Song, ChanWoo (Graduate School of Business IT, Kookmin University) ;
  • Ahn, Hyunchul (Graduate School of Business IT, Kookmin University)
  • 투고 : 2022.11.14
  • 심사 : 2022.11.28
  • 발행 : 2022.12.31

초록

오늘날 온라인 도박 사이트를 통한 불법 도박이 큰 사회문제가 되고 있다. 인터넷 기술의 발전과 스마트폰 보급으로 시공간의 제약이 사라지고 불법 온라인 도박을 누구나 쉽게 접근할 수 있게 되었기 때문이다. 이를 막기 위해 국내에서는 자체 모니터 요원의 탐지, '누리캅스'와 같은 제보 시스템 등을 활용해 불법 사이트를 탐지하고 있지만 이러한 수동적인 프로세스로는 인력부족 같은 한계로 모든 불법 사이트를 탐지하기 어려운 실정이다. 이에 여러 학자들이 인공지능 기반의 자동 불법 도박 사이트 탐지 기술을 연구해왔다. Xu et al. (2019)은 가짜 사이트들의 HTML Tag 구조에는 차별적인 특징이 있다는 점을 발견하였다. 이는 HTML Tag 구조가 불법 사이트를 탐지하는데 주요한 특징정보가 될 수 있음을 시사하지만, 불법 사이트 탐지 모델에 HTML Tag 구조를 반영하여 모형의 성능을 제고하고자 하는 연구는 지금까지 거의 시도되지 않았다. 이러한 배경에서 본 연구는 HTML Tag 구조를 특징화하여 모형의 성능을 향상시키고자 하였고, HTML Tag 구조를 적절하게 벡터화하기 위한 방법론으로 Doc2Vec을 변형한 Tag2Vec을 제안한다. Tag2Vec 기반 모델의 효과를 검증하기 위해 '더 치트'의 유해 사이트 목록과 Google 검색을 통한 정상 사이트 목록을 데이터 세트로 활용하여 실증분석을 수행하였다. 그 결과 비교 모델로 설정된 URL 기반 탐지 모델보다 본 연구에서 제안하는 Tag2Vec 기반 탐지 모델이 분류 정확도, Recall, F1_Score에서 모두 향상된 성능을 보임을 확인할 수 있었다. 이러한 본 연구의 제안모델은 향후 지능형 기술을 통해 우리 사회의 건강도를 제고하는데 효과적으로 활용될 수 있을 것으로 기대된다.

Illegal gambling through online gambling sites has become a significant social problem. The development of Internet technology and the spread of smartphones have led to the proliferation of illegal gambling sites, so now illegal online gambling has become accessible to anyone. In order to mitigate its negative effect, the Korean government is trying to detect illegal gambling sites by using self-monitoring agents or reporting systems such as 'Nuricops.' However, it is difficult to detect all illegal sites due to limitations such as a lack of staffing. Accordingly, several scholars have proposed intelligent illegal gambling site detection techniques. Xu et al. (2019) found that fake or illegal websites generally have unique features in the HTML tag structure. It implies that the HTML tag structure can be important for detecting illegal sites. However, prior studies to improve the model's performance by utilizing the HTML tag structure in the illegal site detection model are rare. Against this background, our study aimed to improve the model's performance by utilizing the HTML tag structure and proposes Tag2Vec, a modified version of Doc2Vec, as a methodology to vectorize the HTML tag structure properly. To validate the proposed model, we perform the empirical analysis using a data set consisting of the list of harmful sites from 'The Cheat' and normal sites through Google search. As a result, it was confirmed that the Tag2Vec-based detection model proposed in this study showed better classification accuracy, recall, and F1_Score than the URL-based detection model-a comparative model. The proposed model of this study is expected to be effectively utilized to improve the health of our society through intelligent technology.

키워드

참고문헌

  1. 김정미, & 이주홍. (2017). Word2vec을 활용한 RNN 기반의 문서 분류에 관한 연구. 한국지능시스템학회 논문지, 27(6), 560-565.
  2. 김기태, 이보미, & 김종우. (2017). 이진 분류문제에서의 딥러닝 알고리즘의 활용 가능성 평가. 지능정보연구, 23(1), 95-108. https://doi.org/10.13088/JIIS.2017.23.1.095
  3. 박락인. (2015). 인터넷 도박 규제에 관한 법리 문제점. 범죄수사학연구, 1(1), 71-95.
  4. 박종대, & 강대성. (2010, May). Kernel-PCA 를 이용한 개선된 얼굴인식 기법. In Proceedings of KIIT Conference (pp. 470-472).
  5. 사행산업통합감독위원회. 제4차 불법도박 실태조사, 10월 17일, 2022, from https://www.ngcc.go.kr/data/pdsView.do
  6. 유소연, & 임규건. (2022). 토픽모델링을 활용한 COVID-19 학술 연구 기반 연구 주제 분류에 관한 연구. 지능정보연구, 28(1), 155-174. https://doi.org/10.13088/JIIS.2022.28.1.155
  7. 이경석, 이정호, & 조호묵. (2021). 키워드 조합기반 불법 도박 사이트 분류 기법. 한국정보과학회 학술발표논문집, 1194-1196.
  8. 이기룡, & 이희조. (2016). HTML 태그 순서를 이용한 불법 사이트 탐지 자동화 기술. 정보과학회논문지, 43(10), 1173-1178.
  9. Lee, Y., Won, H., Shim, J., & Ahn, H. (2020). A Hybrid Collaborative Filter ing-based Product Recommender System using Search Keywords. Journal of Intelligence and Information Systems, 26(1), 151-166. https://doi.org/10.13088/jiis.2020.26.1.151
  10. 정규철, 이진관, 이태헌, & 박기홍. (2004). 문자기반 유해사이트 판별 기법. 컴퓨터교육학회논문지, 7(5), 83-91.
  11. 장정연. (2011). 청소년 사행성 게임행동의 유형과 영향요인. 정신건강과 사회복지, 37(), 348-381.
  12. 최상필, 김병만, 이숙희, 김주연, & 김경호. (2000). 음란 사이트 탐지 시스템의 설계 및 구현. 한국정보과학회 학술발표논문집, 27(1A), 196-198.
  13. 한국도박문제예방치유원. 09월 26일, 2022, from https://www.kcgp.or.kr/gt/publicDataOpn/2/publicDataOpn.do
  14. 하민정, & 박소연. (2015). 청소년 도박중독 과정에 대한 연구: 청소년기에 도박중독을 경험한 성인들의 구술을 바탕으로. 정신건강과 사회복지, 43(3), 220-249.
  15. 한병우, & 윤지원. (2016). 단어 조합 검색을 이용한 불법 유해정보 탐지 기법. 정보보호학회논문지, 26(2), 397-404. https://doi.org/10.13089/JKIISC.2016.26.2.397
  16. Chen, Y., Zheng, R., Zhou, A., Liao, S., & Liu, L. (2020). Automatic detection of pornographic and gambling websites based on visual and textual content using a decision mechanism. Sensors, 20(14), 3989. https://doi.org/10.3390/s20143989
  17. Le, Q., & Mikolov, T. (2014, June). Distributed representations of sentences and documents. In International Conference on Machine Learning (pp. 1188-1196). PMLR.
  18. Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781.
  19. Min, M., Lee, J. J., Park, H., & Lee, K. (2021, August). Honeypot system for automatic reporting of illegal online gambling sites utilizing SMS spam. In 2021 World Automation Congress (WAC) (pp. 180-185). IEEE.
  20. Xu, J. C., Shin, K., & Liu, Y. L. (2016, November). Detecting Fake Sites based on HTML Structure Analysis. In Proceedings of the 6th International Conference on Communication and Network Security (pp. 86-90).
  21. Wu, W., Massart, D. L., & De Jong, S. (1997). The kernel PCA algorithms for wide data. Part I: theory and algorithms. Chemometrics and Intelligent Laboratory Systems, 36(2), 165-172. https://doi.org/10.1016/S0169-7439(97)00010-5
  22. Yang, H., Du, K., Zhang, Y., Hao, S., Li, Z., Liu, M., ... & Wu, J. (2019, December). Casino royale: a deep exploration of illegal online gambling. In Proceedings of the 35th Annual Computer Security Applications Conference (pp. 500-513).