DOI QR코드

DOI QR Code

Malware Analysis Mechanism using the Word Cloud based on API Statistics

API 통계 기반의 워드 클라우드를 이용한 악성코드 분석 기법

  • Yu, Sung-Tae (Dept. of Information Security, Hoseo University) ;
  • Oh, Soo-Hyun (Dept. of Information Security, Hoseo University)
  • 유성태 (호서대학교 정보보호학과) ;
  • 오수현 (호서대학교 정보보호학과)
  • Received : 2015.07.10
  • Accepted : 2015.10.08
  • Published : 2015.10.31

Abstract

Tens of thousands of malicious codes are generated on average in a day. New types of malicious codes are surging each year. Diverse methods are used to detect such codes including those based on signature, API flow, strings, etc. But most of them are limited in detecting new malicious codes due to bypass techniques. Therefore, a lot of researches have been performed for more efficient detection of malicious codes. Of them, visualization technique is one of the most actively researched areas these days. Since the method enables more intuitive recognition of malicious codes, it is useful in detecting and examining a large number of malicious codes efficiently. In this paper, we analyze the relationships between malicious codes and Native API functions. Also, by applying the word cloud with text mining technique, major Native APIs of malicious codes are visualized to assess their maliciousness. The proposed malicious code analysis method would be helpful in intuitively probing behaviors of malware.

악성코드는 하루 평균 수만 건 이상이 발생하고 있으며, 신종 악성코드의 수는 해마다 큰 폭으로 증가하고 있다. 악성코드를 탐지하는 방법은 시그니쳐 기반, API 흐름, 문자열 등을 이용한 다양한 기법이 존재하지만 대부분의 탐지 기법들은 악성코드를 우회하는 공격 기법으로 인해 신종 악성코드를 탐지하는데 한계가 있다. 따라서 신종 악성코드를 효율적으로 탐지하기 위한 연구가 많이 진행되고 있다. 그중 시각화 기법을 통한 연구가 최근 활발하게 이루어지고 있으며, 악성코드를 직관적으로 파악할 수 있으므로 대량의 악성코드를 효율적으로 탐지하고 분석할 수 있다는 장점이 있다. 본 논문에서는 악성코드와 정상파일에서 Native API 함수를 추출하고 해당 Native API가 악성코드에서 발생하는 확률에 따라서 F-measure 실험을 통해 가중치의 합을 결정하고, 최종적으로 가중치를 이용하여 워드 클라우드에서 텍스트의 크기로 표현되는 기법을 제안한다. 그리고 실험을 통해 악성코드와 정상파일에서 사용하는 Native API의 가중치에 따라서 악성코드를 판단할 수 있음을 보인다. 제안하는 방식은 워드 클라우드를 이용하여 Native API를 시각적으로 표현함으로써 파일의 악성 유무를 판단하고, 직관적으로 악성코드의 행위를 분석할 수 있다는 장점이 있다.

Keywords

References

  1. Tae-hyung Kim, "Security, IT industry trends", boannews, 2015, www.boannews.com
  2. Kyung-ho Son, "This year mobile security keyword, banking, payment, SMS phishing, IoT", ZDNetKorea, 2015, www.zdnet.co.kr
  3. Pauline KOH, "System call sequence based malware analysis", pp. 4, Korea University, 2013.
  4. E. Carrera, Gergely Erdelyi, "Digital genome mapping-advanced binary malware analysis", Virus Bulletin Conference, 2004.
  5. won-hyuck choi, "Inference virus variants Using the Virus Genome", Monthly CyberSecurity, 2005.
  6. Jae-Hyun Im, "Malware detection method using Visualization technique", pp. 6, Hanyang University, 2014
  7. In-Soo Song, Dong-Hui Lee, Kui-Nam Kim, "A Study on Malicious Codes Crouping and Analysis Using Visualiztion", pp. 51-60, journal of information and security, 2010.
  8. Tae-woo Kang, Jae-ik cho, Man-hyun Chung, Jong-sub Moon, "Malware Detection Via Hybrid Analysis for API Calls", Journal of The Korea Institute of Information Security & Cryptology, Vol. 17, No. 6, pp. 89-98, 2007
  9. Jae-woo Park, Sung-tae Moon, Gi-Wook Son, In-Kyoung Kim, Kyoung-Soo Han, Eul-Gyu Im, ll-Gon Kim, "An Automatic Malware Classification System using String Lsit and APIs", Journal of Security Engineering, Vol. 8, No. 5, pp. 611-626, 2011.
  10. Jae-ho Lee, Sangjin-Lee, "A Study on Unknown Malware Detection using Digital Forensic Techniques", Journal of The Korea Institute of Information Security & Cryptology, Vol. 24, No. 1, pp. 107-122, 2014. DOI: http://dx.doi.org/10.13089/JKIISC.2014.24.1.107