제주대학교 Repository

자동화 분석을 통한 악성코드 저자 식별 모델 연구

Metadata Downloads
Alternative Title
A Study on Malware Authorship Attribution Model through Automated Analysis
Abstract
IT기술의 발달로 인해 긍정적인 변화가 일어나는 반면 부정적인 변화도 같이 발생하고 있다. 모듈화와 표준화로 인한 악성코드의 대량생산이나, 취약점을 이용하여 지속적으로 공격이 이루어지는 APT공격 등이 자주 발생하고 있어, 기존의 보안시스템만으로 방어하고 대응하기에는 한계점이 있다. 최근 이러한 한계점을 해결하기 위해 인공지능 기술을 활용하는 연구가 많아지고 있고, 악성코드 저자 식별 연구도 다양해지고 있다.
악성코드 저자 식별 연구는 기존의 저자 식별 분야에서 확대된 연구 분야이며, 저자가 알려진 악성코드의 특징을 파악해 알려지지 않은 악성코드에 대입 후 악성코드의 저자를 유추하거나, 악성코드의 여부를 판별하는데 사용된다. 현재는 악성코드 저자 식별을 통해 APT공격과 같은 지속공격의 패턴을 파악하거나, 악성코드 포렌식 기반의 탐지 기법 중 하나로 활용되고 있다. 저자를 식별하는 분석 방법으로는 소스코드에서 특징을 추출하는 소스코드 기반 분석 방법과 바이너리에서 특징을 추출하는 바이너리 기반 분석 방법으로 이루어진다. 하지만 악성코드의 모듈화, 표준화로 인한 대량의 악성코드를 소스코드 기반 분석 방법과 바이너리 기반 분석 방법을 통해 특징을 추출하기에는 시간과 인력이 모두 부족하다.
그러므로 본 연구에서는 자동화 분석을 사용하여 빠르게 특징을 추출하고 분석하여 악성코드의 저자를 식별하는 모델을 설계하였다. 자동화 분석은 Tool을 이용한 분석 방법이며, 전문 인력이 없이도 악성코드 파일이나 고유 해시값 등을 통해서 분석할 수 있고, 분석 시간도 다른 악성코드 분석 방법 중에서 가장 빠른 분석 방법이다. 실험은 6개의 악성코드 저자 그룹에 대해 다양한 머신러닝 분류 알고리즘을 적용하여 진행하였고, 저자 식별을 위한 특징으로는 자동화 분석에서 추출해 낼 수 있는 런타임 모듈과 Kernel32.dll API로 선정하였다. 또한 실험 결과를 바탕으로 기존의 연구와 비교를 진행한 결과 기존 연구보다 대체로 높은 정확도를 보여주었고, 자동화 분석을 사용함으로써 기존의 소스코드 기반 분석 방법과 바이너리 기반 분석 방법보다 빠르게 특징을 추출하여 악성코드의 저자를 식별할 수 있었다. 연구에서 제안한 자동화 분석을 통한 악성코드 저자 식별 모델을 통하여 대량 생산되는 악성코드와 APT공격에 대해 적용한다면 기존의 악성코드 저자 식별 방법보다 좋은 성능을 낼 것으로 기대한다.
The advancement in IT technology can have both positive and negative effects. With the present security system, there is a limit to defend and respond to the mass production of malware due to modularization and standardization or APT attacks targeting vulnerabilities of the system. To solve these problems, recent researches have studied on malware authorship attribution using artificial intelligence technology.
Malware authorship attribution study is an expanded research field from the existing authorship attribution field. To infer the author of the malware code or determine whether it is malicious or not, the researcher identifies the characteristics of well-known malware and then assigns these to the unknown one. Currently, it is being used as one of the detection techniques based on malware forensics or identifying patterns of continuous attacks such as APT attacks. The analysis methods to identify the author are as follows. One is a source code-based analysis method that extracts features from the source code and the other is a binary-based analysis method that extracts features from the binary. However, to handle the modularization and the increasing amount of malicious code with these methods, both time and manpower are insufficient to figure out the characteristics of the malware.
Therefore, in this study, I have designed a model to malware authorship attribution by rapidly extracting and analyzing features using automated analysis. Automated analysis is an analysis method using a tool, and can be analyzed through a file of malware and the specific hash values without experts. Furthermore, it is the fastest to figure out among other malware analysis methods. The experiment was conducted by applying various machine learning classification algorithms to six malware author groups, and Runtime Modules and Kernel32.dll API that can be extracted from automated analysis were selected as features for author identification. In addition, as a result of comparison with existing studies based on the experimental results, it showed generally higher accuracy than existing ones. By using automated analysis, it extracts features of malware faster than existing source code-based and binary-based analysis methods. If the malware authorship attribution model through the automated analysis proposed in this study is applied to mass-produced malicious code and APT attacks, it is expected to perform better than the existing malware authorship attribution method.
Author(s)
이상우
Issued Date
2022
Awarded Date
2022. 2
Type
Dissertation
URI
https://dcoll.jejunu.ac.kr/common/orgView/000000010531
Alternative Author(s)
Lee, Sang Woo
Affiliation
제주대학교 대학원
Department
대학원 융합정보보안학협동과정
Advisor
조정원
Table Of Contents
I. 서론 1
II. 이론적 배경 4
1. 악성코드(Malware) 4
2. 악성코드 분석 기법 5
3. 악성코드 저자 식별 7
1) 소스코드 기반 저자 식별 8
2) 바이너리 기반 저자 식별 8
4. 머신러닝 분류 알고리즘 9
5. 악성코드 저자 식별 관련 연구 12
III. 자동화 분석 기반 악성코드 저자 식별 모델 16
1. 제안 모델 16
2. 특징(Feature) 선정 18
3. 데이터 수집 및 전처리 20
IV. 실험 및 결과분석 24
1. 실험 환경 24
2. 실험 방법 25
3. 실험 결과 28
4. 기존 연구와의 비교 44
V. 결론 및 향후 연구 47
참고 문헌 49
Abstract 52
Degree
Master
Publisher
제주대학교 대학원
Appears in Collections:
Interdisciplinary Programs > Convergence Information Security
공개 및 라이선스
  • 공개 구분공개
파일 목록

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.