제주대학교 Repository

Word2Vec을 이용한 하이브리드 머신러닝 모델 기반 상품 추천 시스템

Metadata Downloads
Alternative Title
Product recommendation system based on hybrid machine learning model using Word2Vec
Abstract
전세계적으로 비대면 활동이 유행하는 지금, 사람 간의 접촉을 피하고 소비 활동을 할 수 있는 온라인 쇼핑몰을 찾는 사용자들이 늘고 있다. 또한 넷플릭스, 아마존등 독자적인 추천 시스템으로 많은 사용자들을 이끌어내 추천 시스템에 대한 중요성이 커지고 있다. 우리는 Word2Vec을 이용하여 아이템들 간의 유사도를 벡터로 구하고 쇼핑 내역을 머신러닝 모델을 이용하여 패턴 인식을 하고 추천 정확도를 높인 추천 시스템을 제안한다. 학습에 사용한 모델은 Random Forest, XGBoost, Extra Trees를 결합한 하이브리드 모델을 이용하여 추천 정확도를 계산했다. 기존 데이터는 아이템의 고유번호를 데이터로 가지고 있기 때문에 아이템을 분류하는 모델을 쓸 수밖에 없었다. 그러나 Word2Vec을 이용하여 아이템들 간의 유사도를 숫자로 표현했기 때문에 회귀모델을 사용할 수 있게 됐다. 회귀모델을 사용하게 됨으로써 Word2Vec 다차원 특징에서 분류모델의 성능보다 10% 이상 높았으며 학습 속도 또한 60분정도 걸렸던 5차원 벡터 분류모델에서 1분대로 빠른 학습 속도를 보였다. Word2Vec을 이용하기 전에 분류모델의 추천 정확도, Word2Vec을 적용 후 분류모델과 회귀모델의 추천 정확도를 비교했다. 또한 Word2Vec의 각 차원별 추천 정확도 증가를 비교했다. Word2Vec를 사용하기 전의 하이브리드 모델의 추천 정확도는 84.23%였다. 그러나 Word2Vec를 적용한 후에 분류모델의 5차원 벡터 추천 정확도는 87.46%로 증가하는 것을 확인했다. 또한 Word2Vec를 적용한 후에 분류모델과 회귀모델의 정확도를 비교했을 때 Word2Vec 5차원 벡터에서 회귀모델의 추천 정확도는 99.12%로 분류모델보다 성능 및 학습 속도에서 앞섰다.
Now that non-face-to-face activities are widespread all over the world, more and more users are looking for online shopping malls that can avoid contact with people and carry out consumer activities. In addition, the importance of the recommendation system is growing as it attracts many users with its own recommendation systems such as Netflix and Amazon.
We propose a recommender system that uses Word2Vec to acquire similarities between items as a vector, recognizes shopping history using a machine learning model, and improves the accuracy of recommendations. The model used for training used a hybrid model that combined Random Forest, XGBoost, and Extra Tree to calculate the recommended accuracy. Existing data has the unique number of the item as data, it was only possible to use the item classification model. However, the similarity between items is expressed numerically using Word2Vec, so you can use a regression model. The availability of regression models is more than 10% better than the performance of classification models in Word2Vec's multi dimensional function. The learning time was about 60 minutes in the 5-dimensional vector of classification model, but the regression model showed a fast learning time in the about 1 minute.
The recommendation accuracy of the classification model before using Word2Vec and the recommendation accuracy of the classification model and the regression model after applying Word2Vec were compared. We also compared the increase in recommendation accuracy for each dimension of Word2Vec. The recommendation accuracy of the hybrid model before using Word2Vec was 84.23%. However, after applying Word2Vec, it showed that the 5-dimensional vector recommendation accuracy of the classification model increased to 87.46%. Also, when comparing the accuracy of the classification model and the regression model after applying Word2Vec, the recommendation accuracy of the regression model in the Word2Vec 5-dimensional vector was 99.12%, which was superior to the classification model in performance and learning time.
Author(s)
박세준
Issued Date
2022
Awarded Date
2022. 2
Type
Dissertation
URI
https://dcoll.jejunu.ac.kr/common/orgView/000000010505
Alternative Author(s)
Park, Se Joon
Affiliation
제주대학교 대학원
Department
대학원 컴퓨터공학과
Advisor
변영철
Table Of Contents
Ⅰ. 서론 1
1.1 연구 배경 및 목적 1
1.1.1 연구 배경 1
1.1.2 연구 목적 3
1.2 연구 방법 및 논문 구성 4
1.2.1 연구 방법 4
1.2.2 논문 구성 5
Ⅱ. 이론적 배경 6
2.1 추천 시스템과 협업 필터링 6
2.1.1 추천 시스템의 개념과 종류 6
2.1.2 콘텐츠 기반 추천 시스템 6
2.1.3 협업 필터링 7
2.1.4 하이브리드 추천 시스템 8
2.2 Word2Vec 9
2.3 머신러닝 알고리즘 11
2.3.1 분류와 회귀 11
2.3.2 데이터의 수와 머신러닝 11
2.3.3 머신러닝 학습 방법 12
2.4 머신러닝 모델 12
2.4.1 Decision Tree 12
2.4.2 Random Forest 13
2.4.3 LGBM 14
2.4.4 XGBoost 15
2.4.5 Extra Trees 16
2.4.6 하이브리드 머신러닝 모델 16
2.5 관련 연구 17
2.5.1 협업 필터링을 이용한 추천 시스템 17
2.5.2 머신러닝의 분류모델을 이용한 추천 시스템 17
2.5.3 상품 간의 유사도를 이용한 추천 시스템 18
Ⅲ. 제안하는 방법 19
3.1 실험 데이터 19
3.2 시스템 구성도 22
3.3 Word2Vec을 이용한 상품 간의 유사도 특징 추출 24
3.4 머신러닝을 이용한 상품 추천 시스템 25
Ⅳ. 실험 환경 및 평가지표 27
4.1 실험 환경 27
4.2 학습 시간 27
4.3 평가지표 28
4.3.1 정확도 28
4.3.2 정밀도 29
4.3.3 재현율 29
4.3.1 적중률 30
V. 실험 결과 31
5.1 실험 결과 31
5.1.1 Word2Vec 적용 전 분류모델별 결과 31
5.1.2 Word2Vec 적용 후 분류모델의 결과 32
5.1.3 Word2Vec 적용 후 회귀모델의 결과 33
5.2 특징 중요도 36
VI. 결론 38
참고문헌 39
Degree
Master
Publisher
제주대학교 대학원
Appears in Collections:
General Graduate School > Computer Engineering
공개 및 라이선스
  • 공개 구분공개
파일 목록

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.