제주대학교 Repository

혼합형 데이터에서 유사도 측정을 통한 군집화 방법

Metadata Downloads
Alternative Title
Clustering method based on similarity calculation of Mixed Data
Abstract
정보기술의 발전에 따른 데이터양의 엄청난 증가는 인터넷 사용자가 자신에게 적합한 정보를 찾는 것을 어렵게 만들고 있다. 이런 환경의 변화에 따라 사용자에게 필요한 정보를 걸러서 제공하는 정보 필터링기법이 중요해지고 있다. 인터넷에 존재하는 데이터는 다양한 형태로 존재한다. 하지만 기존의 협업필터링 기법에서 자주 사용되어온 유사도 계산 알고리즘들은 수치형데이터에 적합한 경우가 많고, 범주형 데이터의 경우 부울대수 형태의 극단적인 유사도를 보여준다. 본 논문에서는 Gower 유사도 계수를 사용하여 혼합형 데이터로 이루어진 SNS 사용자 정보의 유사도를 구하며 범주형 데이터의 유사도를 0과 1의 극단적 표현이 아니라 좀 더 완화된 형식으로 계산하는 방법을 제안한다. 제안한 방법은 완전 매칭 방법을 사용한 유사도 계산에 비해 세분화된 계산이 가능하다. 이는 범주형 데이터의 초기 데이터량이 희소한 경우 데이터의 활용도를 높여준다. 이를 활용한 군집화 방법은 SNS나 다양한 추천시스템에서 활용될 수 있다.
The enormous increase of data with the development of the information technology makes internet users hard to find suitable information tailored to their needs. In the face of changing environment, the information filtering method, which provide sorted-out information to users, is becoming important. The data on the internet exists as various type. However, similarity calculation algorithm frequently used in existing collaborative filtering method is tend to be suitable to the numeric data. In addition, in the case of the categorical data, it shows the extreme similarity like boolean algebra. In this paper, we get the similarity in SNS user's information which consist of the mixed data using the Gower's similarity coefficient. And we suggest a method that is softer than radical expression such as 0 or 1 in categorical data. The proposed method is more delicate than exact match method. It also make data meaningful in scarce of initial categorical data. The clustering method using this algorithm can be utilized in SNS or various recommendation system.
Author(s)
송형민
Issued Date
2015
Awarded Date
2016. 2
Type
Dissertation
URI
http://dcoll.jejunu.ac.kr/jsp/common/DcLoOrgPer.jsp?sItemId=000000007546
Alternative Author(s)
Song, Hyoung-Min
Department
대학원 컴퓨터공학과
Advisor
이상준
Table Of Contents
목 차 ⅰ
그림목차 ⅲ
표 목 차 ⅳ
국문초록 ⅴ
Abstract ⅵ
Ⅰ. 서 론 1
Ⅱ. 관 련 연 구 3
1. 협업적 필터링(Collaborative Filtering)과 유사도 측정 기법 3
1) 협업적 필터링 3
2) 피어슨 상관계수(Pearsons Correlation Coefficient) 4
3) 코사인 유사도(Cosine Similarity) 4
4) 유클리드 거리(Euclidean Distance) 5
2. Gower 유사도 계수(Gower's Similarity Coefficient) 6
3. k-means 알고리즘 8
1) 군집화 알고리즘 8
2) k-means 알고리즘 9
Ⅲ. 혼합형 데이터에서 유사 사용자 군집화 방법 10
1. 유사도 계산 10
2. 군집화 13
Ⅳ. 실험결과 14
1. 데이터 수집 및 전처리 14
2. 군집결과 18
V. 결 론 32
참 고 문 헌 33
Degree
Master
Publisher
제주대학교 대학원
Citation
송형민. (2015). 혼합형 데이터에서 유사도 측정을 통한 군집화 방법
Appears in Collections:
General Graduate School > Computer Engineering
공개 및 라이선스
  • 공개 구분공개
파일 목록

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.