본문 바로가기

이론/AI

[인공지능] 클러스터링 문제,해결책,한계

인트로

 

1) 클러스터링에 관하여 (이전글 클릭하기)

- 클러스터링 정의, 데이터 클러스터링 , K-means 클러스터링

2) K-means 클러스터링 문제점, 해결책, 한계 (현재글)


1) K-means Clustering의 문제점 

초기에 랜덤하게 center을 정하기 때문에, 

 

초기에 정한 center에 따라 클러스터링이 되는 단점을 가지고 있다. 

(매번 클러스터링 결과가 다를 수 있다.) 

단순히 K값이 많아지면, 클러스터링이 잘 되는 , 즉 순도가 높은 결과를 도출한다. 

K-means clustering 기법을 개선한 방법에는, Mean-shift알고리즘이 있다. 


2) K-means Clustering의 문제 해결책

 여러번 돌린다. (Multiple runs) 

initial center를 정하기 위해 Hierarchical clustering 기법을 먼저 사용후에, 

최적의 K를 결정하고, K-means clustering을 돌린다. 

분산되어 있는 데이터 집합에 한해 K-means clustering기법을 사용한다. 

(이 경우, 우리가 미리 데이터에 대해 알고 있어야한다.)

 

 데이터집합

 


3) 그럼에도 불구하고, K-means Clustering의 한계(Limitations of K-means) 

K-means clustering 알고리즘은 데이터가 잘 정리되어있고, 

적당히 분산되어있는 데이터 집합에 한해 잘 작동한다.

그러나, 각각의 cluster 크기의 편차가 심할 수 있다.  (즉, 각각의 클러스터 집합의 크기가 매우 다를수 있다.) 

데이터가 흩어진 경우가 다른 경우 결과가 좋지 않다.

 

(즉, 어떤 데이터들은 모여있고, 어떤 데이터들은 멀리 떨어져 있는 경우)

data outlier(잘못 평가된 데이터)가 있을 경우, 잘못된 클러스터링 분류 결과를 초래한다. 

특징 공간의 차원이 큰 경우 데이터가 흩어진 정도가 sparse하기 때문에 이 클러스터링 기법의 성능이 떨어진다. 

 

** 즉, K-means clustering은 K(클러스터링 개수)를 결정하는 것이 매우 중요하다.

 


클러스터링에 관하여, 이전글 보러가기

 

[인공지능] 클러스터링

인트로 1) 클러스터링에 관하여 - 데이터클러스터링 , K-means 클러스터링 2) K-means 클러스터링 문제점, 해결책, 한계 (다음글 클릭하기) 1) 클러스터링(군집화)이란? 특성이 비슷한 데이터끼리 하나의 그룹으로..

life-with-coding.tistory.com