집단을 분류해 내는데 있어서 데이터 분석의 두가지 주제는특정인이(개체가), 이미나뉘어진 집단에서 어디에 포함될 것인가를분석하는판별(discriminant)의 문제와관측된 데이터를 기초해 내재된 규칙이나 거리를찾아내 집단을 몇개로 나누는 군집(clustering)의 문제로 나뉩니다.

판별분석과 군집분석류의 분석방법에 대해,인공지능과 같은 분야에서는 전자와 같은류의 경우선험 모델을 통해 이루어지는 학습이라는 의미에서 supervised learning 이라고 하고, 후자류는 unsupervised learning이라고 한답니다. ^^

판별분석과 군집분석을 위한 알고리즘이나 방법론은 너무나 다양합니다. 그만큼 결과가 일관되지도 않고, 해석에 있어서도 어려운 부분이 많습니다.

판별 분석의 경우 양적데이터가 많은 경우 Regression Tree 와 같은 모델링을 많이 하는데요. 나중에 시간이 되면 설명 아니 설명보다는 SNA 적 적용사례에 대해서 설명을 드리겠습니다.

군집분석의 경우, 계보적/계층적 클러스터링과 비계보적/계층적 클러스터링으로 나뉠 수 있습니다.

SNA 에서는 계보적 클러스터링의 적용사례가 많은 편입니다. 그렇다고 비계보적 클러스터링이 문제가 있다는 것은 아닙니다. 다만,위부터 아래로 트리형태로 나뉘어지는 계보적 클러스터링 결과물을 가지고,위부터 아래로 실제로 해석이 가능한수준에서 cut-off 가 가능하다는계보적 클러스터링의이점이 작용한 것 같습니다.



< 계보적 클러스터링의 dendrogram 사례>

2009. 1. 20. 11:46