사람과 사람간의 관계를 측정하는 것은 매우 어려운일입니다. 'A라는 사람은 나와 친하다.'라는 말을 할때, '친하다'는 얼마나 친한걸까요? 또, 어떤이유로 친하다고 할 수 있는 걸까요? 또, 나는 A보다는 B랑 더 친하다고 할때,더 친한 것은 무엇을 의미하는 걸까요?

관계를 이루는 요소들은 앞서 말씀 드렸듯이 매우 많습니다. 그래서, 친하다는 추상적인 개념에 대해서 실제화 하기위해선, 여러가지 측면에서 수집된 다차원 데이터를 몇가지 기준에 의거해서 순서를 매겨야 합니다.

그 사람과 나의 거리...

그거리를 측정하는 것이 매우 중요한 것이겠지요?

파란맵에서 거리 측정하기

거리(distance)는 어떤 사실에 대한 상사성(similarity) 혹은 비상사성(dissimilarity)을 측정하는 측도입니다.

만일 얻어진 데이터가 순서형(ordinal) 일경우에는 다음과 같은 거리를정의할수 있습니다.

1. Spearman Distance

2. Footrule Distance

3. Kendall Distance

4. Cayley Distance

5. Hamming Distance

6. Ulam Distance

일반적인 정량적 변수에 대한 상사/비상사도를 측정하는 거리는

1. Euclidean Distance : 유클리디안 공간에서 측정되는직선거리로 우리가 일반적으로 말하는거리입니다.

2. City Block Distance : Manhattan Distance 라고도 불리웁니다.

3. Minkowski Distance

4. Canberra Distance

5. Mahalanobis Distance

세상에는 정말 많은 종류의 거리가 있습니다. 이러한 거리들은 우리 주변에서 많이 쓰이는 것을 볼 수 있는데요. 일반적으로 기업에서 하는 인사평가에서 부서간 편차의 보정, 순위 설정을 위한 표준 점수의 산정등을 위해서도 쓰이고 있답니다.

어쨌든 거리의 종류가 이렇게 많은 걸보니, 사람들은 나래비를 세우는 데 고민을 많이 하긴 하나봅니다.. ^^

거리에 대해서 말씀 드리는 이유는 나중에 설명드리게될 social data 의 몇가지 분석 기법들에 대해서 설명드리기 위함입니다.

아, 아내랑 월남쌈을 만들어야하기에 자세한 설명은 뒤로 미루어야 겠네요...^^

Social Web 을 위한 Data Analysis 에 관심있으신 분들은 Toby Segaran 의 Programming Collective Intelligence 를 보심 되겠습니다. 번역본도 있습니다.

다만, 너무 많은 분석기법들을 다루다보니, 자세한 이론이나 설명이 조금 부족하다는 느낌은 어쩔 수 없었습니다만, 사실 특별히 이쪽에 관심이 있어도 적당한 text 가 없는 상황이라 입문서로는 훌륭하다는 개인적인 생각을 드립니다.

2009. 1. 17. 18:11