집단을 분류해 내는데 있어서 데이터 분석의 두가지 주제는특정인이(개체가), 이미나뉘어진 집단에서 어디에 포함될 것인가를분석하는판별(discriminant)의 문제와관측된 데이터를 기초해 내재된 규칙이나 거리를찾아내 집단을 몇개로 나누는 군집(clustering)의 문제로 나뉩니다.

판별분석과 군집분석류의 분석방법에 대해,인공지능과 같은 분야에서는 전자와 같은류의 경우선험 모델을 통해 이루어지는 학습이라는 의미에서 supervised learning 이라고 하고, 후자류는 unsupervised learning이라고 한답니다. ^^

판별분석과 군집분석을 위한 알고리즘이나 방법론은 너무나 다양합니다. 그만큼 결과가 일관되지도 않고, 해석에 있어서도 어려운 부분이 많습니다.

판별 분석의 경우 양적데이터가 많은 경우 Regression Tree 와 같은 모델링을 많이 하는데요. 나중에 시간이 되면 설명 아니 설명보다는 SNA 적 적용사례에 대해서 설명을 드리겠습니다.

군집분석의 경우, 계보적/계층적 클러스터링과 비계보적/계층적 클러스터링으로 나뉠 수 있습니다.

SNA 에서는 계보적 클러스터링의 적용사례가 많은 편입니다. 그렇다고 비계보적 클러스터링이 문제가 있다는 것은 아닙니다. 다만,위부터 아래로 트리형태로 나뉘어지는 계보적 클러스터링 결과물을 가지고,위부터 아래로 실제로 해석이 가능한수준에서 cut-off 가 가능하다는계보적 클러스터링의이점이 작용한 것 같습니다.



< 계보적 클러스터링의 dendrogram 사례>

2009. 1. 20. 11:46

앞서 사람과 사람 사이의 거리에 대한 이야기를 했었는데요, 오늘은 잠시 다차원 척도법(이하 MDS, Multi-Dimensional Scaling)에 대해서 간단히 말씀 드리겠습니다.

SNA 관점에서 다차원척도법이란관심이 되는 Social Network 에 속한사람에 대한 다차원상의 거리를 나타내는 자료로부터 그들간의 상사성(similarity)혹은 비상사성(dissimilarity)을 저차원의 공간에 기하적으로 나타내려는분석기법입니다.

원래 MDS는정치학, 경제학, 심리학, 사회학,지리학, 교육학 등의 여러분야에서 많이 활용되는그래프적 시각화 분석 방법입니다.

MDS를 이용하면 오프라인이나 인터넷 상에서의 인맥관계나프로파일의유사성 데이터를 기반으로 친구를 추천하거나,성향을 파악하거나혹은 그룹핑을하는데 도움을 받을 수 있습니다.

그런데 다차원 척도법에서 이용되는 자료의 형태는 nXn 인상사/비상사성 행렬입니다.

일반적으로 이러한 자료는획득하기가 무척어렵습니다.

서울과 부산의 거리는 말그대로 measure 가 가능한 metric 이지만, 대부분의 경우 관계란 non metric한 정보들이기때문이지요.

보통, 사내에서메일을 주고받은 사람간의 상호 주고 받은횟수에 대한 행렬이나, SNS 에서 친구관계등을 nXn 의 행렬로 표현할 수는 있습니다.

그러나 이 역시 우리가관심있어하는 넓은 영역에 비해서는 아주 단순한 자료들 일 수 밖에 없습니다.

따라서, 통상 우리가 얻는 데이터들 즉, 관심을 이루는 n 명으로 구성된 social network데이터와 p개의 프로파일 혹은,획득된 정보가 있다고 하면, 우리는 먼저 이를 기준으로 상호간의 거리나 유사도를 측정합니다.

거리나 유사도를 측정하는 방식은,자료의 종류와 성격에 따라 앞서 말씀 드린각각의 거리에 맞는사용되는공식이 적용 되거나,잘 알고 계신피어슨 상관계수 혹은, jaccard's coefficient 와 같은 유사성 계수를통해 구하게 됩니다.이 과정을 nXn (혹은 nXn/2)-n 만큼 반복하면 되겠습니다.

이렇게 구해진 행렬은 MDS 알고리즘을 적용해 구성원들 개개인을 저차원의 공간에 투영할 수 있는 좌표를 구하게 될 수 있습니다.

< MDS - Toby Segaran 의 자료에서 빌려왔습니다..>



사람과 사람 사이를 분석하는 것은 멀고도 험한 길인가 봅니다..^^

2009. 1. 19. 00:34

사람과 사람간의 관계를 측정하는 것은 매우 어려운일입니다. 'A라는 사람은 나와 친하다.'라는 말을 할때, '친하다'는 얼마나 친한걸까요? 또, 어떤이유로 친하다고 할 수 있는 걸까요? 또, 나는 A보다는 B랑 더 친하다고 할때,더 친한 것은 무엇을 의미하는 걸까요?

관계를 이루는 요소들은 앞서 말씀 드렸듯이 매우 많습니다. 그래서, 친하다는 추상적인 개념에 대해서 실제화 하기위해선, 여러가지 측면에서 수집된 다차원 데이터를 몇가지 기준에 의거해서 순서를 매겨야 합니다.

그 사람과 나의 거리...

그거리를 측정하는 것이 매우 중요한 것이겠지요?

파란맵에서 거리 측정하기

거리(distance)는 어떤 사실에 대한 상사성(similarity) 혹은 비상사성(dissimilarity)을 측정하는 측도입니다.

만일 얻어진 데이터가 순서형(ordinal) 일경우에는 다음과 같은 거리를정의할수 있습니다.

1. Spearman Distance

2. Footrule Distance

3. Kendall Distance

4. Cayley Distance

5. Hamming Distance

6. Ulam Distance

일반적인 정량적 변수에 대한 상사/비상사도를 측정하는 거리는

1. Euclidean Distance : 유클리디안 공간에서 측정되는직선거리로 우리가 일반적으로 말하는거리입니다.

2. City Block Distance : Manhattan Distance 라고도 불리웁니다.

3. Minkowski Distance

4. Canberra Distance

5. Mahalanobis Distance

세상에는 정말 많은 종류의 거리가 있습니다. 이러한 거리들은 우리 주변에서 많이 쓰이는 것을 볼 수 있는데요. 일반적으로 기업에서 하는 인사평가에서 부서간 편차의 보정, 순위 설정을 위한 표준 점수의 산정등을 위해서도 쓰이고 있답니다.

어쨌든 거리의 종류가 이렇게 많은 걸보니, 사람들은 나래비를 세우는 데 고민을 많이 하긴 하나봅니다.. ^^

거리에 대해서 말씀 드리는 이유는 나중에 설명드리게될 social data 의 몇가지 분석 기법들에 대해서 설명드리기 위함입니다.

아, 아내랑 월남쌈을 만들어야하기에 자세한 설명은 뒤로 미루어야 겠네요...^^

Social Web 을 위한 Data Analysis 에 관심있으신 분들은 Toby Segaran 의 Programming Collective Intelligence 를 보심 되겠습니다. 번역본도 있습니다.

다만, 너무 많은 분석기법들을 다루다보니, 자세한 이론이나 설명이 조금 부족하다는 느낌은 어쩔 수 없었습니다만, 사실 특별히 이쪽에 관심이 있어도 적당한 text 가 없는 상황이라 입문서로는 훌륭하다는 개인적인 생각을 드립니다.

2009. 1. 17. 18:11

강한연대(strong tie)는 가족, 배우자, 학교처럼 비가역적으로 이미 결정되어 있거나, 고도로 조직화된 공식적 조직을 말합니다. strong tie 는 상호 유대와 신뢰를 바탕으로 한다는 특징이 있으며, 앞서말한 가족외에도 노동조합, 기업조직등이 이에 해당됩니다.
약한연대(weak tie)는 느슨하게 연계된 비공식 망으로 무정형이고, 불규칙하게 연결되어 있다는 특징이 있습니다.
동네 술집에서 만나는 사람들, 교회에서 만나는 이웃, 직장동료를 통해 만나게된 다른 업체 사람 정도가 약한 연대의
예가 되겠습니다.

영문으로 tie 나 link 라는 의미는 다같이 관계를 의미하지만 weak tie 는 일면식이 있다는 정도의 단어인 acquaintance로
구분합니다.




<interpersonal ties - 위키피디어에서 빌려왔습니다.>



Social Network 을 말할때 항상 참조되는 인물중 하나인 Granovetter 라는 분은 1973년과 1974년에 발표한 논문에서, weak tie가 strong tie 보다 직장을 구하거나 이직을 하는데 더 많은 영향을 주었다는 발표를 합니다.

이는 weak tie 가 정보통로로써의 기능이 보다 뛰어날 뿐만아니라, strong tie 와 strong tie를 연결해주는 bridge 역할도 하기 때문입니다.


듣고보면 그럴법한 이야기인것 같습니다.
실제로 이직과 관련해서정보를 듣는 채널은 공식적인 관계가 아니라, 소위 카더라 통신이나, 예전에 한번쯤 우연히 만난 사람으로부터 이루어지는 경우가 많기 때문입니다.

한편, 동양에서는 결정론적인 사회 속성상 strong tie 가 취업이나 성공에 더 많은 영향을 준다는 연구결과도 있다고 하네요.

그럼 어떤 관계 혹은 연대가 strong tie 인지 weak tie 인지를 계량적으로 측정하려면 어떻게 해야 할 까요?
아니, 정확히 말하면 관계의 강도라는 어떻게 측정되고 관리될 수 있을까요?

이를 규명하기 위해서는 관계의 방향성, 관계의 횟수, 관계의 종류, 관계에 영향을 준 요소들, 교환에 사용된 자원(정보, 돈, 회사, identity) 등을 살펴보아야 합니다.

데이터를 수집하는 방법은 직접수집(direct collection)과 비개입적수집(unobstrusive collection)이 있습니다.
직접수집은 면대면 인터뷰나 설문지를 통한 수집방법인데요. 예컨데, "어떤문제에 대해서 조언을 얻는 다면 어떤이에게 물어볼것인지, 5명을 생각나는 대로 적으세요" 라던가, "일주일에 얼마나 많은 사람들과 몇번 연락하고 지냈나요? 5명을 적고, 연락횟수를 적어보세요" 라는 식의 구체적인 질의를 통해 정보를 획득하는 방식입니다.

비개입적 수집은 연구자가 인터뷰를 통해 정보를 획득하는 방식이 아니라, 교환되는 정보를 그대로 측정하는 방식입니다.
메일링 리스트에 있는 메일을 주고 받은 데이터를 분석한다던가, 미니홈피나 블로그 방문자를 분석하는 방식이 그예에 해당하겠습니다.

다음에 기회가 되면 connection 의 종류에 대해서 한번 말씀드리겠습니다.

2009. 1. 17. 16:15