지난 2월'사람들은 facebook 으로 무엇을 할까'란 포스팅에 이어 트위터로 무엇을 할까란 내용을 말씀 드릴까합니다.

사실 제 생각이보다는 최근에 읽은 논문에 대한 내용인데요. 정말 제 생각과 딱 맞게 정리를 해두었고, 실제 SNA 기법들을 통해 이를 증명했다는 사실이 놀랍기만합니다.

바로 University of Maryland Baltimore County 와 NEC Lab. America 에 있는 4명의 연구자들이 2007년 KDD Workshop 에서 발표한 Why we twitter : Understanding Microblogging Usage and Communities 라는 논문인데요.

결론부터 말씀 드리면, 2007년 4월부터 5월까지트위터 사용자들의포스트와 사용자를 대상으로 이들이만들어낸 네트웍 구조와taxonomy 를 분석해 본 결과트위터를사용하는 이유(intention) 은 다음의 4가지로 분석되었다고 합니다.

1.Daily Chatter : 이부분은 트위터 포스트의 대다수를 차지하고 있는 부분으로,개인의 일상사와 현재 하고 있는 일에 관한 내용을 업데이트 하는소위 status update 영역입니다.

2. Converstation : 트위터 포스트의 21%를 차지하는 영역으로 지인이나 친구와 대화하는영역이랍니다. 즉,@심볼과 함께 주고 받는 대화라고 보시면 되겠습니다.

3. Sharing information/URL : 이부분은 13%의 포스트를 차지하고 있는 영역으로우리가 자주보는 Tiny URL 을 통해 정보가 전달되는 부분입니다.

4. Reporting news :마지막으로 최근 뉴스나 현재 트위터 내부에서 일어나고 있는 일들에 대한코멘트에 대한 포스팅인데요. 트위터 API를 이용날씨나 새로운 RSS feed 를 자동적으로 포스팅하면서 늘어나고 있는 영역이라고 합니다. 사실저도agent를 통해 전달되는 정보는 아니지만, 최근 관심있는 몇개 회사의 포스트를 트위터를 통해 구독하고 있긴 합니다.

다 아시는 내용이라구요? ^^

다음은,실제 트위터 포스트를 분석한 결과 입니다.

로그우도비(Log-Likelihood ratio)를 활용한 주중 요일별 인기 용어 분석 결과

재미 있는 분석결과 입니다. 처음에는 DRM 이나 EMI 같은 단어가 있어서,분석 대상의 샘플링을 tech-savvy만 한게 아닌가 했는데, 다시한번 살펴 보니 해당 시점이 EMI가 전격적으로 DRM Free를 선언해애플에 음원을 공급하기로시점이었고, 이게큰 뉴스거리였던 시절이더군요. http://media.paran.com/snews/newsview.php?dirnews=720721&year=2007

월요일은 시작이나 주말이란 단어의 출현 빈도가 높았고, 소프라노스, 24시간 등 당시 인기있던 미드 제목, 그리고 주중엔 주로 일과 관련된 E-mail, Working 등의 단어, 주말엔 Party, 일요일엔 Church 라는 단어의 빈도가 높았던 점이 재미있습니다.

로그우도비는 코퍼스나 문서 분류, 원저자 판별등에 있어 단어의 출현 빈도를 분석하는데 많이 쓰이는 방법이었다고 기억하고는 있지만, 막상 이렇게 트위터 포스트내에 숨어있는단어를 분석한 결과를 보니 굉장히 의미있는 결과가 나온다는 점이 놀라웠습니다.

갑자기,대학시절에 성경책속의단어들과 전세계 도시명 단어들의 출현빈도를 로그좌표에비교했던 그래프가 생각나는군요. ^^


2009. 5. 4. 11:39