통상 웹상의 Link 중 80%는 전체 웹페이지중 단지 15%에 해당하는 페이지로 링크가 걸려있다(A.L. 바라바시의 Link 를 읽어보심 됩니다.)는 것은 주지의 사실이다. 이러한 웹의 네트워크적 속성을 잘 이용한 검색엔진이 소위 BackLink Algorithm 이라는 기법을 이용한 Google 이다.
최근들어 우리는 우리는 사회곳곳에서 8:2의 법칙같은걸 공공연하게 얘기하는데,이러한 법칙은 사용자의 Keyword 검색 빈도에도 잘 나타나고 있다.
즉, 하루에 검색되는 키워드의 빈도를 잘 살펴보면 상위 10~20%의 키워드가 전체 Query의 80%에 해당하는 것이다. 따라서, 검색엔진에 후발로 진입하는 사업자는 소위 Coverage라고 불리우는 Web 문서의 Crowling 양이나 정확도를 높이는것도 중요하겠지만, 이 80%의 Needs에 해당하는 20%의 키워드 어떻게 잘 관리하느냐가 매우 중요한 요소가 될 것이다. 사실 어느것도 중요하지 않은 것은 없다. 다만, 효율성을 따지자면 그렇단 얘기다.
NHN이나 Daum 의 주요 Keyword 에 대한 검색결과는 거의 Art 에 가깝다. 어쩌면 난삽한 웹문서의 나열보다, 어느정도 가공된 그리고 잘 정리되어 걸러진 정보라는 측면에서 보면 이부분 또한 긍정적인 면이 아닐 수 없다.
하지만 지금 이순간에도 폭발적으로 늘어나는 웹페이지와 매우 다양해지고 세분화 되어가는 사람들의 정보 검색 욕구를 이렇게 하나하나 공을 들여 관리한다는 것 또한 쉬운일이 아닐것이다.
어찌보면 우리는 이를 통해서 웹검색이 가지고 있는 양면성을 살펴볼 수 있겠다. 정답이 없는 검색 말이다. 사견으로 검색의 정확도는 완벽할 수가 없다. 그래서 통상 검색엔진을 Tuning 하는 과정은 다분히 경험적(empirical)인 것이다.
'성훈과 현희가족' 카테고리의 다른 글
Widerthan 의 기억 (0) | 2004.11.15 |
---|---|
Widerthan 의 추억 (0) | 2004.11.15 |
[성훈이의 정보검색 이야기] Directory Directory ! (1) | 2004.11.02 |
[성훈이의 정보검색 이야기] 정보 검색 관련 도서 (2) | 2004.11.02 |
국군의 날에 .. (2) | 2004.10.01 |
COMMENT