예전에 1년정도 검색엔진에 관한 공부를 한적이 있었다.. 사실은 검색엔진 자체라기보다는 Text Mining/Text Clustering 에 관한 공부였는데, 그때는 기술적인 측면에만 너무 치우쳤던것 같다.

이후 어찌어찌하여, 한미르 검색을 맡게되었고 30여명의 웹서퍼들과 함께 꽤 오랜시간을 지내면서 난 진정한 검색엔진이 무엇일까 조금씩 깨닫기 시작했었다.

물론...지금은 검색과 별로 상관 없는 일을 하고 있지만, 그래도 하던 도둑질이라고, 예전의 디렉토리에서 최근 Google 이나 A9 과같은 대용량 키워드 검색엔진에 이르기까지, 그리고 cat-a-con 모델, 3Dimensional model, NLP등을 이용한 아직 IR 책에서나 나올법한 검색엔진의 미래까지, 뉴스나 기사나, 논문이 보일때마다, 나는 마치 내일이라도 된것인냥 매우 흥미롭게 읽어보고 스크랩하곤 한다.

오늘부터 며칠간 Search Engine - 아니 좀더 포괄적으로 정보검색(Information Retrieval)에 관해서 몇가지 정리를 해둘까한다..기억이나 사업아이디어같은건 머리속에선 머물다가 이내 사라져 버려 오래가지 못하는 법이니까 말이다.

정보관련 대학원에서 정보검색(IR)이나 학부때 문헌 정보학을 전공한 사람이면,흔히 Recall(재현율)과Precision(정도)라는 단어를 기억할 것이다.

간단히 말하면, Recall 은 정보검색 시스템이 얼마나Query된결과를 많이 보여주는가에 대한 문제이다. Precision 은 말그대로 얼마나 정확한 결과를 짚어내는가에 관한 문제이다.

근데 사실 이 둘을 동시에 만족시키는 것은 거의 불가능하다. "세상에 원하는 정보를 열라 많이보고, 또 내가 원하는 정보만 정확하게 보고싶다니." 이런 욕심이 어디에 있겠는가?

이는마치 통계학에서동시에귀무 가설이 사실일때 가설을 기각하는 1종오류와대립가설이 사실일때귀무가설을 채택하는 2종오류를 동시에최소화하는 검정이 없는것과 같다.통상 제1종오류를 범할 확률(알파)를 고정시키고 2종오류를 범할 확률(베타)를 최소화하는 방법을 취하는 것이다.

그럼 어떤게 좋은걸까? 많이 찾아 주는게 좋은걸까? 정확히 짚어 내는게 좋은 걸까?

나는 개인적으로 많이 찾아주는게 좋다. 약간 정확하지 않더라도...왜냐면..사실 정확하다는 건 검색자의 context 에 따라 매우 다른 의미를 가질 수 있다.

50대 아저씨에게 HOT 라는 단어를 검색했을때 나타나는 머리 이상하게 한 남자 댄스그룹의 모습에서 정확도를 말할 수 있을까?

Context, Context 그게 문제다...

2004. 11. 2. 10:52