최근 모바일서비스이나 웹에 적용되고 있는 상당수의 기술들에 대한 이론적 기반은 이미 꽤 오래전부터 연구되어왔던 것들이라고 합니다. 이런 이론들이 상용화되는 데는 네트웍 대역폭이나 H/W의 발전이 큰 영향을 주었으나, 대용량 데이터 처리분야에서는 누가 뭐래도 병렬처리 기술의 발전이 가장 큰 기여를 하지 않았나 생각됩니다.

한동안 애플리케이션 개발과 기획에 빠져있느라 정신이 없었는데, 몇 달전 외국어대 최대우 교수님께서, 제 페이스북에 남긴 글을 보시고는 Revolutionanalytics 의 최근 자료들을 좀 살펴보길 권하셨습니다.

R 이 꽤 오래전부터 병렬처리에 관심을 가져왔고, 이런 구조를 만들어내기에 용이한 개방형 프로그램인건 알고 있었지만, Perdue University Saptarshi Guha (이분은 현재 PaloAlto Revolutionanalytics 에서 근무하고 있습니다.)가 만든 RHIPE: R and Hadoop Integrated Processing Environment 에 대한 내용을 잠시 보면서, 정말 몇 년전에는 꿈도 못 꾸던 일들이 일어나고 있구나.’라는 생각이 들었습니다.

RHIPE는 한마디로 R을 자연스럽게 Mapreduce 와 연결시켜, 수백만개의 데이터를 매우 짧은 시간에 분석할 수 있도록 한 프로그램입니다. 더구나 RHIPE EC2에 올려 시뮬레이션까지 한 결과를 보고나니 입이 딱 벌어지더군요.

특히, Bioinformatics 분야는 수많은 부가가치가 존재하는 영역이라 생각됩니다.

Amazone S3 Storage 에는 1000 Genome Project 를 위한 데이터가 올라가 있으며, EC2 EBS 등을 통하여 수많은 데이터들을 거의 실시간에 가변적으로 분석 가능하도록 하는 환경을 제공하고 있습니다.

어쩌면 국내 굴지의 대기업들이 클라우드와 이를 활용한 Bioinformatics 산업에 관심을 기울이는 건 당연한게 아닌가 하는 생각입니다.

여튼 우리는 꿈이 이론으로, 이론이 다시 현실로 변하고 있는 그런 하루하루를 살고 있습니다.RHIPE에 관심이 있으신 분들은 아래 팔로알토의 Facebook 본사에서 진행된 Saptarshi Guha 의 Lecture 를 살펴보시기 바랍니다.

RHIPE: An Interface Between Hadoop and R
Presented by Saptarshi Guha
Video Link
2011. 2. 27. 23:33