[과학세상/정한민]빅 데이터 시대의 ‘데이터 큐레이션’

2012.05.02 00:00
[동아일보]

큐레이터는 박물관과 미술관에서 재정 확보, 유물의 보존 관리, 자료 전시, 홍보활동을 하는 사람을 일컫는다. 그럼 큐레이터란 직업은 예술 분야에만 있는 것일까? 그렇지 않다. 2011년 2월 세계적 학술지인 네이처는 생물정보학 분야에서 생물정보 데이터베이스의 내용을 검토하고 주석을 달아 완성도를 높이는 ‘생물정보 큐레이터’라는 직업을 소개했다. ‘데이터 큐레이션’이라는 키워드가 뜨고 있다. 위의 정의로 짐작되듯 데이터를 발굴하고, 검색하며, 품질을 유지하면서 가치를 부여하는 활동이다. 데이터 큐레이션이 구체적으로 무엇을 의미하며, 왜 화두가 되고 있는 것일까? ‘빅 데이터’라는 요즘 가장 ‘핫한’ 키워드를 가지고 풀어보기로 하자. 한국정보화진흥원에 의하면 2011년 전 세계 디지털 정보량은 약 1.8ZB(제타바이트·1ZB는 1조 GB·기가바이트)이며, 2020년 관리해야 할 정보의 양은 현재의 50배 이상 증가할 것으로 예상된다. 이렇듯 거대한 양으로, 빠른 속도로 증가하는 빅 데이터 환경에서 우리는 정보를 찾는 데 점점 지쳐가고 있다. 사용자가 직접 키워드를 입력해서 원하는 정보를 찾는 전통적인 정보 검색 방식에서는 사용자가 직접 큐레이터의 역할까지 겸했다. 그러나 엔지니어들조차도 정보를 검색하고 수집하는 데 근무시간의 절반 가까이 할애한다는 연구 결과에서 보듯 개인에게 큐레이션의 역할까지 맡기기에는 한계가 너무나 명확한 게 현실이다. ‘데이터 큐레이션’은 빅 데이터의 속성을 고스란히 갖고 있는 소셜네트워크서비스나 소셜미디어, 스마트폰에 내장된 각종 센서, 웹 데이터에서 정제된 정보를 찾고자 하는 기법이다. 용어는 생소하지만 예전부터 다양한 영역에서 데이터 큐레이션 기법이 쓰여 왔다. 예를 들어 새우깡 제품 속에서 생쥐 머리가 발견됐을 때의 충격을 계기로 국내 주요 기업들은 ‘고객의 소리’를 수집하고 정제된 정보를 걸러내 루머나 사태가 확산되기 전에 조치할 수 있도록 하는 방안을 몇 년 전부터 도입하여 운영하고 있다. 인터넷미디어에서도 데이터 큐레이션 기법이 쓰인다. 미국 버락 오바마 대통령 당선에 영향을 끼친 것으로 잘 알려진 블로그 뉴스미디어인 ‘허핑턴포스트’는 필진의 지명도와 신뢰를 바탕으로 한 달 순방문자 수가 수천만 명에 이를 정도로 그 영향력을 과시하고 있다. 신문 레이아웃을 이용하여 관심 정보를 자동 편집해서 제공하는 페이퍼닷리(Paper.li), 개인화된 인터넷 잡지로서의 라이브스탠드(Livestand) 등도 데이터 큐레이션의 효과를 확실하게 보여준다. 최근 트위터와 같은 소셜미디어의 엄청나게 빠른 전파 속도로 인해 확인되지 않은 각종 루머의 난무로 이른바 ‘쓰레기 정보’를 정화하려는 노력이 커지고 있다. 이에 따라 자신만의 방식으로 데이터를 해석하고 중요도순으로 배치하여 친구나 추종자에게 제공하는 콘텐츠 유통자로서의 ‘소셜 큐레이터’들이 등장했는데 이는 웹 2.0 시대에 ‘프로슈머’가 소셜네트워크상에서 진화한 모습이라고 할 수 있다. 그렇지만 우리가 주의하고 유념해야 할 것은 사용자가 추구하는 가치와 데이터 큐레이션에 담겨진 의도 사이에서의 균형 감각이다. 가치에 치우치다 보면 특정 분야에 대한 집중도와 방향성이 떨어질 수 있고, 의도에 치우치면 ‘그들만의 리그’로 전락할 위험이 있다. 특히 불순한 의도가 담긴 큐레이션은 결국 또 다른 쓰레기 정보를 생산할 수 있다는 점을 잊지 말아야 한다. 정보에 대한 최종 필터링은 결국 사용자의 몫이라는 사실은 변함이 없으므로, 스스로의 분별 능력을 키우려는 노력을 게을리 해서는 안 될 것이다. 정한민 한국과학기술정보연구원 소프트웨어연구실 실장

메일로 더 많은 기사를 받아보세요!

이 기사 어떠셨어요?

댓글 0

작성하기

    의견쓰기 폼
    0/150
    * 21대 국회의원 선거운동 기간에는 실명확인 과정을 거쳐야 댓글을 게시하실수 있습니다.
    * 실명 확인 및 실명 등록 서비스는 선거운동기간 (2020. 4. 2 ~ 2020. 4. 14) 동안에만 제공됩니다.