[인간·공감·AI]"코로나19 실체 밝히는 슈퍼컴 연구, 문제는 대용량 데이터"

2020.05.22 08:00
김종원 지스트 AI대학원 교수는 ″막대한 양의 데이터가 중요해지는 미래에 데이터가 흐르고 모여 융합되도록 뒷받침하는 인프라가 중요하다″고 강조한다. 동아사이언스.
김종원 지스트 AI대학원 교수는 "막대한 양의 데이터가 중요해지는 미래에 데이터가 흐르고 모여 융합되도록 뒷받침하는 인프라가 중요하다"고 강조한다. 동아사이언스.

미국의  70여 개 기관의 연합체인 '오픈사이언스그리드(OSG)컨소시움'은 최근 부쩍 바빠졌다. 신종 코로나바이러스 감염증(COVID-19·코로나19) 사태를 맞아 기초연구를 위한 계산시간을 제공하고 있어서다. 바이러스 단백질이나 유전물질(RNA) 입체 구조를 밝히는 자발적 시민과학 프로젝트인 ‘폴딩앳홈’ 등 3개 프로젝트를 지원하고 있다. IBM과 아마존웹서비스, 엔비디아 등 기업과 국립연구소, 대학까지 총 38개 기관이 연합한 ‘코로나19 고성능컴퓨팅(HPC) 컨소시움’ 역시 20일 현재 52개 코로나19 관련 구조 연구 지원에 나섰다. 치료제 후보물질의 발굴을 인공지능(AI)로 가속화하는 연구, 단백질 구조 해석 등이 지원을 받고 있고, 그 수는 계속 늘고 있다.


지구를 위협하고 있는 감염병 대유행에 맞서기 위해 국경과 분야를 초월한 과학자들의 연대가 이어지고 있다. 아름다운 풍경이지만, 네트워크 전문가 김종원 광주과학기술원(GIST) 인공지능(AI)대학원 교수는 이 구도 안에 빠진 ‘미싱링크’가 있다는 사실에 주목하고 있다. 바로 화수분처럼 끊임없이 생성되는 막대한 양의 데이터를 뒷받침하는 네트워크와 인프라다.


김 교수는 “슈퍼컴퓨터를 이용해 코로나에 대응하고 신약 개발을 위한 단백질체학, 전사체학 연구 등이 규모를 키우려면 대용량 데이터를 다루는 인프라가 받쳐줘야 한다”며 “나아가 만약 (연구와 개발, 활용 등을 지원하는) 자동화된 플랫폼이 존재해 운영자와 개발자 등이 공동으로 쓰고, 형성된 데이터도 함께 활용한다면 기존보다 ‘스마트한’ 서비스를 만들 수 있을 것”이라고 강조했다. 


김 교수는 이 플랫품을 ‘인프라 플랫폼’이라고 불렀다. 인프라 플랫폼은 데이터를 담아서 서비스로 활용할 수 있게 ‘판’을 만들어주는 개발과 운영이 병행되는 체제의 기술이다. 김 교수는 “특히 여러 사람이 같이 쓰는 공통 플랫폼으로서의 인프라에 관심이 많다”며 “개발자나 운영자가 각기 다른 인프라를 따로 익힐 필요 없이, 누구나 와서 바로 집중해서 일할 수 있게 하는 플랫폼이 필요하다”고 강조했다.


김 교수는 이를 위해 ‘클라우드 네이티브’와 ‘데이터센트릭(데이터중심)’의 두 가지 전략과 원칙을 강조했다. 클라우드 네이티브는 최근 애플리케이션 개발 트렌드다. 애플리케이션 구조를 '마이크로서비스'라는 독립된 개별 단위로 개발한 뒤 이를 가벼운 가상화 환경에서 구동하도록 '컨테이너'를 만든 뒤 이를 관리하는 환경이다. 구글이 내놓은 오픈소스 프로젝트인 '쿠버네티스'가 대표적이다. 리눅스재단도 '클라우드 네이티브 컴퓨팅 재단(CNCF)'를 만들어 지원하고 있다.

 

김종원 지스트 AI대학원 교수 연구팀이 AI 관련 데이터를 확인하고 있다. 동아사이언스.
김종원 지스트 AI대학원 교수 연구팀이 AI 관련 데이터를 확인하고 있다. 동아사이언스.

클라우드는 최근 서비스로도 널리 활용되고 있다. 하지만 김 교수가 보기에 기술은 기존 기술을 그대로 쓰면서 클라우드를 이용할 뿐이라 한계가 많다. 클라우드 네이티브는 클라우드를 위해 태어난 기술로 이런 한계를 극복할 수 있게 한다. 그는 “클라우드 네이티브는 글로벌 대기업에 의해 독점돼 있지 않아 클라우드 분야에서 뒤쳐진 한국도 기회를 찾을 수 있을 것”이라고 말했다.


데이터센트릭은 다양한 데이터가 흐르고 모여야 융합된 데이터가 생기고, 이를 AI로 처리해 활용할 수 있다는 원칙이다. 다양한 데이터가 모일 수록 편중되지 않은 기술과 서비스가 가능해진다는 것이다. 미래에는 자율주행차, 스마트도시 등의 발달로 각종 센서로부터 무수한 데이터가 만들어질 것이다. 이런 데이터가 흐르고 모여들 인프라가 필요하다. 그냥 데이터가 쌓이기만 해서는 활용 가치가 없다. 안전하고 기밀성이 높으면서 빠르게 접근할 수 있어야 한다. 이렇게 정제된 데이터가 충분히 담기는 곳을 ‘데이터레이크(호수)’라고 한다. 


광주시와 GIST가 함께 기획한 AI 중심 산업융합 집적단지 조성사업의 주요 과제 중 하나로 그가 구축을 주도하는 ‘AI 클라우드 데이터센터’는 국가 규모의 데이터레이크를 염두에 두고 있다. DVD 100만 장 수준의 저장 용량인 100PB(페타바이트· 1PB는 1000조 바이트)의 저장용량을 갖추고 수천 개의 그래픽처리장치(GPU)를 구비해 AI 연산을 지원하는 시설이다. 김 교수는 “스마트 서비스 디자인이 이뤄져도 데이터가 오지 않고 누적되지 않으면 소용이 없다”며 “흩어져 있는 다양한 ‘스마트한’ 장비와 센서, 자동차 등을 데이터센터가 중심을 잡고 연결하는 게 목표”라고 말했다.


데이터센터는 사람을 위한 서비스를 만들 때 실증을 해보고 문제를 해결하는 테스트베드로 활용될 것으로 기대된다. 김 교수는 “내 관심사는 실제 문제를 실증 지향적으로 연구하는 것”이라며 “AI 클라우드 데이터센터 역시 데이터를 잘 활용해 자동차와 헬스케어, 에너지 등 3대 분야의 AI 서비스를 안전하고 효율적으로 구축하기 위한 테스트베드로 활용할 것”이라고 말했다.

 

김종원 지스트 AI대학원 교수는 ″막대한 양의 데이터가 중요해지는 미래에 데이터가 흐르고 모여 융합되도록 뒷받침하는 인프라가 중요하다″고 강조한다. 동아사이언스.
김종원 지스트 AI대학원 교수는 "막대한 양의 데이터가 중요해지는 미래에 데이터가 흐르고 모여 융합되도록 뒷받침하는 인프라가 중요하다"고 강조한다. 동아사이언스.

 

메일로 더 많은 기사를 받아보세요!

댓글 0

작성하기

    의견쓰기 폼
    0/150