[암호기술 혁명]④프라이버시 지키며 유전체 빅데이터 연구한다

2018.11.24 11:04

“의학 연구에서 개인정보 보호는 아주 중요한 문제입니다. 특히 유전자 정보는 매우 민감한 정보인 만큼 필요한 연구에 활용하면서도 안전하게 보호하는 게 필수입니다. 유전자 정보를 암호화시켜서 공유하고 필요한 분석 결과만 얻을 수 있다면 의료와 제약 연구에서 민감한 개인정보를 보호해줄 수 있을 겁니다.”

 

삼성SDS 연구소에서 만난 조지훈 보안연구팀장은 최근 의학 연구와 제약 산업에서 개인정보보호 문제가 화두라며 이 같이 말했다. 정보기술(IT) 기업인 삼성SDS는 고객인 대형 병원과 제약사, 연구기관 관계자들로부터 유전체와 진료, 검사 기록 같은 개인 정보를 안전하게 보호하는 동시에 의학 연구에 마음껏 활용할 수 있는 기술을 개발해달라는 요청을 지속적으로 받고 있다. 이를 위해 ‘수학기반 산업데이터해석 연구센터’와 공동으로 의료 정보에 동형암호를 적용해 분석하는 연구를 진행하고 있다.

 

게티이미지뱅크 제공
게티이미지뱅크 제공

의학 연구는 기본적으로 데이터가 많을수록 정확하고 의미 있는 결과가 나온다. 하지만 희귀병의 경우 병원마다 연구할 수 있는 환자의 수는 손에 꼽히는 수준이다. 이 경우 여러 병원끼리 또는 국가 차원에서 환자 정보를 공유하면 연구에 도움이 되지만 개인정보 유출 우려로 쉽지 않다.

 

현대 의학 연구의 핵심으로 꼽히는 유전자 정보의 경우 데이터 용량도 크다. 사람 한 명의 전체 유전체 데이터가 무려 200G~300GB(기가바이트)에 이른다. 클라우드 컴퓨팅을 이용해 여러 병원이 연구용 유전체 정보를 공유하는 방법이 있지만, 이 역시 정보 유출 우려가 걸림돌이다.

 

삼성SDS 보안연구팀은 이런 문제의 해법으로 동형암호에 주목했다. 동형암호로 의료 정보를 암호화한 상태에서 분석한 뒤 결과만 확인하면 정보 유출에 대한 걱정 없이 연구를 할 수 있기 때문이다. 

 

조지훈 삼성SDS 보안연구팀장(왼쪽에서 두 번째)이 3월 15일(현지 시간) 미국 매사추세츠 주 보스턴에서 열린 ‘동형암호 표준화 국제회의’에 참석해 패널 토의를 하고 있다. 조 팀장은 이 자리에서 “의료와 물류 등 다양한 분야의 데이터 분석에 동형암호를 적용할 수 있을 것”이라고 말했다. 최영준기자 제공
조지훈 삼성SDS 보안연구팀장(왼쪽에서 두 번째)이 3월 15일(현지 시간) 미국 매사추세츠 주 보스턴에서 열린 ‘동형암호 표준화 국제회의’에 참석해 패널 토의를 하고 있다. 조 팀장은 이 자리에서 “의료와 물류 등 다양한 분야의 데이터 분석에 동형암호를 적용할 수 있을 것”이라고 말했다. 최영준기자 제공

 

환자 생존율 예측에 동형암호 적용

 

삼성SDS 보안연구팀은 수학기반 산업데이터해석 연구센터와 공동으로 두 종류의 데이터를 분석했다. 하나는 미국 하버드대 의대 산하의 베스 이스라엘 디커너스 의료센터에서 2001~2012년 수집한 데이터다. 이 데이터는 응급실을 거쳐 중환자실에 입원한 환자 1만6428명의 상태 변화와 결과(사망 여부)에 대한 정보를 담고 있다. 다른 하나는 미국 국립보건원(NIH) 산하 국립암연구소(NCI)에서 1973~2014년 수집한 연골육종이라는 희귀 암환자 1088명의 상태와 치료 기록, 치료 경과 등을 기록한 데이터다.

 

연구팀은 두 데이터의 70%를 환자의 상태에 따른 생존율을 예측하는 기계학습(머신러닝) 모델을 개발하는 데 필요한 학습 자료로 썼다. 그리고 나머지 30%는 개발된 모델을 검증하는 데 썼다.

 

예컨대 중환자실 데이터의 경우 다친 부위와 정도, 혈압, 맥박 등 환자의 상태에 대한 정보와 치료 기록 등이 환자의 생존율에 각기 얼마나 영향을 미치는지 학습 데이터를 이용해 알아낸다. 그리고 여기서 얻은 결과로 만든 모델에 검증 데이터를 입력해서 얻은 예측 결과가 실제와 같은지 확인한다.

 

연구팀은 데이터를 암호화시킨 상태와 그렇지 않은 상태에서 각각 이 작업을 수행한 뒤 양쪽의 예측 정확도에서 차이가 얼마나 나는지 확인했다. 윤효진 수석연구원은 “암호화한 데이터로 만든 모델과 그렇지 않은 모델 사이의 예측 정확도 오차가 0.01% 이하라는 것을 확인했다”며 “동형암호를 의료용 빅데이터 보안에 쓸 수 있다는 사실을 1차적으로 검증한 것으로, 공개된 연구용 데이터가 아닌 실제 데이터에 적용하기 위한 연구를 진행할 계획”이라고 말했다.


동형암호를 개인 의료정보 보호에 활용할 경우 환자와 의료 기관 양쪽 모두에 도움이 된다. 환자 입장에서는 자신의 개인정보가 유출되는 피해를 입을 가능성이 거의 없어지고, 의료 기관은 일일이 환자의 동의를 받지 않고 다양한 방면에서 데이터를 분석할 수 있다. 여러 기관이 가진 데이터를 공동으로 분석해 의미 있는 질병 연구 결과를 얻을 수도 있다. 이는 질병 치료를 위한 새로운 치료제 개발에도 유용하다. 조 팀장은 “의료용 빅데이터를 시작으로 블록체인 등 다양한 영역에 동형암호를 적용하는 연구를 진행할 계획”이라고 말했다.

 

美 국립보건원, 동형암호 시동

 

미국 의료계도 동형암호 적용에 시동을 걸고 있다. 전 세계 기초의학 연구를 주도하는 미국 국립보건원(NIH)은 3월 15일(현지 시간) 미국 매사추세츠 주 보스턴에서 열린 ‘동형암호 표준화 국제회의’에 참석해 이를 공식화했다.

 

이 자리에서 하이디 소피아 NIH 연구프로그램 책임자는 “NIH는 의료정보를 제공한 환자들과의 신뢰를 바탕으로 연구를 진행한다”며 “환자의 프라이버시를 지키면서 동시에 연구자들이 환자의 의료정보를 공유할 수 있는 방법을 찾고 있다”고 말했다.

 

현재 NIH는 환자의 의료정보를 수집해 저장한 뒤 연구자가 요청하면 허가 과정을 거쳐 자료를 내려받을 수 있도록 규정하고 있다. 하지만 이는 정보 보안 측면에서는 허술한 방식이다. 연구자들이 내려받는 과정에서 복사된 정보가 여기저기에 퍼지기 때문이다. 소피아 책임자는 “동형암호를 적용하면 굳이 데이터 전체를 내려받지 않아도 된다”며 “원하는 데이터를 분석한 뒤 필요한 결과만 얻을 수 있어 정보 보호에 효과적”이라고 말했다.

 

동형암호로 보호된 의료정보가 안전하다는 인식이 생기면 더 많은 사람들이 기꺼이 자신의 의료정보를 제공하는 분위기가 만들어질 수 있다. 소피아 책임자는 “동형암호가 혁신적인 의학 연구를 위한 돌파구를 마련해줄 수 있을 것”이라고 기대했다.

 

미국 국립보건원(NIH)은 동형암호로 유전자 정보를 보호하는 보안 기술 경진대회인 ′게놈 정보보호 연대회(iDASH)′를 2014년부터 현재까지 후원하고 있다. 사진은 2016년 대회 시상식으로, 당시 서울대 소속이었던 김미란 박사(맨 오른쪽)가 포함된 마이크로소프트(MS) 팀이 우승했다. 2017년 대회에서는 천정희 서울대 수리과학부 교수팀이 우승했다. Shuang Wang 제공
미국 국립보건원(NIH)은 동형암호로 유전자 정보를 보호하는 보안 기술 경진대회인 '게놈 정보보호 연대회(iDASH)'를 2014년부터 현재까지 후원하고 있다. 사진은 2016년 대회 시상식으로, 당시 서울대 소속이었던 김미란 박사(맨 오른쪽)가 포함된 마이크로소프트(MS) 팀이 우승했다. 2017년 대회에서는 천정희 서울대 수리과학부 교수팀이 우승했다. Shuang Wang 제공

NIH는 2014년부터 매년 개최하는 ‘게놈 정보보호 경연대회(iDASH)’를 후원하며 동형암호의 가능성을 일차적으로 확인했다. 이 대회는 방대한 양의 유전체 정보를 기존 서버에 저장하는 데 한계가 있다는 판단에서 클라우드 컴퓨팅으로 유전체를 저장하고 정보를 분석할 수 있도록 여기에 필요한 보안 기술 개발을 장려하는 대회다.

 

지난해 10월 열린 2017년 iDASH에서는 천정희 서울대 수리과학부 교수팀이 동형암호를 적용한 예측 모델 개발 부문에서 우승을 차지했다. 마이크로소프트(MS)와 스위스 로잔공대 등 쟁쟁한 연구팀을 제치고 거둔 성과였다.

 

당시 연구팀이 해결해야 할 과제는 약 1500명의 가공된 유전자 정보를 이용해서 특정 유전자와 질병 발생의 상관관계를 예측하는 기계학습(머신러닝) 모델을 동형암호를 적용해서 만드는 것이었다.

 

한 사람의 데이터는 총 20개의 유전자에 대한 변이 여부와 암 발생 여부로 이뤄져 있고, 그런 데이터가 1500개가량 된다. 가령 암이 발생한 사람에게 여러 개의 유전자 변이가 나타날 수 있다. 따라서 기계학습(머신러닝)을 이용해 어떤 변이가 암 발생에 얼마나 기여하는지 반영한 예측 모델을 얻을 수 있다. 이 모델에 누군가의 유전자 변이 정보를 입력하면 그 사람의 암 발생 가능성을 알 수 있다.


이 과제를 해결하겠다고 전 세계에서 약 30개 연구팀이 참가 신청을 했다. 최종적으로 완성 모델을 제출한 팀은 천 교수팀을 포함해 7개 팀에 그쳤다.

 

한규형 수학기반 산업데이터 해석 연구센터 연구원(왼쪽)이 3월 15일(현지 시간) 미국 보스턴에서 열린 ‘동형암호 표준화 국제회의’에서 자체 개발한 동형암호 프로그램 ‘혜안(HEAAN)’을 시연하고 있다. 최영준 기자 제공
한규형 수학기반 산업데이터 해석 연구센터 연구원(왼쪽)이 3월 15일(현지 시간) 미국 보스턴에서 열린 ‘동형암호 표준화 국제회의’에서 자체 개발한 동형암호 프로그램 ‘혜안(HEAAN)’을 시연하고 있다. 최영준 기자 제공

자체 개발한 동형암호 프로그램인 ‘혜안’으로 과제를 해결한 천 교수팀은 모델이 얼마나 정확히 분류해내는지를 나타내는 수치가 0.72로 가장 높았다(최대값은 1이다). 게다가 암호화시켜서 모델을 만드는 데까지 1시간이 걸리지 않을 만큼 작업 시간이 짧아 효율성에서도 최고라는 평가를 받았다.

 

천 교수는 “혜안의 근사계산 방식 덕분에 다른 팀보다 월등히 속도를 높여 분석할 수 있었다”며 “결과적으로 더 많은 연산을 할 수 있었기 때문에 분석 정확도도 높아졌다”고 말했다. 

 

관련기사 : 과학동아 2018년 5월호, 암호기술 혁명, 동형암호

메일로 더 많은 기사를 받아보세요!

댓글 0

작성하기

    의견쓰기 폼
    0/150