DNA 정보 저장 왜 3진수로 할까?

2013.04.25 13:08

17세기 중반에서 18세기 초반을 살았던 독일의 고트프리트 빌헬름 라이프니츠는 정말 미스터리한 사람이다. 동시대인인 아이작 뉴턴에 비해서는 별로 알려져 있지 않지만 천재성에서는 뉴턴에 버금가는 인물이다. 사실 라이프니츠는 다방면에 관심이 많았고 그만큼 많은 업적을 내기도 했다.

그래서 ‘물리학자 뉴턴’처럼 그를 규정하는 분야를 고르기가 어렵다. 철학자, 수학자, 논리학자, 과학자, 공학자, 법학자, 신학자, 외교관, 행정가 심지어 연금술사까지. 라이프니츠가 잡다한 분야의 사람들과 주고받은 편지가 무려 1만5000여 통이나 남아있다고 한다.

다른 분야는 잘 모르겠지만 적어도 수학에서 그의 기여는 대단하다. 라이프니츠는 뉴턴과는 별개로 미적분을 발견했다. 결국 죽을 때까지 우선권 논란에 시달렸지만(뉴턴이 9년 먼저 고안했지만 발표는 라이프니츠가 먼저 했다) 우리가 고교에서 배운 미적분 기호는 라이프니츠가 만든 것이다. ‘함수’라는 말을 처음 쓴 사람도 라이프니츠다.

이 밖에 라이프니츠는 수학에 또 다른 기여를 했다. 바로 2진수를 발견한 것이다. 물론 2진수 역시 17세기 초 토머스 해리엇이 먼저 생각해내기는 했다. 정작 라이프니츠는 훗날 ‘주역’을 공부하면서 고대 중국인들이 음양을 통해 2진수 체계를 이해하고 있었다고 믿었다.

2진수를 발견한 게 별 일 아닌 것 같지만 사실 이런 아이디어를 떠올리기는 쉽지 않다. 필요는 발명의 어머니라는 말도 있듯이 쓸 데가 있어야 하는데 2진수는 그렇지 못했기 때문이다. 사과가 열 개만 돼도 1010으로 표시해야 하니 직관적이고 효율적인 10진수를 잘 쓰고 있는데 뭣하러 2진수를 고안하겠는가. 실제 라이프니츠도 2진수 체계를 갖고 한 게 아무 것도 없지만 그럼에도 이 발견을 아주 자랑스러워했다고 한다.

라이프니츠는 20대 때 당시로는 놀라운 수준의 기계식 계산기를 발명하기도 했다. 덧셈과 뺄셈은 물론 곱셈과 나눗셈도 가능했다는 이 계산기 덕분에 그는 1673년 불과 27살에 영국 런던왕립학회 회원으로 뽑혔다. 라이프니츠의 아이디어는 끝이 없었는데 그는 완벽한 ‘보편 기호’ 체계를 만들면 우리의 모든 사유 과정을 계산할 수 있는 계산기를 만들 수 있다고 믿었다. 어떻게 보면 라이프니츠는 디지털 컴퓨터의 핵심 개념을 모두 생각해낸 사람이다.

●수만 년 전 DNA 정보 고스란히 남아있어

라이프니츠가 죽고 300년이 지난 20세기 그의 2진수는 논리연산에 적용되고 디지털 컴퓨터가 발명되면서 화려하게 부활했다. 2진법의 0과 1은 ‘디지털의 아버지’ 클로드 섀년에 의해 ‘비트(bit)’라는 정보단위 이름을 얻었고 오늘날 데이터 대다수는 비트의 연속으로 변환돼 계산되거나 저장될 수 있다. 그런데 사람들은 언제부터인가 현재 디지털 정보 저장 방식에 근본적인 문제가 있다는 사실을 깨달았다. 시간이 지남에 따라 정보가 손실되기 때문이다.

이는 열역학적으로 보면 불가피한 현상인데 시간이 지날수록 엔트로피는 커지기(즉 정보를 잃기) 때문이다. 디지털 정보는 자기 테이프나 CD, 하드디스크 같은 매체에 자화돼 기록되는데 수십 년이 지나면 상당부분 손상이 불가피하다. 따라서 중요한 데이터는 정기적으로 다시 기록해야 한다. 한편 데이터를 입력하는 방식이나 운영프로그램의 급속한 변화로 막상 있어도 꺼내 볼 방법이 없는 데이터도 많다.

 

지난 2010년 과학저널 ‘사이언스’에는 약 4만 년 전 살았던 네안데르탈인의 게놈을 해독했다는 연구결과가 실렸다. 네안데르탈인의 뼛조각 일부(0.4그램)를 갈아 추출한 DNA에서 염기서열을 해독했는데 그 결과 현생인류와 99.84%가 동일했다(서로 상응하는 위치만 비교했을 때)는 결과를 얻었다. 수만 년이 지났어도 정보를 고스란히 보존하고 있는 DNA의 저장매체로의 우수성을 단적으로 보여준 사례다. 게다가 DNA정보는 시스템이 안 맞거나 버전이 틀려 데이터를 꺼내보지 못할 걱정이 없다!

사실 DNA는 2진수 체계와도 밀접한 관계가 있다. DNA는 4가지 염기로 이뤄져 있기 때문에 4진수로 정보를 저장하는 셈이기 때문이다. 4는 2의 제곱, 따라서 2진수는 쉽게 4진수로 변환할 수 있다. 예를 들어 10진수 ‘2013’을 2진수로 표현하면 ‘11111011101’인데 이를 4진수를 바꾸려면 낮은 자릿수부터 두 자리씩 묶은 뒤 각 묶음을 4진수로 바꿔 붙여주면 된다. ( 1 11 11 01 11 01 -> 1 3 3 1 3 1 -> ‘133131’(4진수)).

4진수 숫자 0, 1, 2, 3에 각각 DNA염기 A(아데닌), C(시토신), G(구아닌), T(티민)를 대응시키면(물론 다른 식으로 짝을 지워도 된다) 10진수 2013은 4진수 ‘CTTCTC’로 변환할 수 있다. 이런 간단한 생각을 과학자들이 안 했을 리는 없어 DNA저장 방식은 1988년 처음 소개됐다. 그러나 디지털 정보 저장 매체로서 DNA의 활용은 엄청난 비용 때문에 원리적으로나 가능한 얘기였다.


그런데 최근 DNA합성과 해독 비용이 급속히 떨어지면서 몇몇 과학자들이 DNA에 디지털 정보를 저장하는 일을 진지하게 고민하기 시작했다. 과학저널 ‘네이처’ 1월 23일자 온라인판에는 DNA를 이용해 ‘실제적인, 고용량 저비용’ 정보 저장 방법을 개발했다는 논문이 발표됐다. 영국과 미국 공동 연구팀은 1953년 왓슨과 크릭의 DNA이중나선 논문을 비롯해 5가지 형태의 파일을 DNA에 저장하고 이를 꺼내 100% 재현하는데 성공했다는 것.

사실 원리는 간단한 거고 필자는 이게 정말 얼마나 비용 경쟁력이 있기에 ‘실제적인(practical)’이라는 표현을 썼을까가 궁금해 논문을 다운받았다. 그런데 논문을 얼마 읽지 않아 이들이 말하는 ‘실제적인’이라는 표현이 다른 의미가 있다는 걸 발견했다. 즉 이들은 DNA하면 당연히 떠오르는 4진수 체계가 DNA를 저장 매체로 쓸 경우 비실제적이기 때문에 이를 해결하기 위해 3진수 체계를 도입했다는 것이다.

●비트(bit)에서 트리트(trit)로

DNA가 4진수 체계로 부적절한 이유는 같은 염기가 연달아 있으면 해독할 때 오류가 나올 수 있기 때문이다. 앞의 ‘2013’을 나타내는 ‘CTTCTC’의 경우 ‘TT’가 여기에 해당한다. 물론 오류 가능성은 수천~수만 염기당 하나 꼴로 낮지만 정보 저장 매체로서는 불합격이다. 그래서 고안해 낸 게 3진수 체계다.

2진수 0과 1을 비트라고 부르듯 3진수 0과 1, 2는 트리트(trit)라고 한다. 즉 어떤 염기 하나가 정해지면 그 다음에는 나머지 세 염기 가운데 하나가 오게 규칙을 만든 것. (자세한 내용은 ‘DNA’라는 문자열을 아스키코드를 이용한 현재 정보 저장 방식에서 허프만 코드라는 3진수 체계를 이용해 DNA서열로 변환한 옆의 실례를 참조)

이런 원리를 바탕으로 저자들은 정보를 염기 100개 단위로 잘라 저장했고 각각에 색인(물론 DNA염기서열로)까지 붙여 한 단위로 만들었다.

즉 긴 DNA가닥 하나에 정보를 모두 담는 게 아니라 고려 팔만대장경처럼 조각조각 나눠 정보를 담아 보관하는 것이다. 그런데 다음 정보 단위는 앞의 것의 26번째부터 시작해 100개를 저장한다. 즉 염기 25개 단위로 네 번에 걸쳐 중복해 저장함으로써(a-b-c-d, b-c-d-e, c-d-e-f, d-e-f-g, …) 정보의 안정성을 확보했다. (이 연구가 ‘실제적인’이라는 표현을 쓰는 또 다른 이유다!)

이렇게 해서 이들이 현재 구현한 비용은 DNA 100만 바이트당 정보를 저장하는데(DNA합성) 1만2400달러(약 1300만 원)이고 정보를 해독하는데 220달러(약 23만 원)이다. 물론 이 비용은 현재 디지털 정보 저장 방식과 비교하면 터무니없이 비싸지만 그럼에도 오랜 시간(600~5000년)이 지나면 비용이 같아진다(현 방식은 10년마다 다시 저장한다고 할 때).


아직은 DNA 정보 저장 즉 DNA합성 비용이 높지만 10분의 1로 떨어지면 비용이 같아지는 시점은 100여년 뒤이고, DNA합성 비용이 100분의 1로 떨어지면 10여 년 뒤에는 비용이 같아지는 것으로 나온다. DNA 정보 저장 실용화가 머지않았다는 말이다.

DNA이중나선 구조가 발견 60주년을 맞이하는 2013년, DNA는 생명의 정보뿐 아니라 모든 정보를 저장하는 매체로 거듭 태어나고 있다.

메일로 더 많은 기사를 받아보세요!

댓글 0

작성하기

    의견쓰기 폼
    0/150