[강석기의 과학카페] 말 빨리하는 사람이 싱거운(?) 이유!

2017년 01월 23일 22:18

 

GIB 제공
GIB 제공

 

지난해 우리나라 바둑계는 외화내빈이었다. 이세돌 알파고 대결로 세간의 관심이 집중됐지만 정작 기전(바둑대회) 수가 거의 절반으로 줄었기 때문이다. 각자 사정이 있겠지만 아무래도 인간이 인공지능에게 완패한 게 가장 큰 요인으로 보인다.

 

지난 연말 국내 한 인터넷바둑사이트에 혜성처럼 등장해 국내외 최고수들과 30판을 겨뤄 전승을 거둔 아이디 ‘Magister’는 그 뒤 다른 사이트로 건너가 ‘Master’라는 아이디로 역시 30판을 둬 전승을 했다. 국내 1위인 박정환 9단이 5패, 중국 1위 커제 9단이 3패, 일본 1위 이야마 유타 9단도 1패다. 60전 60승을 거둔 이 괴물은 예상대로 업데이트된 알파고였다.

  

1_지난 연말에서 올 연초 사이 국내 인터넷바둑 사이트에 업데이트된 알파고가 일류 기사들과 겨뤄 60전 전승을 거뒀다. 국내 1인자인 박정환 9단은 5패를 한 뒤 “알파고에게 선에 둔다면 만만치 않을 것 같다”며 한수 아래임을 인정했다. 박정환 9단과 알파고의 대국 장면. - 바둑TV 제공
1_지난 연말에서 올 연초 사이 국내 인터넷바둑 사이트에 업데이트된 알파고가 일류 기사들과 겨뤄 60전 전승을 거뒀다. 국내 1인자인 박정환 9단은 5패를 한 뒤 “알파고에게 선에 둔다면 만만치 않을 것 같다”며 한수 아래임을 인정했다. 박정환 9단과 알파고의 대국 장면. - 바둑TV 제공

박정환 9단은 최근 한 인터뷰에서 자신은 알파고에 ‘정선(定先)’, 즉 한 수 아래라고 인정했다. 흑을 쥐고(먼저 두고) 덤 공제(패널티)를 하지 않으면 해볼만하다는 얘기다. 지난해 이창호 9단이 얘기했듯이 인공지능이 완벽해지면 최고의 프로도 두 수를 깔고 둬야 승부가 될지 모르겠다.

 

● 구글번역기에 맡겨보니...

 

그런데 최근 인공지능의 다음 희생양이 번역가가 될 거라는 기사들이 나오고 있다. 번역 프로그램에 인공지능이 본격적으로 적용되면서 비슷한 언어 사이(영어와 불어, 한국어와 일본어 같은)는 물론 구조가 꽤 다른 영어와 한국어 사이의 번역도 상당한 수준에 올랐다는 것이다.

 

예를 들어 셰익스피어의 희곡 ‘햄릿’에 나오는 대사 “Long live the king!”을 구글번역기에 넣으면 “폐하, 만수무강하시옵소서!”로 나올 정도다. 일본의 한 번역가는 “번역기가 번역가를 뛰어넘게 될 때, 번역가는 역사적인 역할을 마쳤다고 생각하고 깨끗이 은퇴해야 한다”고 말했다고 한다.

 

수년 전부터 ‘부업’으로 1년에 한 권 꼴로 번역을 하고 있는 필자는 설사 이런 일이 현실이 되더라도 생계에 큰 문제는 없겠지만 솔직히 ‘과연 가능할까?’라는 의문이 든다. 물론 바둑 최고수들이 알파고에 맥을 못 추는 게 지금도 이해가 안 되지만 엄연한 현실인 걸 생각하면 “말도 안 된다!”고 장담할 순 없다.

 

최근 번역기에 본격적으로 인공지능이 도입되면서 번역의 질이 놀라보게 좋아졌다. 그럼에도 아직 어휘가 풍부하고 문장이 복잡한 글을 번역하기에는 버거워 보인다. 현재 필자가 번역하고 있는 책 ‘The Lagoon’의 한 문단을 구글번역기가 번역한 화면. - 구글 제공
최근 번역기에 본격적으로 인공지능이 도입되면서 번역의 질이 놀라보게 좋아졌다. 그럼에도 아직 어휘가 풍부하고 문장이 복잡한 글을 번역하기에는 버거워 보인다. 현재 필자가 번역하고 있는 책 ‘The Lagoon’의 한 문단을 구글번역기가 번역한 화면. - 구글 제공

 

사실 필자는 지난 연말부터 ‘The Lagoon(석호)’이라는, 과학자(동물학자)로서 아리스토텔레스를 조명한 책을 번역하고 있는데 꽤 애를 먹고 있다. 그리스 철학에 신화, 지리, 역사, 동물학, 거기에 그리스어까지 너무 복잡하고 난해해 진도가 안 나간다. 그래서 번역기 성능이 급신장했다는 뉴스를 접하고 ‘반칙’을 해보기로 했다. 일단 구글번역기로 돌린 뒤 문장을 다듬고 오역된 부분은 고치는 식으로 일을 하면 시간을 대폭 줄일 수 있지 않을까.

 

잔뜩 기대를 하고(설사 번역이 너무 완벽해 조만간 일감을 잃을 게 확실해지더라도 어차피 부업이다! 물론 나중엔 인공지능이 과학에세이도 쓸 날이 올지 모르겠지만.) 한 문단을 긁어 넣고 클릭을 했다. 아래는 원문, 번역기 번역, 필자 번역(물론 번역기를 돌리기 전에 번역한 것이다)의 순서다.

 

The fishes of Lesbos breed in the Lagoon at Pyrrha. Some of the fishes – mostly the egg-laying ones – are best eaten in early summer; others – the grey mullet and the cartilaginous fishes – are best in autumn. In winter the Lagoon is colder than the open sea so most of its fish, but not the giant goby, swim out of the lagoon only to return in the summer. The white goby is not a marine fish but is also found there. The absence of fish in winter means that edible sea urchins of the strait have more food - which is why they are then particularly rich in eggs and good to eat, although small. (원문)

 

레스보스의 물고기는 Pyrrha의 Lagoon에서 번식합니다. 초여름에 가장 많이 먹는 물고기들 - 주로 달걀을 낳는 물고기들 -; 회색 숭어와 연골 어류는 가을에 가장 좋습니다. 겨울에는 연못이 바다보다 차갑습니다. 따라서 거대한 멍청이가 아닌 물고기의 대부분이 여름에 돌아오기 위해 석호에서 수영을 합니다. 흰 꼬리는 해양 물고기는 아니지만 거기에서도 발견됩니다. 겨울에는 어류가 없으므로 해협의 식용 성게가 더 많은 음식을 먹는다는 것을 의미합니다. 따라서 작은 계란 임에도 불구하고 특히 계란이 풍부하고 먹기 좋은 음식입니다. (구글번역기)

 

레스보스의 물고기들은 피라의 석호에서 번식을 한다. 이들 물고기 가운데 몇몇은-대부분 알을 낳는다- 초여름에 가장 맛있다. 다른 종류-회색숭어(grey mullet)와 연골 어류-는 가을이 최고다. 겨울에 석호는 외해보다 물이 차기 때문에 큰망둥이(giant goby)를 제외한 대부분은 헤엄쳐 떠나고 여름에나 돌아온다. 흰망둥이(white goby)는 바닷물고기가 아님에도 석호에 살고 있다. 겨울에 물고기가 없다는 건 해협의 식용 성게가 먹을 게 더 많다는 뜻이고 따라서 작아도 특히 알이 꽉 차 맛이 일품이다. (필자)

 

결과는 기대 이상임에도 아직은 좀 그렇다. 구글번역기가 내놓은 걸 다듬는 식으로 일하기는 어렵겠지만 필자가 번역한 걸 번역기가 번역한 것과 비교하면 오역 여부를 확인하거나 때로는 더 나은 번역어 또는 표현을 발견할 수 있을 것 같기도 하다. 아무튼 앞으로 어떻게 될지가 더 기대된다.

 

‘과학동아’ 1월호에는 최근 바뀐 번역기 작동원리를 설명하는 기사가 실렸는데 꽤 흥미롭다. 이전의 구문기반기계번역(PBMT)에서 신경망기계번역(NMT)로 진화했다는 게 골자로 번역 단위가 구문에서 문장으로 바뀌면서 번역의 질이 확 높아졌다는 것이다. 그 결과 번역오류가 55~85%나 줄어들었다.

 

NMT는 각 단어에 벡터값을 부여해 마땅한 번역어가 없을 경우 가장 유사한 단어, 즉 벡터값이 비슷한 단어의 번역어를 제시한다고 한다. 그럼에도 사용빈도가 극히 낮은 단어나 필자가 번역하고 있는 책처럼 문장이 좀 복잡한 글은 제대로 번역하지 못한다고 한다. 위의 문장을 봐도 고유명사 번역과 맥락에 맞는 적절한 번역어 선택에 아직은 문제가 좀 있고 문장도 어색하다.

 

결국 번역기의 알고리듬이 획기적으로 개선됐다고는 하지만 적어도 영어 한국어 사이에서는 아직 제한된 범위의 어휘와 문법으로 구성된, 즉 쉬운 문장에 한해 읽을 만한 수준으로 번역할 수 있다는 말이다. 바꿔 말하면 번역가 역시 죽죽 진도를 뺄 수 있는 ‘예측 가능한’ 문장들이란 얘기다.

 

1948년 미국의 수학자 클로드 섀넌은 학술지 ‘벨시스템 기술저널’ 7월호와 10월호에 ‘통신의 수학적 이론(A mathematical theory of communication)’이라는 제목의 꽤 긴 논문을 나눠 발표했다. 이듬해 록펠러재단의 수학자 워런 위버의 해설을 더해 같은 제목의 책(앞의 부정관사 ‘a’만 정관사 ‘the’로 바뀌었다)으로 출판했는데, 오늘날 정보이론의 바이블로 여겨진다. 섀넌은 이 책에서 “정보는 불확실성과 밀접하게 연관되어 있다”며 “정보는 의외성을 내포한다”고 주장했다.

 

 

미국의 천재 수학자 클로드 섀넌은 32세 때인 1948년 ‘통신의 수학적 이론’이라는 기념비적인 논문을 발표했다. 섀넌은 논문에서 정보가 불확실성의 척도라고 주장했다. 즉 불확실성이 클수록, 즉 예측 가능성이 낮을수록 더 많은 정보를 뜻한다. - 위키피디아 제공
미국의 천재 수학자 클로드 섀넌은 32세 때인 1948년 ‘통신의 수학적 이론’이라는 기념비적인 논문을 발표했다. 섀넌은 논문에서 정보가 불확실성의 척도라고 주장했다. 즉 불확실성이 클수록, 즉 예측 가능성이 낮을수록 더 많은 정보를 뜻한다. - 위키피디아 제공

섀넌은 정보의 질과 관련해 ‘잉여성’이라는 개념을 고안했는데 잉여성이 클수록 정보로서의 가치가 떨어진다. 예를 들어 영어단어에서 ‘q’ 뒤에는 거의 ‘u’가 온다(카타르(Qatar) 같은 드문 예외가 있을 뿐이다). 따라서 ‘q’ 뒤의 ‘u’는 정보에 기여하는 바가 없다. 즉 잉여성이 높다. 섀넌은 영어의 잉여성이 50% 정도 될 것으로 추정했다. 즉 텍스트의 길이를 절반으로 줄여도 정보를 잃지 않는다는 말이다.

 

섀넌에 따르면 지금 필자가 번역에 고생하고 있는 건 이 책의 잉여성이 상당히 낮기 때문이다. 바꿔 말하면 ‘정보밀도’가 높다는 말이다. 즉 다음 단어, 다음 문장이 대부분 예측하지 못한 것들이기 때문에 필자는 그 의미를 파악하기 위해 머리를 굴리고 여기저기를 뒤지다보니 속도가 영 나지 않는 것이다. 즉 작업량(속도)과 정보밀도는 반비례관계이기 때문에 정보밀도가 높은 책은 번역료를 더 받아야 한다는 말이다. 물론 그렇게 해줄 출판사는 없겠지만.

 

● 여성이 남성보다 전달하는 정보량은 적어

 

학술지 ‘인지(Cognition)’ 3월호(온라인에 미리 공개)에는 발화(發話) 속도, 즉 말 빠르기와 말이 담고 있는 정보밀도가 반비례 관계라는 내용을 담은 논문이 실렸다. ‘말이 많으면 쓸 말이 적다’는 우리 속담이 사실이라는 얘기다.
 
미국 브라운대 유리엘 코헨 프리바 교수는 섀넌의 정보이론에 기반해 대화과정에서 소화할 수 있는 정보의 양(섀넌의 용어를 빌면 채널용량)이 일정하다면 말이 빠른 사람은 정보밀도가 떨어져야 한다고 추측했다. 즉 말이 빠른 사람은 쉬운 단어와 구조가 단순한 문장을 주로 쓴다는 것이다. 담고 있는 내용 또한 세상에 대한 지식을 더하는데 기여하는 바가 적다.

 

예를 들어 ‘개가 사람을 문다’라는 말은 정보가 적은 문장이다. 따라서 빨리 말해도 알아듣는데 지장이 없다. 반면 ‘사람이 개를 문다’라는 말은 예측하기 어려운 놀라운 일이기 때문에 고급정보다. 만일 지나가는 말처럼 빨리 말한다면 많은 사람들이 ‘내가 잘못 들었나...’ 할 것이다. 한편 ‘개가 인간을 문다’는 표현은 ‘개가 사람을 문다’와 같은 뜻이지만 이런 맥락에서 ‘인간’이란 단어를 ‘사람’보다 잘 안 쓰이기 때문에 정보가 더 많다. 다음으로 ‘사람이 개에 물렸다’ 역시 ‘개가 사람을 문다’와 같은 뜻이지만 수동태이기 때문에 문법상 좀 더 정보가 많다.

 

최근 연구결과 말을 빨리할수록 담고 있는 정보의 밀도가 떨어진다는 연구결과가 나왔다. 이는 사람들이 처리할 수 있는 정보의 양이 정해져 있기 때문이다. - GIB 제공
최근 연구결과 말을 빨리할수록 담고 있는 정보의 밀도가 떨어진다는 연구결과가 나왔다. 이는 사람들이 처리할 수 있는 정보의 양이 정해져 있기 때문이다. - GIB 제공

코헨 프리바 박사는 2400여 건의 전화통화를 담은 데이터를 분석해 어휘와 문법의 정보밀도와 발화속도의 관계를 분석했다. 그 결과 대화에서 잘 안 쓰는 단어의 빈도가 높을수록 발화속도가 느린 것으로 나타났다. 이런 경향은 주로 남성과 나이 든 사람에서 두드러졌다.

 

한편 대화의 문장에서 수동태의 비율이 높을수록 역시 발화속도가 느렸다. 이런 경향은 남성에서 높았다. 우리 주변을 보면 대체로 여성이 남성에 비해 말을 빨리하는 것으로 여겨지는데 이번 연구에 따르면 그만큼 정보밀도도 떨어지는 셈이다.

 

발화속도와 정보밀도가 이처럼 반비례관계인 것은 우리 뇌에서 정보를 만들어내는 용량이 정해져 있기 때문으로 보인다. 즉 풍부한 어휘와 복잡한 문법을 구사하려면 뇌에서 문장을 만드는데 그만큼 시간이 걸리기 때문에 속사포처럼 말을 할 수가 없다는 것이다. 그리고 말을 듣는 사람의 입장에서도 짧은 시간에 과도한 정보가 들어오면 소화할 수가 없다. 중요한 말을 하기 전에 한 템포 쉬면서 주의를 환기시키는 이유다.

 

한편 발화 속도가 같을 경우도 남성이 여성보다 정보밀도가 높았다. 이에 대해 코헨 프리바 교수는 “여성이 남성에 비해 정보전달 능력이 떨어지는 게 아니라 듣는 사람을 좀 더 배려하기 때문”이라고 해석했다.

 

그나저나 알파고 수준의 번역기는 언제쯤 나올까.

 

 

※ 필자소개
강석기. 서울대 화학과와 동대학원을 졸업했다. LG생활건강연구소에서 연구원으로 근무했으며, 2000년부터 2012년까지 동아사이언스에서 기자로 일했다. 2012년 9월부터 프리랜서 작가로 지내고 있다. 지은 책으로 『강석기의 과학카페』(1~4권, 2012~2015),『늑대는 어떻게 개가 되었나』(2014)가 있고, 옮긴 책으로 『반물질』(2013), 『가슴이야기』(2014)가 있다.

 

메일로 더 많은 기사를 받아보세요!

관련기사

인기기사

댓글

댓글쓰기

지금
이기사
관련 태그 뉴스