구글이 말하는 ‘기계 속 마술, 머신러닝’의 모든 것!

2015년 11월 17일 17:16

세상이 온통 ‘머신러닝’ 이야기입니다. 특히 올해 10월30일 알파벳(전 구글)의 에릭 슈미트 회장이 한국을 찾아 세상을 바꿀 다음 기술로 머신러닝을 꼽은 뒤로 이 기술은 대중적인 관심까지 얻고 있습니다.

 

머신러닝이라는 건 과연 뭘까요? 어디까지 머신러닝이라고 봐야 할까요? 일단 우리가 생각하는 머신러닝의 기본부터 되돌아봅시다. 말 그대로 기기(machine)가 학습하는(learning) 기술을 말합니다. 수많은 데이터를 수집하고 이를 기반으로 통찰력을 갖는 겁니다. 인공지능을 만들어가는 하나의 방법이기도 합니다.

 

구글은 머신러닝이라는 개념에 가장 가까이 다가간 기업입니다. 머신러닝이라는 말이 익숙해지기 훨씬 전부터 구글은 검색과 서비스를 통해 데이터를 수집해 왔고, 그 정보를 분석해서 다시 개개인에 맞춘 서비스를 제공해 왔습니다.

 

구글은 11월10일 아시아 지역 기자들을 일본 도쿄로 초청해 구글의 머신러닝에 대해 설명했습니다. 제목부터 ‘기계 속 마술(The Magic in the Machine)’입니다. 강렬한 제목이지요.

 

구글은 11월10일 아시아 지역 기자들을 일본 도쿄로 초청해 구글의 머신러닝에 대해 설명했다. - 최호섭 제공
구글은 11월10일 아시아 지역 기자들을 일본 도쿄로 초청해 구글의 머신러닝에 대해 설명했다. - 최호섭 제공

 ●특징1, 단순한 반복을 기계가 대신

 

구글 제공
구글 제공

구글이 이야기하는 머신러닝은 의외로 단순합니다. “반복적이고 단순한 작업을 기기가 대신하는 것”을 구글의 머신러닝이 가고자 하는 역할로 꼽았습니다. 그리고 결코 마술이 아니라는 이야기도 덧붙입니다.

 

예를 들어 ‘2년 전, 공원에서 찍었던 강아지 사진’을 찾는다고 하면 사진첩을 뒤지고 사진을 하나하나 보던 것을 단숨에 찾을 수 있도록 기기가 대신해서 사진을 정리해준다는 겁니다. 마술처럼 보일 뿐이지요.

 

네! 구글이 이날 행사에서 보여주려고 했던 머신러닝의 대표는 사진, 즉 ‘구글포토’였습니다. 구글포토는 1600만 화소 이내의 사진에 대해 무제한으로 보관할 수 있는 사진 서비스로 많이 알고 계시죠.

 

사실 조금 더 깊이 들어가면 기존 사진 서비스와 조금 다릅니다. 이 서비스를 써보면 아시겠지만 시키지 않아도 사진들을 몇 가지 주제로 묶어줍니다. 사진을 자주 찍는 장소, 혹은 자동차나 음식 같은 사물, 그리고 사진에 나온 주인공이 주로 묶이는 주제입니다.

 

그런데 묶인 것이 전부가 아닙니다. 검색창에 ‘강아지’를 치면 강아지가 나온 사진을 보여줍니다. 더 나아가서 ‘프렌치 불독’같은 단어를 입력해도 구분해 줍니다. 사람 역시 남자, 여자, 아기를 구분하고, 묶인 사진에 대해 이름을 입력하면 그 사람에 대한 사진을 찾거나 모아서 볼 수 있습니다.

 

이런 이미지 분석에 이용자가 하는 일은 아무 것도 없습니다. 구글도 사진에 대해 직접적으로 뭘 만지지 않습니다. 다만 구글포토 서비스에 들어간 머신러닝 기술이 오랜 경험에 의해서 사진을 알아보기 시작한 겁니다. 마치 사람이 눈과 두뇌로 사진의 내용을 읽어내듯 구글포토 역시 사진 파일과 머신러닝으로 사진의 맥락을 이해하는 겁니다. 이걸 ‘컴퓨터 비전’이라고 부릅니다.

 

왜 머신러닝이라고 할까요? 사진의 정확도는 구글이 직접 정한 규칙이나 프로그램대로 정해지지 않습니다. 구글에 올라오는, 혹은 인터넷에 올라와 있는 많은 사진들을 기반으로 사람들이 ‘이건 고양이 사진이야’, ‘이건 에펠탑이야’라고 말하는 것을 기계가 경험에 따라 조금씩 이해하게 되는 겁니다.

 

자연스럽게 더 많은 사진을 볼 수록 이후에 보는 사진을 더 정확히 이해할 수 있게 됩니다. 밤과 낮, 맑은 날과 밤, 여름과 겨울처럼 같은 사물이라도 다르게 보일 수 있는 주변 환경은 많지만 이 역시 머신러닝으로 가다듬어지게 됩니다.

 

구글에서 머신러닝을 맡고 있는 그렉 코라도 선임 연구원은 기계가 학습하는 건 사람과 달리 시간이 꽤 오래 걸린다고 합니다. 실수와 교정의 반복이 정확한 데이터를 만들어내는 유일한 방법이기 때문입니다.

 

최호섭 제공
구글 측이 구글포토가 어떻게 사진 속의 지명과 건물 등을 인식하는지 설명하고 있다. 최호섭 제공

 ● 특징2, 모을 수 있는 데이터는 모두 ‘정보’

 

구글이 사진을 분석하기 위해 정보를 만들어내는 과정은 매우 복잡합니다. 먼저 기본적으로 사진에서 얻을 수 있는 촬영 시간, 위치 정보 등 메타 정보를 모읍니다. 이건 이전에도 있던 겁니다. 머신러닝의 시작은 이 다음 단계부터입니다.

 

일단 사진을 찍은 위치를 파악하는 과정이 중요합니다. 메타 정보에 GPS가 있다면 간단하지만 그렇지 않다면 컴퓨터 비전 기술을 이용합니다.

 

에펠탑의 예를 들어볼까요? 에펠탑의 모양은 변하지 않습니다. 기본적인 특징과 윤곽이 있기 때문에 수많은 사진 정보로 기계가 에펠탑의 모양을 익히는 건 어렵지 않다고 합니다. 마찬가지로 주요 건축물이나 고정적인 형상들을 읽어들여 사진을 촬영한 장소가 파리인지, 서울인지, 샌프란시스코인지를 알아낼 수 있는 기술이 현재 구글포토에 들어가 있습니다.

 

심지어 시간대에 맞춰 도시를 재구성하기도 합니다. 스티브 자이츠 구글 테크니컬 리드는 트레비 분수를 중심으로 사람들이 촬영해 인터넷에 올린 사진들을 모아 분수 주변의 사진을 3D 모델로 만들어낸 사례를 설명했습니다. 3D 이미지라는 것이 결국 여러 각도에서 찍어서 물체의 입체적인 형상과 원근을 정보로 만든 것인데 인터넷에는 주요 관광지의 사진이 적어도 수천만 장은 공개되어 있습니다. 정보를 모으는 건 어렵지 않지요. 심지어 미국 라스베이거스의 사진을 시간대별로 모아 1968년과 2003년의 도시 이미지를 3D 형상화하기도 했습니다.

 

하지만 인터넷에서 가장 인기 있는 고양이 사진은 어떨까요? 우리는 사진을 보면 고양이라는 것을 단숨에 알아챌 수 있지만 종류, 생김새, 털 색깔, 그리고 자세가 다른 사진을 컴퓨터가 알아낼수 있을까요? 크리스 페리 구글 포토제품 매니저는 인셉션(Inception) 이야기를 꺼냅니다.

 

구글이 이야기하는 인셉션은 신경망처럼 사진을 한 이미지에서 다른 이미지로 연결하는 걸 말합니다. 이게 약간 어려운데, 사람들이 세상을 바라보고, 그 이미지를 우리의 두뇌가 어떻게 이해하는지에 기반을 두고 있습니다. 단순한 뉴런들이 모여 복잡한 사고를 하는 과정을 기계에 형상화한 겁니다.

 

현재 구글포토에는 22개의 뉴로네트워크, 그러니까 레이어(layer)가 있습니다. 이미지는 각각의 레이어를 거치면서 점차 어떤 내용이 담긴 사진인지 드러나게 됩니다. 첫 번째 레이어가 색깔을 인식하고 두 번째 레이어가 선을 인식하고, 세 번째 레이어는 모양을 인식하는 식입니다.

 

각 레이어는 딱 명확하게 갖고 있는 건 아니지만 알고리즘을 넣어가면서 점차 특정 정보에 더 예민하게 반응하게 됩니다. 이런 머신러닝의 기법을 딥러닝(deep learning)이라고 부르기도 합니다.

 

이 인셉션은 애초 이미지를 받아들일 때는 사진에 고양이가 담겨 있다고 바로 알아채지 못하지만 학습 과정을 거치면서 점차 개와 고양이를 구분하고, 남자와 여자를 알아보기 시작합니다. 정말 사람처럼 알아봅니다. 심지어 개를 바라 볼 때도 래브라도인지, 프렌치 불독인지, 슈나우저인지 모두 파악할 수 있습니다. 우리는 그저 검색어에 입력하기만 하면 됩니다.

 

구글포토에서 주제별로 묶은 시드니 풍경 사진 - 최호섭 제공
구글포토에서 '바다'를 키워드로 검색하면 많은 사진 중에 관련 사진을 찾아서 정리해준다.  - 최호섭 제공

 ● 특징3, 틀리고, 엉뚱하게 익히는 것도 과정

 

물론 기계의 판단이 틀릴 수도 있습니다. 구글포토가 한 흑인 여성의 사진을 고릴라로 알아본 적이 있습니다. 굉장히 충격적인 일이었고, 구글도 직접 그 여성을 찾아 사과하고 즉각 데이터를 수정하기도 했습니다. 크리스 페리는 직접 구글포토의 머신러닝을 매만지고 있지만 이 시스템이 무얼 어떻게 얼마나 배울지 알 수 없다고 합니다. 이용자들의 데이터가 기계를 어떻게 학습시킬지에 따라서 결과가 달라지기 때문이지요. 아이들이 무엇인가를 배울 때와 비슷하지 않나요?

 

사실 그게 머신러닝의 무서운 점이자, 기대할 만한 부분이기도 합니다. 사람은 그리 정확한 동물이 아닙니다. 컨디션에 따라 같은 사물을 봐도 정보를 받아들이는 정도에 차이가 납니다. 못 보고 지나치는 것도 많지요. 컴퓨터는 전기와 네트워크만 끊어지지 않는다면 어떤 상황에서도 늘 같은 답을 냅니다. 그리고 지금 이 글을 읽는 동안에도 뭔가를 끊임없이 배우고 있지요.

 

그래서 우리가 쓰는 구글포토는 어떻게 작용할까요? 구글포토에 사진이 등록되어 있다면 앱이나 웹에서 검색 버튼을 한 번 눌러보세요. 일단 ‘사물’과 ‘장소’ 기반으로 분류되어 있을 겁니다. 빈도가 높은 사진에 대해서는 아마 미리 묶어 놓는 겁니다.

 

사실 구글포토를 미국에서 쓴다면 ‘인물’별 구분도 됩니다. 하지만 우리나라에서는 아직 제한되어 있는 기능이긴 합니다. 그리고 검색창에 원하는 검색어를 이것저것 넣어보세요. ‘자동차’ 정도가 아니라 차량의 모델명을 입력하면 그대로 찾아줍니다. 차량 외관만이 아니라 계기판이나 실내 사진도 구분해냅니다. 구글이 입력한 게 아닙니다. 알고리즘에 따라 기계가 스스로 배운 겁니다.

 

더 복잡해 보이는 검색도 됩니다. 크리스 페리는 ‘지난해 아버지와 요세미티 공원(yosemite father last year)’을 대강 입력하고 원하는 사진을 찾아내는 시연을 했습니다. 그러니까 이걸 예전에는 필름 사진으로 찍고 인화해서 사진 뒷면에 날짜와 장소, 누구와 찍었는지를 펜으로 써 두었지요. 그리고 그 사진을 찾으려면 앨범을 다시 뒤지고, 사진을 꺼내 뒷면을 봤습니다.

 

디지털이라고 다를까요? 아무리 정리를 잘 해도 하드디스크의 폴더를 수 십개는 열어봐야 원하는 사진을 찾아낼 겁니다. 그 단순하고 반복적인 작업을 기계에게 맡기는 게 구글이 바라보는 머신러닝입니다.

 

그렇다고 머신러닝이 사람의 두뇌처럼 기대하는 것을 모두 배우고 받아들이는 마술은 아닙니다. 컴퓨터가 어떤 걸 어떻게 배울 수 있는 수 있는지 자체가 지금 이 기술에 계속해서 모든 부분에 생각처럼 먹히는 것도 아닙니다. 다만 구글포토는 과정과 결과 모두 우리가 생각해 오던 머신러닝을 눈으로 보여주는 예라고 보면 좋겠네요.

 

 

※ 필자소개
최호섭. PC사랑을 시작으로 최근 블로터까지 IT 분야만 팠다. 차에서 보내는 시간이 아까워서 들여다보기 시작한 노트북과 팜 파일럿 PDA는 순간이 아니라 인생을 바꿔 놓았다. 기술 하나에 일희일비하지 않고 역사와 흐름을 읽고자 한다. 세상은 늘 배울 게 많고, 기술은 거짓말하지 않는다고 생각한다.

 

 

메일로 더 많은 기사를 받아보세요!

관련기사

인기기사

댓글

댓글쓰기

지금
이기사
관련 태그 뉴스