애플의 ‘시리’ 넘어선 3세대 음성인식 서비스

2016.02.19 07:00
고한석 고려대 전기전자전파공학부 교수팀이 음성인식로봇
고한석 고려대 전기전자전파공학부 교수팀이 음성인식로봇 '쿠봇(KUBOT)'의 동작상태를 확인하고 있다. - 고려대 지능신호처리연구실(ISPL) 제공

“새로 온 e메일 좀 확인해줘.”(연구원)

“한 통이 있습니다.”(로봇)


고려대 전기전자전파공학부의 한 연구실. 키 160cm인 로봇 ‘쿠봇(KUBOT)’이 연구원과 한창 대화 중이다. 쿠봇의 ‘개인기’는 음성인식 기술. 말할 때마다 입술을 움직이고, 배에 붙어 있는 디스플레이에는 이 말이 글자로 찍힌다.

 

고한석 교수는 “사람처럼 핵심 단어 2, 3개를 인식해 전체 내용을 추론한다”며 “이전 대화를 기억해 다음에 어떤 얘기를 할지 스스로 판단하는 3세대 음성인식 기능을 넣었다”고 말했다.


● 애플의 ‘시리’는 2세대 음성인식


최근 음성인식 기술이 진화를 거듭하고 있다. 컴퓨터가 사람의 목소리를 알아듣는 음성인식 기술은 1950년대 벨연구소에서 처음 시작됐다. 당시에는 단어만 알아듣는 매우 초보적인 수준으로 학계에서는 이를 음성인식 기술의 1세대로 부른다. 애플의 비서 서비스인 ‘시리’나 삼성의 ‘S보이스’ 등 스마트폰에 적용된 음성인식 기능은 2세대에 해당한다. 문장을 알아듣고 간단한 대답을 내놓는 수준이다.


학계에서는 3세대 음성인식 기술 연구가 한창이다. 퀴즈 대회에서 인간을 누르고 우승한 전력이 있는 미국 IBM의 인공지능 소프트웨어인 ‘왓슨’은 음성인식 기술에서는 현재 세계 최고로 평가받는다.


2015년 두 사람의 통화 내용을 왓슨에게 들려주고 이를 글로 옮기게 하자 92%가량 인식하는 데 성공했다. 이는 인간의 인식률(96%)과 큰 차이가 없다. 왓슨은 발음이 같은 ‘new’(새로운)와 ‘knew’(알았다)를 문맥에 따라 정확하게 짚어냈다.


일본 소프트뱅크는 2014년 대화가 70~80% 가능한 로봇 ‘페퍼’를 개발한 뒤 여기에 왓슨을 적용해 대화를 할 수 있을 뿐만 아니라 상대방의 감정을 학습한 뒤 자신의 감정도 표현할 수 있는 수준으로 발전시켰다. 페퍼는 지난해 일본에서 서비스 로봇으로 판매되면서 인기를 끌고 있다.

 

 

● 대화 가능한 3세대 음성인식 개발 활발


3세대 음성인식 기술의 핵심은 상대방과 대화를 계속 이어나가는 것이다. 이를 위해서는 ‘음…’처럼 상대방이 말하는 도중 잠깐 쉬어가는 구간을 인지하고, ‘쑤시다’ ‘저리다’ 등 관용적인 표현을 ‘아프다’로 이해하는 등 인공지능형 기술이 필요하다.


기본기도 탄탄해야 한다. 특히 목소리가 주변 소음과 섞여 있을 때 목소리만 추출해 인식하는 음 분리 기술이 뛰어날수록 인식률도 높다. 고 교수는 최근 ‘빔 포밍(Beam Forming)’ 기술을 개발해 이 문제를 해결했다. 로봇에 마이크 4개를 설치해 여러 각도에서 소리를 저장한 뒤 이 가운데 주변 소음이 가장 적은 깨끗한 소리를 골라낸다. 또 마이크를 이용해 상대방까지의 거리와 방향을 인식해 목소리가 들리는 지점에 집중하도록 했다.


고 교수는 “쿠봇의 경우 날씨, 시간, 실시간 검색어 등 간단한 주제에 대해서는 사람의 질문에 무한히 대화를 이어갈 수 있는 수준”이라며 “여러 사람이 동시에 말을 걸 때 우선순위를 정하는 기술 등을 추가해 향후 병원, 공공기관 등에서 길안내를 할 수 있도록 개발할 계획”이라고 말했다.


이윤근 한국전자통신연구원(ETRI) 자동통역언어지능연구부장은 “최근 3세대 음성인식 기술은 인공지능과 결합해 로봇이 상대방에게 질문을 하는 등 공감 기능이 강조되고 있다”며 “수년 내 엉뚱한 질문에도 자연스럽게 대답할 수 있는 음성인식 엔진이 등장할 것”이라고 말했다.

 

 

메일로 더 많은 기사를 받아보세요!

댓글 0

작성하기

    의견쓰기 폼
    0/150