[테크놀로지와 저널리즘] 구글의 검색 엔진, 어떻게 작동할까?

2016.09.06 10:00

 

구글 제공
구글 제공

세계 최대 인터넷 검색 서비스 기업인 구글은 “Google이 발견한 10가지 진실”이라는 제목으로 자신들의 경영 철학을 밝히고 있다.

 

10가지 중 세 번째는 “느린 것보다 빠른 것이 낫습니다”로, 검색 서비스와 관련한 구글의 목적을 보여준다. 내용을 자세히 보면 “구글은 시간의 소중함을 알기에 웹에서 정보를 검색할 때 원하는 결과를 곧바로 제공해 드리기 위해 최선을 다하고 있습니다. 그 결과 검색결과에 대한 평균 응답 시간이 1초도 걸리지 않습니다”로 구글 검색의 목적이 무엇보다 빠른 속도에 있음을 밝히고 있다.

 

●구글봇 통한 문서 수집과 우선순위 책정 

 

구글은 빠른 검색을 위해 가장 먼저 ‘구글봇’이라 불리는 문서 수집기(web crawler)를 통해 인터넷상의 수많은 웹사이트들의 링크를 따라 다니면서 문서를 수집한다. 문서가 수집되면 문서 제목, 페이지 내용, 목차, 기타 등등으로 영역을 나누어 추출하고 분석한 뒤, 검색어가 들어올 것에 대비해 이 데이터들을 검색 DB에 적절히 색인한다. 구글에 따르면, 현재 구글의 문서 색인 규모는 10억 기가바이트(GB)를 넘었고, 이를 구축하는데 소요된 시간만 100만 컴퓨팅 시간이다.(☞ 관련내용)

  

다음 절차는 이렇게 수집한 문서를 빠르게 순위화해 제시하는 것이다. 이용자의 검색어에 따라 가장 적절한 문서를 찾는 작업이다. 수많은 문서들이 있기 때문에 가장 적절한 문서를 사람이 찾는다는 것은 불가능하다. 구글은 검색결과 순위화를 위해 기계적인 알고리즘을 개발해 적용하고 있다. 구글은 검색에 있어서 “직접 조치보다 알고리즘 이용”을 강조한다. (☞ 관련내용 )

 

구글은 “직접 조직한 정보보다 기계 솔루션을 선호”한다면서, “알고리즘은 확장이 가능하기 때문에 기능을 개선하는 경우 한 개가 아닌 수많은 검색결과 페이지가 개선된다”는 이유를 제시한다. 현재 구글 알고리즘은 웹사이트 약관, 콘텐츠 날짜, 위치, 페이지랭크 등 200개 이상의 요인을 적용해 이용자가 원하는 것을 순위화해 제공하고 있다.(☞ 관련내용)

 

구글 제공
구글 제공

●우순 순위 배정 방식은?

 

문제는 이 200여 개가 무엇이며 어떤 가중치를 적용 받아 어떤 방식으로 작동되고 있는지를 전혀 모른다는 점이다. 기계가 처리하고 있으니 사람이 하는 것보다는 문제가 없을 것이라는 주장만 존재한다.

 

게다가 알고리즘에 수많은 요인들이 복잡하게 적용되면서 구글 내에서도 시스템 작동을 완전하게 아는 개발자는 드물 정도다. 물론, 자세한 알고리즘의 작동방식을 구글이 공개한다고 해도 큰 효과는 없다. 실시간으로 요인을 수집해 복잡한 수식을 적용해 작동하고 있는 가운데 이용자의 반응에 따라 알고리즘의 작동 방식도 순식간에 변하기 때문이다. 구글이 직접 밝힌 바에 의하면, 구글은 지난 2011년에만 538개의 검색 기능을 개선한 바 있다.

 

사실 알고리즘은 기업의 영업 노하우에 속해 지적재산권으로 보호받는다. 또한, 내부의 작동 방식을 자세히 공개할 경우 ‘어뷰징’과 같은 기계적인 다량 문서 생산에 이용될 수 있다. 하지만, 검색 엔진이 제시하는 정보의 순위가 기존의 어떤 미디어 메시지보다 강력한 영향력을 행사하고 있다 보니, 알고리즘 요인을 분석하려는 시도는 상업적 목적이든 기술 연구 목적이든 다양하게 이루어지고 있다.

 

●백링코가 분석한 구글의 검색 알고리즘

 

구글의 검색 알고리즘에 적용되고 있는 200여 개 요인에 대한 분석도 당연히 진행되고 있다. 어쨌든 공개된 자료들을 바탕으로 가능한 알고리즘의 작동 요인을 추론하는 것이다. 이와 관련해 ‘백링코(Backlinko)’라는 한 디지털마케팅 컨설팅 회사는 구글의 검색 알고리즘의 전체 요인 205개를 분석했다고 주장하고 그 내용을 게재해 오고 있다.(☞ 관련내용)

 

물론, 이 내용 중 일부는 확인된 것이고 일부는 추정한 것으로 공개된 자료를 바탕으로 대략 이러할 것이라고 분석한 것이다. 또한, 이 요인들이 각각 어떻게 적용되고 있는지, 개별 가중치는 어떠한지와 관련한 구체적 내용은 없다.

 

정확한 것은 아니지만, 구글의 검색 알고리즘이 어떻게 작동하고 있는지를 유추해 볼 수 있는 내용을 다수 포함하고 있어 그 내용을 구체적으로 소개해 본다(※ 이 글에 담기에는 너무 길기 때문에 필자가 임시로 만든 블로그에 내용을 담았다. 전문을 보시려면 ‘여기’를 클릭하세요!). 단, 이 추정은 2016년 4월 12일 기준이다.

 

너무 길고 또 확실한 것도 아니지만, 205가지의 요인들을 하나씩 짚어본 것은 과연 이러한 요인들이 검색 결과 순위를 결정하는 중요한 요인이 될 수 있을까라는 의문 때문이다.

 

205가지 요인들을 보면 대체적으로 다음과 같이 요약해 볼 수 있다.

 

첫째, 구글은 쉽게 숫자화할 수 있는 요인: 도메인 연령, 문서 길이, 사이트 가동시간 등

둘째, 외부의 평가를 받을 수 있는 요인: 후이즈 등록 여부, 외부 리뷰 사이트 평가, 위키피디아, 소셜 공유량 등

셋째, 링크하는 문서에 대한 계량화: 백링크의 수, 인링크의 수, 키워드의 수 등

넷째, 이용자 반응: 클릭율, 이탈율, 체류시간 등

다섯째, 기계적으로 다량 생산된 어뷰징 문서 판단: 펭귄 알고리즘 등

섯째, 자사 서비스에 대한 약간의 우대: 유투브, 구글 플러스, 크롬 등 (물론 구글은 공식적으로 확인해 주지 않음)
 

이를 좀 더 살펴보면, 구글이 검색 문서의 품질을 자체적으로 판단하는 부분은 거의 없음을 알 수 있다. 어떤 문서가 결과에서 상위에서 위치할 만큼 품질이 좋다고 판단하는데 있어서 구글이 직접 측정하는 것은 없다.

 

그 품질이 좋다는 판단은 거의 대부분 이용자 혹은 외부의 다른 서비스에 의존하고 있다. 해당 페이지를 참조하는 링크의 수가 핵심인 페이지랭크도 해당 문서의 품질을 직접 측정하는 것이 아니라 다른 사이트의 평가를 구글이 수집하는 수단일 뿐이다.

 

구글이 문서 품질을 직접 측정하는 것은 펭귄 알고리즘 등에 의한 어뷰징 즉, 품질이 나쁜 것에 대해서만 평가하고 있음을 알 수 있다. 물론, 구글이 자사 서비스에 대해 약간의 가중치를 더해 주고 있다고 합리적으로 의심할 수는 있다.

 

요약하면, 구글은 검색 결과 상위에 배치되는 품질 좋은 문서를 직접 찾기 보다는 구글이 아닌 다른 곳의 평가를 빌어 배치하는 방식을 채택하고 있다. 이를 위해 205가지나 되는 요인들(물론, 더 있을 수 있고 더 적을 수 있다)을 기계적 신호로 전환해 복합적으로 적용한다. 구글의 검색 결과지만 구글은 사실 왜 이런 결과가 나오는지 이해하지 못한다. 문서의 품질을 직접 측정한 것이 아니기 때문이다.

 

GIB 제공
GIB 제공

●뉴스 배열에도 이 같은 요인 적용

 

검색 결과뿐만이 아니다. 구글은 수집한 뉴스를 배열하기 위해서도 이러한 요인들을 적용하고 있다.

 

구글은 특허를 통해 뉴스 기사 순위 책정을 위해 적용하고 있는 13가지 요인을 밝히고 있는데, 여기에서도 뉴스 기사의 내용을 직접 평가하기 보다는 숫자화할 수 있는 다양한 요인과 외부와 이용자 평가에 의존하고 있음을 알 수 있다. 구글은 검색 결과와 마찬가지로 뉴스 기사의 품질을 직접 측정하지 않고 있다. 물론, 이 13가지 외에도 검색결과 순위 결정요인 205가지가 다양한 방식으로 적용되고 있다.

 

빠르고 효율적인 검색 결과를 제공하기 위해 이렇듯 다양한 기계적 신호를 활용하는 것은 구글의 이용자 수가 보여주듯이 굉장히 성공적이다. 하지만, 빠름이 우선시되고 검색 문서와 뉴스 기사의 품질을 직접 측정하지 않고 외부와 이용자의 신호로만 측정하게 되면서 발생하는 문제들도 존재한다.

 

대표적 사례가 유나이티드 항공 주가 폭락 사건이다. 지난 2008년 유나이티드의 모회사인 유나이티드 콘티넨털 홀딩스의 나스닥 주가가 5분 만에 급락하는 일이 발생했는데 이는 유나이티드 항공이 파산보호를 신청했다는 블룸버그 통신사의 보도 때문이었다.

 

이러한 보도는 나중에 잘못된 것으로 드러났는데, 2003년에 작성된 파산보호 신청 기사를 구글이 2008년 최신 기사라고 검색결과를 제공했기 때문에 발생한 일이었다. 최근 페이스북이 트렌딩 토픽의 편집을 사람이 아닌 알고리즘에 전적으로 맡기면서 발생한 문제도 이와 같은 맥락이다.

 

지난 8월 29일, 페이스북 웹페이지 우측 상단 트렌딩 토픽 코너에 ‘메긴 켈리’라는 폭스 뉴스 아나운서 이름이 올라왔는데, 이를 클릭하면‘폭스 뉴스가 힐러리를 지지한 배신자 메긴 켈리를 쫓아냈다고 폭로했다’는 제목의 기사가 표시됐다. 하지만, 해당 기사는 오보였다. 페이스북은 즉각 사과하고 관련한 부분은 수정했지만, 메긴 켈리의 훼손된 명예는 책임지지 못했다. 페이스북도 구글처럼 이용자 반응, 외부 평가 등 수많은 요인을 활용해 트렌딩 토픽을 선정했다.

 

구글은 어떤 문서의 진위나 품질을 직접 측정하기 보다는 이렇듯 수많은 요인을 활용하고 있다. 물론, 그 성과는 사실 뛰어나다. 수천 억 개의 문서들 속에서 관련 있고 비교적 괜찮은 문서를 뽑아내는 데에 구글의 측정 방식이 굉장히 효율적임을 우리는 익히 알고 있다.

 

하지만, 그 측정은 직접보다는 간접적 방식이기 때문에 완전할 수는 없다. 또한, 간접 방식이기에 측정 과정에서 예기치 못한 오류의 발생 가능성도 크다. 알고리즘에게 모든 것을 맡기는 것이 구글이 최종 목표이겠지만, 아직은 완전하지 않다. 그리고 그 목표는 사실 달성 불가능할 수도 있다. 어떤 문서가 좋고 나쁘고의 영역은 사실 사람의 주관에 따라 다르기 때문이다.

 

구글은 가능한 주관을 배제해 주관의 영역을 평가하려고 하지만, 어떤 사람의 주관을 수학적 공식으로 규명할 수는 없다. 구글이 공식적으로 확인하지는 않았지만, 구글의 특허를 보면 인간 편집자(human editor)들이 최종 검색 엔진 결과 페이지(Search engine results page)에 영향을 미치도록 하고 있는 이유일 것이다. 기계는 사람과 협력해야 한다.

  

※ 필자소개
오세욱. 학부에서 동양사를 전공하고 언론정보학으로 박사학위를 받았다. 미디어와 관련한 여러 곳의 회사를 다닌 후에 현재는 한국언론진흥재단 미디어연구센터 연구위원으로 재직 중이다. 미디어로서 소프트웨어에 대해 관심을 갖고 연구를 진행 중이다.

메일로 더 많은 기사를 받아보세요!

댓글 0

작성하기

    의견쓰기 폼
    0/150