오리지널 리포팅 우대, 각종 비판에 대한 구글 깅그라스의 응답

[번역자 주] 구글 뉴스랩 티칭 펠로의 입장에서 번역한 것은 아닙니다. 오리지널 리포팅을 우대하는 구글의 알고리즘 변경에 대해 국내외에서 여러 의견들이 쏟아진 것으로 압니다. 그에 대한 구글의 응답이 궁금했고 때마침 그에 대한 자세한 설명이 공개됐기에 개인적 차원에서 번역을 하게 된 것입니다. 이 결정이 알고리즘과 정책이라는 이름으로 집행되기까지 어떤 어려움과 고민이 존재했는지, 그리고 제기되고 있는 문제를 어떤 방식으로 해결하기 위해 노력했는지 광의의 저널리스트로서 그의 답변이 우리들에게도 도움이 된다고 생각했기 때문입니다.

개인적으로 그의 솔직함이 인상적이었습니다. 예를 들면 ‘오리지널 리포팅이 무엇인지 설명할 수 있다는 것은 까다로운 일이다. 그것은 다른 시점에 존재하는 다른 편집자들과 뉴스룸들에게 다른 것을 의미한다. 사람들은 그걸 보면 안다고 하지만 그걸 어떻게 알고리즘으로 번역할 수 있을까?’라는 코멘트에서 그의 본질적 고민이 묻어나기도 했습니다.

그가 정의하는 저널리즘도 매력적이었습니다. 구글에서 뉴스를 총괄하는 당사자로서 그가 내린 명쾌하고 집약적인 저널리즘의 정의는 가치 있는 코멘트라고 생각을 했습니다. 뉴스와 플랫폼의 협업을 고민하는 분들에게, 저널리즘의 가치를 되새겨 보고자 하는 분들에게 도움이 될까 싶어 이렇게 번역을 해봤습니다. * 번역은 정확하지 않을 수 있습니다. 번역 오류가 발견되면 곧바로 댓글을 달아주세요. dangun76@gmail.com으로 메일 보내주셔도 됩니다.

원문 : A closer look at Google’s plan to spotlight ‘original reporting’

GEN: 뉴스 기관들은 그동안 구글 검색 순위의 투명성을 높여달라고 요청해 왔다. 검색 알고리즘을 변경하고 ‘오리지널 리포팅’의 우선순위를 정하는 데 왜 그렇게 오랜 시간이 걸렸을까? 왜 지금 이 변경하기로 결정했나?
리처드 깅그라스 : ‘오리지널 리포팅’에 대한 이해와 인정(acknowledging)은 항상 구글의 최우선 과제였다. 구글에서 10년 동안 뉴스 작업을 하면서 달라진 점은 우리가 그 때보다 더 기술적인 정교함을 가지고 있다는 것이다. 우리는 배운다. 우리는 기자들과 토론한다. 우리는 새로운 모델을 진화시킨다. 우리는 실험하고 테스트한다. 구글 검색이 과거에 했던 모든 변화를 기반으로 하고 있으며 검색은 항상 진행 중인 작업이다.

우리는 세계 최고 수준의 엔지니어들과 세계 각국의 제품 관리자로 채워진 팀들을 보유하고 있다는 행운을 갖고 있다. 그들은 일에 열정적이며 과거에 정의된(defined) 목표, 원칙, 윤리에 반하여 운영한다. 그것은 우리의 순위 판단이 건전하고 방어적이어야 한다는 것을 감안한다면 매우 중요하다. 당신의 뉴스룸과 달리, 우린 그간 다듬어온(honed) 원칙과 윤리에 반하는(against) 일을 한다.

이것은 누군가가 간단히 고칠 수 있는 ‘문제’가 아니라는 것, 즉 사라진 ‘만약, 그렇다면’ 진술이나 꽥꽥거려야 하는 버그에 관한 것이 아니라는 것을 인식하는 것도 중요하다. 우리의 노력은 뉴스 스토리와 시간이 지남에 따라 진화하는 것에 대한 이해를 지속적으로 진전시키고, 그 결과물을 사용하여 지역, 국가, 글로벌 등 거의 실시간으로 사용자들에게 적절히 서비스를 제공하는 것이다.

오리지널 리포팅에 대처하기 위한 첫 번째 단계는 진화하는 이야기 군집(cluster)의 변화를 이해하고 그러한 세부사항의 성격을 이해하는 것이다. 즉, 추가적인 사실에 기반 보도는 무엇인가? 분석? 논평? 새로운 미디어 자산? etc 등 오리지널 리포팅을 나타내는 ‘신호’는 무엇인가? 아니면 오리지널 리포팅의 구성 요소는? 인용문이 몇 개인가 많은가? 그 인용문은 다른 이야기와 차별되거나 중복되는가? 추가적인 ‘사실적’ 정보 및/또는 관련 분석이 있는가? 다른 당사자에게 귀속되는 속성이 있는가?(Are there attributions to other parties?)이러한 신호 중 일부는 반대의 가치를 생성할 수도 있다. 그 속성(attribution)은 다른 뉴스 출처에 대한 승인 또는 지지인가, 아니면 제3자 출처의 보고 오류에 대한 보호인가? 그 중복성(’22명 사망’, ‘충돌 사망 22명’)은 독창성이나 유사-검증(Pseudo-Verification)의 부족인가? 내가 구글에서 한 가지 배운 것은 금처럼 보이는 모든 신호는 바보의 금일 수 있다는 것이다. 아주 까다로운 일이다.

얼마 전에 나는 저널리즘의 위대한 편집자 중 한 명에게 우리가 어떻게 오리지널 리포팅을 확인할 수 있는지 물었다. 그는 ‘우리가 엄청난 돈을 썼던 물건이군’이라고 아주 작은 미소를 지으며 대답했다. 물론 그것은 감지할 수 있는 신호도 품질의 보증도 아니다. 사실, 오리지널 리포팅이 무엇인지 설명할 수 있다는 것은 까다로운 일이다. 그것은 다른 시점에 존재하는 다른 편집자들과 뉴스룸들에게 다른 것을 의미한다. 사람들은 그걸 보면 안다고 하지만 그걸 어떻게 알고리즘으로 번역할 수 있을까?

나는 언론계(journalism community)와 알고리즘 시스템을 관리하고 진화시키는 우리들 사이의 상호 이해의 격차를 좁히고, 성공의 정의를 이해하는데 있어서 델타 값(deltas, 변화량을 의미하는 듯)를 좁히기 위해 이 세부사항에 대해 이야기하려 한다. 편집자의 렌즈는 팀의 위대한 작업물을 충분히 증폭시키는 것이다. 우리의 목표는 사용자들에게 가장 유용하고 좋은 결과를 제공하는 것이다. 그러한 목표들은 근접한 것일 수도 있지만 완전히 겹치는 것은 아니다.

“우리가 임무를 완수했다고 선언하지 않는다는 걸 주목해 달라”

오리지널 리포팅을 인지하는 것(recognizing)과 ‘더 오래 유지되도록 하는 것’은 별개의 것이다. 구글 알고리즘이 어떻게 새로운 이야기들의 끝없는 흐름에 비추어 이것을 보장할 수 있을까?
리처드 깅그라스 : 특히 중요한 오리지널 리포팅 기사(piece)가 확인된 경우, 우리는 그 보고서의 순위를 어떻게 정해야 하는지 결정할 필요가 있다. 맥락은 사람들이 정보에 접근하는 방법에 따라 달라지기에 중요하다. 쿼리 없는 피드 환경(Google News나 Discover 등)과 시기적절한 검색 쿼리(top Stories), 시의적절하지 않은 검색 쿼리(더 오래 된 유기적 결과)에서 매우 다르다. 알림(notification)은 또한 다른 표면이다. 각각은 신선함과 권위성(authoritativeness)의 다양하고 복잡한 변화를 지시한다. 두드러진 위치에 얼마나 오래 표준적으로 머물러 있는가(canonical stays)는 그 이야기(기사)의 시간과 진행에 따라 달라질 것이다. 이야기가 다루고 있는 핵심 주제는 지속적인가, 아니면 다른 사람들의 취재로 떠도는 것인가? 그 이야기는 그 보도가 지지받고 있기 때문에 귀속되는 것인가 혹은 당신이 그것을 의심하고 있기 때문에 귀속되는 것인가?

예를 들어, 검색(특히 ‘top Stories’)에서 확인된 오리지널 리포팅의 인스턴스에 대한 가시성(노출성)과 발견성을 보장하는 방법은 이러한 결과에 대한 ‘신선함’ 요인에 명시적으로 대응하고(더 많은 노출 기한 제공) 페이지 배치 내 가시성을 명시적으로 증가시키는 것이다.(표준적인 랭킹 고려에 기반해 일반적으로 받게 되는 것을 넘어서는 수준).

항상 그렇듯이 우리는 다양한 접근법을 실험하고 평가할 것이다. 하지만 우리의 최근 발표가 또 다른 진전이지만 우리는 임무를 완수했다고 선언하지 않는다는 걸 주목해 달라. 생태계의 지속적인 발전을 고려할 때, 구글 검색의 첫 날부터 그래왔듯이, 우리는 항상 시간을 두고 시스템을 개선하고 발전시킬 필요가 있다.

당신의 블로그 포스트에서 당신은 ‘오리지널 리포팅에 대한 절대적인 정의는 없으며, 주어진 기사가 얼마나 독창적인지를 확립하는 절대적인 기준도 없다’고 지적했다. 새로운 알고리즘은 모호성을 어떻게 다룰 것인가? 그리고 구글의 오리지널 리포팅에 대한 ‘필수’ 기준은 무엇인가?
리처드 깅그라스 : 항상 그렇듯이, 우리는 도움이 될 수 있다고 생각되는 신호들을 탐색하고, 그것들을 테스트하고, 결과를 평가할 것이다. 우리는 그들의 의견을 요청하기 위해 편집자나 언론인들과 많은 토론을 해왔고 앞으로도 그럴 것이다. 시스템이 지속적으로 개입하고 향상되기 때문에 우리는 게이밍(번역자주 : 일종의 어뷰징 게임)을 예방하기 위해 특정 신호에 대한 정보를 공유하는 것에 매우 조심스럽다. 우리 자신의 분석을 넘어서서, 우리의 노력의 유효성은 다른 사람분들이 해왔던 것처럼, 그들에 의해 판단을 받게 될 것이다.

“나는 ‘공정하고 공평하다'(fair and equitable)는 말을 사용했다”

평판이 좋은 출처를 인정하는 방법에 관한 계량 평가자들(raters)의 지침은 ‘기자상'(특히, 퓰리처상)과 같은 기준을 강조한다. 당신은 구글의 새로운 알고리즘이 의도하지 않게 잘 확립된 대형 아웃렛을 선호하여 언론사의 불평등을 심화시킬 수 있다고 생각하는가? 이 위험을 어떻게 완화시키겠는가?
리처드 깅그라스 : 저널리즘 어워드는 하나의 기준이며, 많은 것들 중 하나에 불과하다. 그것들은 오랫동안 우리의 계량 평가 지침(rater guidelines)의 일부였고 우리 시스템에 대한 결정적인 신호로 해석되어서는 안 된다. 이 가이드라인의 최근 업데이트는 특별히 어떤 수상과 독립적으로 퀄리티 저널리즘의 또 다른 특징으로 오리지널 리포팅을 추가한 것이다. 또한, 계량 평가자는 실시간으로 스토리를 평가하지도 ‘않으며’ 그들로 하여금 순위를 매기게 하는 것도 적합하지 않다.

나는 ‘공정하고 공평하다'(fair and equitable)는 말을 사용했다. 우리는 인터넷이 가능토록 한 접근권의 확대를 열정적으로 믿고 있다. 우리는 소규모 언론사 대형 언론사, 레거시 언론사와 디지털 네이티브 언론사, 로컬뿐 아니라 전국 언론사에 공정하고 공평해야 한다는 것에 대해 열정적으로 믿고 있다. 나는 우리의 작업에 대한 지속적인 평가를 환영한다.

내가 앞서 언급한 것을 강조하자면, 이것은 (이미) 완수한 미션이 아니다. 우리의 시스템은 시간이 지남에 따라 진화하고 발전할 것이다. 기자와 언론사가 하는 일은 매우 중요하며, 우리는 사용자들이 그들에게 도움이 되는 방식으로 양질의 저널리즘에 접근할 수 있도록 돕는데 전념하고 있다. 즉, 그들이 그들의 지역 사회와 그들 주변에서 벌어지고 있는 대화를 이해하는 데 도움이 되는 이야기나 이슈를 더 깊이 이해할 수 있게 해준다. 내가 선호하는 저널리즘의 정의는 시민들에게 그들이 건강한 시민(good citizen)이 되기 위해 필요한 도구와 정보를 제공하는 것이다. 우리의 목표는 사용자들을 그들이 건강한 시민이 되기 위해 필요한 도구와 정보에 연결하는 것이다.

구글은 ‘검색 품질 계량 평가자’라고 불리는 약 1만 명의 제3자 사람을 고용하고 있으며, 이 사람들은 이를 더욱 개선하기 위해 사용될 새로운 알고리즘에 대한 피드백을 제공할 것이다. 이 평가자들의 선발 과정과 훈련에 대해 이야기해 달라. 평가 과정에 존재할 수 있는 바이어스의 개입을 어떻게 최소화하고 있는가?
리처드 깅그라스 : 첫째, 검색 품질 계량 평가자들이 하는 것과 하지 않는 것에 대해 매우 명확히 해보자. 평가자들은 랭킹에 직접적인 영향을 미치지 않는다. 평가자들은 우리의 랭킹 시스템이 훌륭한 결과를 제공하고 있는지에 대한 일반적인 인적 평가를 제공하는 데 사용된다. 그리고 평가자들로부터의 피드백은 우리의 기계 학습 시스템에서도 예시 결과의 라벨로 사용된다.

계량 평가 업무에서 평가자는 누군가가 검색한 결과를 얼마나 잘 이행하는지 평가하고 콘텐츠의 전문성, 권위성 및 신뢰성에 기초하여 결과의 품질을 평가한다. 계량 평가는 특정 페이지나 사이트에 ‘rating’ 또는 ‘scoring’의 유형을 제공하기 위해 검색 시스템에서 직접 사용되지 않는다. 대신, 계량 평가(rating)는 우리의 시스템이 전체적인 검색을 얼마나 잘 충족시키는지 그리고 배울 수 있는 예로서 이해하는데 도움을 준다.계량 평가자들 자신도, 이들은 보통 집에서 일하는 평범한 사람들이다. 그들은 전 세계와 거의 모든 미국 주(현재 50개 주 중 48개 주)에 걸쳐 퍼져 있다. 그들은 우리가 함께 일하는 벤더 회사에 의해 채용되고 고용된다. 우리는 또한 동시에 여러 공급업체를 활용한다.

고용되려면, 계량 평가자들이 우리의 167페이지의 레이터 가이드라인을 깊이 이해하고 있다는 것을 보여주는 벤더가 주관하는 시험을 통과해야 한다. 공급업체들은 또한 정기적으로 계량 평가자를 평가하여 그들이 우리의 지침을 이해하고 그들과 협력하고 있는지 확인한다.

우리의 계량 평가 지침은 모든 계량 평가자가 적용해야 하는 공통 표준을 제공한다. 그 지침은 검색의 목표에 대한 우리의 정의다. 만약 당신이 원한다면, 그것들은 제품 사양이다. 그리고, 계량 평가 지침은 누구나 읽을 수 있는 공개적인 것이며, 투명성을 제공한다.

“의도적으로 알고리즘 결과에 개인의 편견을 없애기 위한 시스템을 개발한다”

구글은 계량 평가(rating)에 대한 투명성을 어떻게 실천하고 있는가? 뉴스 조직은 그들의 계량 평가가 어떠한지 알 수 있고 그것에 도전할 수 있는가?
리처드 깅그라스 : 우리는 투명성을 3가지 방법으로 실천한다: 1. 우리는 우리의 알고리즘 작업을 안내하는 정책과 원칙을 전달한다.(계량 평가자 가이드라인) 2. 우리는 우리의 방법론을 보안과 조작의 위험 범위 내에서 실행 가능한 한 철저하게 설명한다. 3. 우리의 결과는 모두 사람들이 평가하도록 하기 위한 것이다. “우리는 매일매일 우리의 작업을 보여준다”. 그리고 우리는 그들의 분석을 뒷받침하는 학문적 연구자들과 함께 일한다.

구글은 의도적으로 우리의 알고리즘 결과에 대한 어떤 개인의 편견을 없애기 위한 시스템을 개발한다. 누가 어디로 가는지 특정 개인이 결정하지 않는다. 우리는 그것으로부터 보호할 시스템을 만든다. 그래서 우리가 계량 평가 프로그램을 하는 것이다. 우리가 검색과 뉴스의 작업에 관여하는 우리들 중 랭킹 상에 관여하는 제3자에 영향을 미치는 것을 방지하는 내부의 정직성 결과 정책(Honest Results Policy)을 가지고 있는 이유다. 우리는 사용자에게 필요한 품질 정보를 제공함에 있어 공정하고 공평한 시스템을 유지하기 위해 노력한다.

구글이 뉴스 조직의 등급(rating)을 매긴다면, 트러스트 프로젝트(Trust Project)나 저널리즘 트러스트 이니셔티브(Journalism Trust Initiative)와 같은 다른 이니셔티브의 역할은 뭔가? 그 과정에 언론협회(press associations)도 결합시키는 건 어떤가?
리처드 깅그라스 : 구글의 신호 수집과 데이터 모델링은 사용자에게 언론사들의 저널리스트적 특성을 알리는 방법이 아니라 구글 검색 결과를 강화하는 목적을 수행한다. 그 일은 업계의 노력으로 더 잘 처리된다. 저널리스트 트러스트 이니셔티브는 AFP, GEN, 유럽방송연합(European Broadcasting Union)과 함께 미디어의 윤리적 행동과 투명성을 뒷받침하는 자율 규제 해결책을 개발하기 위해 국경 없는 기자들에 의해 시작됐다. 트러스트 프로젝트는 수상 경력이 있는 저널리스트 샐리 레어먼(Sally Lehrman)이 이끄는 최고의 뉴스 회사들의 컨소시엄으로, 저널리즘의 투명성 기준을 개발한다.

다시, 우리는 우리의 일을 하는데 다양한 방법과 수백개의 신호를 사용한다. 나는 트러스트 프로젝트 탄생에 있어 핵심 참여자였으며, 조직과 업무의 보다 투명한 속성을 추진하려는 목적을 강하게 믿고 있다. 내가 트러스트 프로젝트, 저널리즘 트러스트 이니셔티브 그리고 다른 사람들과 논의했듯이, 그들의 노력의 결과는 계량 평가자들이 저자들과 그들 뒤에 있는 단체들에 대해 더 잘 이해하는 데 매우 도움이 될 수 있다.

알고리즘의 변경은 영어 기사에만 적용되는가 아니면 모든 언어에 적용되는가? 검색 알고리즘에 의해 강조(highlighted)된 기사는 자동으로 번역될 것인가?
리처드 깅그라스 : 모든 언어에 적용될 것이다. 사용자의 브라우징 툴에 따라 자동으로 기사를 번역할 수도 있다. 또한, 일부 언론사들은 핵심 언어 외의 더 많은 오디언스들이 자신의 콘텐츠를 이용할 수 있도록 하기 위해 자신의 웹사이트에 기사를 번역하는 옵션을 포함시키고 있다.페이스북은 또한 양질의 정보 소스(즉, 뉴스 기관)에 대한 등급 시스템(rating system)을 개발하는 과정에 있다. 다른 등급 시스템을 개발하는 낭비를 피하기 위해 다른 플랫폼과 논의한 적이 있나?
구글은 오픈 웹의 플랫폼에서 검색 엔진을 운영하고 있다. 우리는 독점적인 소셜 네트워크가 아니다. 우리의 동기와 운영 방식은 소셜 네트워크와 매우 다르며 우리는 또한 다르게 보고 평가되어야 한다.

검색엔진 최적화(SEO)는 언론사가 새로운 오디언스를 참여시키기 위한 방법이지만, 언론사가 일종의 페이월(paywall)을 설치하기로 결정한다면 이들의 콘텐츠는 등장하지 않을 위험이 있다. 당신은 이 문제를 어떻게 처리하고 있나? 매우 다양하고 변화하는 구독 모델을 이해하기 위해 언론사와 협력한 결과에는 어떤 것들이 있는가?

리처드 깅그라스 : 몇 년 전, 우리는 검색 사용자와 언론사 지불장벽(paywall) 사이의 상호작용을 연구하기 위해 몇몇 언론사와 협력했다. 그 연구의 결과로 우리는 퍼스트클릭 프리(First Click Free) 시스템을 종료했고, 플렉서블 샘플링(Flexible Sampling)에 찬성하여 언론사가 매달 사용자를 검색하기 위해 얼마나 많은 샘플링 기사를 발표할지 결정할 수 있었다. 그래서 지난 몇 년 동안, 언론사들이 검색 사용자에게 얼마나 많은 무료 콘텐츠를 제공하는지에 상관없이, 모든 뉴스 언론사는 유료 콘텐츠를 검색에 완전히 색인화했다.
우리는 또한 유료 콘텐츠와 비유료 콘텐츠 사이에 랭킹의 구분이 없다는 것에 주목해야 한다. 출판사가 무료 콘텐츠를 전혀 제공하지 않을 때, 사용자들은 시간이 지남에 따라 그러한 결과를 피하는 법을 배울 수 있는 것은 사실이지만, 우리는 연구를 통해 업계를 위한 일률적인 해결책을 만들기 위해 노력하는 것보다 무료 샘플링에 대한 모든 결정을 언론사들에게 맡기는 것이 최선이라고 결론지었다. 그리고 확실히 일부 언론사들은 이 변화의 긍정적인 영향을 높이 평가해왔다.

“저널리즘 위한 지속가능한 생태계가 가능하도록 할 수 있는 모든 걸 하는 것”

구글과 뉴스 조직 사이의 협력을 위한 다음 단계는 무엇인가? 어떤 다른 미래 이니셔티브를 언급할 수 있는가?
리처드 깅그라스 : 우리의 주된 목표는 저널리즘을 위한 강력한 지속 가능한 생태계가 가능하도록 우리가 할 수 있는 모든 것을 하는 것이다. 우리는 전 세계 뉴스 기관과 광범위하게 협력하고 있으며, ‘Subscribe with Google‘로 독자의 수입을 촉진하는 것에서부터 새로운 지역 뉴스 모델에서의 우리의 실험, 기자들을 위한 분석적 연구 도구의 개발까지 저널리즘 모델의 모든 차원에 걸쳐 협력하고 있다. 이것이 바로 우리가 업계의 3가지 핵심 차원에 걸쳐 혁신을 추진하기 위해 할 수 있는 일을 하기 위해 구글 뉴스 이니셔티브를 설립한 이유였다. 퀄리티 저널리즘의 고도화 및 강화, 지속 가능한 성장을 촉진하기 위한 비즈니스 모델 개발, 기술 혁신을 통해 뉴스 조직에 힘을 실어주기 위해서다.

한 가지 프로젝트, 나는 정말 흥분되는 것은 뉴스 기관과 제휴하여 디지털 사이트를 만들고 스토리텔링에서부터 비즈니스 모델, 운영 방식에 이르기까지 모든 것을 실험하고 혁신하는 우리의 지역 실험 프로젝트(Local Experiments Project)다. 우리는 최근 맥클래치와의 제휴를 발표했는데, 매클래치는 오하이오주 영스타운에 첫 번째 사이트를 개설했는데, 이 곳은 150년 만에 지역 신문이 종식을 고했다.

우리가 편집 운영에 투입된 것은 없지만, 우리는 그 곳의 사업과 운영 측면에서 배운 것을 공유하는 것에 관심이 있다. 그 일환으로서 제3자 ‘뉴스룸 인 어 박스‘(newsroom-in-a-box) 플랫폼(오토매틱의 NewsPack 등)의 개발도 지원하고 있다. 지역 실험 프로젝트는 지역 뉴스로 성공을 가능하게 하는 것보다 플레이북과 플랫폼을 조합하는 것(assemble)을 목표로 한다.
이것은 많은 GNI가 추구하고 있는 하나의 프로젝트일 뿐이지만 우리의 노력의 성공의 열쇠는 우리 자신과 언론사의 협력이다. 우리는 지난 15년 이상 함께 일해 왔고 이러한 노력을 장기간 지속하는데 전념하고 있다.