뉴욕타임스가 건강한 댓글 공간을 AI와 만들어가는 방식
뉴욕타임스의 댓글 공간은 청정 지역에 가깝습니다. 국내 포털 댓글창에서 흔히 볼 수 있는 불쾌하고 유해한 콘텐츠는 거의 없습니다. 그들이 강조하는 것처럼 ‘건강하고 전문성이 묻어있는 토론 커뮤니티, 포럼’에 가깝습니다. 수준 높은 댓글을 만날 때도 적지 않습니다. 잘 관리가 되고 있다는 인상을 쉽게 받을 수 있습니다.
뉴욕타임스도 하루이틀만에 이런 댓글창을 만들어낸 것은 아닙니다. 수년 간의 노력과 실패를 거치고 나서야 지금에 이르게 된 것입니다. 기억하시는 분은 아시겠지만, 뉴욕타임스는 온라인 댓글을 모든 기사에 서비스하지 않았습니다. 댓글을 달 수 있는 기사는 제목 아래에 댓글 아이콘이 표시돼 있었는데요, 그 수는 그리 많지 않았습니다. 댓글도 기사처럼 하나의 준칙을 두고 엄격하게 관리를 해왔고, 그것에 위배되면 아예 노출을 하지 않았습니다. 노출 여부는 전적으로 내부 관리자가 판단을 했습니다.
2017년을 기점으로 이러한 정책에 변화가 생겼습니다. 댓글을 개방한 기사의 수가 상당히 늘어났죠. 댓글 표식도 거의 사라졌습니다. 댓글이 허용되는 기사가 훨씬 많아졌기 때문입니다. 그렇다고 댓글을 관리하는 인간 모더레이터의 수가 확 늘어난 것도 아닙니다. 그 비결은 머신러닝에 있었습니다.
Jigsaw 퍼스펙티브 활용해 댓글 개방 기사 획기적으로 늘리다
Jigsaw는 그 시기(2017년 2월께) 퍼스펙티브(Perspective)라는 댓글 필터링 알고리즘을 개발했죠. 소개하면 아래와 같습니다.
“Perspective는 기계 학습을 활용하여 온라인상의 괴롭힘과 권리침해를 감지하는 API입니다. Perspective는 댓글이 대화에 미칠 수 있는 영향을 고려하여 댓글에 점수를 매깁니다. 게시자는 이 점수를 사용하여 댓글 작성자에게 실시간으로 의견을 제공할 수 있습니다. 또한 관리자는 댓글을 더욱 효과적으로 분류할 수 있으며, 독자는 의미있는 정보를 더욱 쉽게 찾을 수 있습니다. 올해 말에 더 많은 기계 학습 모델을 출시할 예정입니다만, 일단 가장 먼저 선보인 모델의 경우 댓글이 대화에 '유해'하다고 인식되는지 판별할 수 있습니다.”(퍼스펙티브 홈페이지)
Jigsaw는 API형태로 퍼스펙티브를 제공했습니다. 뉴욕타임스도 이 퍼스펙티브를 활용해 댓글 관리를 시작하게 됐죠. 그리고 뉴욕타임스 고유의 ‘모더레이터’(Moderator)라는 댓글 관리 시스템을 개발하게 됩니다. 여기엔 대시보드도 포함돼 있습니다. 그 해를 기점으로 댓글이 개방된 기사가 늘어나게 된 것입니다. 모더레이터라는 시스템은 Jigsaw의 퍼스펙티브 API를 활용해서 뉴욕타임스가 개발한 댓글 필터링 시스템이라고 보시면 됩니다.
뉴욕타임스에서 댓글을 관장하는 부서는 커뮤니티 데스크입니다. 현재 15명이 근무를 하고 있고 대부분이 저널리즘 훈련을 받은 사람들이라고 합니다. 이들이 모더레이터 시스템과 공동으로 작업을 하면서 뉴욕타임스의 댓글란을 가꿔가고 있습니다. 작업 방식을 간단히 설명하면, 퍼스펙티브는 독자가 작성한 댓글을 ‘유해’, ‘스팸’, ‘음란’ 3가지로 분류를 하고 각각의 정도에 따라 점수를 부여합니다. 각각의 댓글의 위험 수준을 점수화해서 보여주는 것이죠. 그리고 그렇게 판단한 근거가 되는 특정 문구를 제시해줍니다.
인간 댓글 관리자는 퍼스펙티브가 매긴 점수와 본인의 판단 등을 결합해 해당 댓글의 공개 여부를 결정하게 됩니다. 우리의 포털 댓글처럼 사용자가 작성한다고 곧장 노출되는 방식이 아닌 것이죠. 현재 뉴욕타임스에서 보게 되는 댓글들은 이런 과정을 거쳐 게시된 글인 셈입니다.
'머신러닝' 퍼스펙티브의 평가점수는 항상 신뢰할 수 있을까
여기서 한 가지, 퍼스펙티브를 활용한 모더레이터는 항상 신뢰할 수 있을까요? 머신러닝 기반으로 작동하니 곧장 신뢰를 갖는 분도 있으리라 생각됩니다. 하지만 그렇지 않다는 것이 뉴욕타임스 내부의 판단이었습니다. 특히 퍼스펙티브가 인종에 대한 차별적 편향을 의도하든 아니든 학습을 했다면, 곧장 모더레이터의 결과에 영향을 미칠 수밖에 없는 구조입니다. 퍼스펙티브를 개발한 Jigsaw도 항상 염려하는 부분입니다.
이를 검증하기 위해 뉴욕타임스의 데이터 거버넌스 부사장인 로빈 버존(Robin Berjon)이 테스트를 합니다. 퍼스펙티브를 속이는 자동으로 생성해서 퍼스펙티브에 넣어본 것이죠. 그런데 여기서 편향이 발견이 된 겁니다. 인종에 대한 편견이었습니다. 그리고 난 뒤 뉴욕타임스 개발팀은 조사를 실시하게 됩니다. 조사는 크게 3가지 방식으로 진행이 됐습니다.
- 댓글 로그를 파헤친다 : 머신러닝이 위험하다고 판정했지만, 인간 관리자가 발행한 사례, 머신러닝이 위험하지 않다고 점수를 부여했지만 인간이 발행하지 않았던 사례 등의 사례를 파악한 것입니다.
- 퍼스펙티브를 속이는 댓글을 생산한다 : 이를 통해 어떤 편견이 녹아 있는지를 파악한 것입니다.
- 발행을 결정하는 인간 관리자들의 업무 방식을 배운다 : 어떻게 작업하고 판정하는지를 배우는 과정이었다고 합니다.
결과를 흥미로웠습니다. 댓글이 길수록 인종차별적 문구가 머신러닝의 점수 부여에 미치는 영향이 줄어들었다는 것. 그리고 인간 관리자들은 퍼스펙티브의 한계를 너무도 명쾌하게 앍고 있어서, 퍼스펙티브의 점수 체계를 별로 얽매이지 않더라는 것. 이 두 가지를 확인할 수 있었다고 합니다. 완벽할 줄 알았던 퍼스펙티브가 편견에 취약했다는 점이 내부 조사를 통해 확인이 된 것입니다. 이를 통해 댓글 관리시스템 모더레이터를 업그레이드 했을 겁니다. 뉴욕타임스의 청정한 댓글은 이러한 문제를 확인하면서 수년 간 진화해온 결과라고 볼 수 있습니다.
뉴욕타임스는 자신들의 조사 결과를 바탕으로 3가지를 다른 언론사들에 조언을 합니다.
- 머신러닝 시스템을 맹신하지 마라 : 중립적이고, 객관적이며, 정확할 것이라는 가정을 하지 말라는 것입니다. 무엇을 학습하느냐에 따라 그래서 어떤 모델이 만들어지느냐에 따라 머신러닝은 동일한 한계와 편견을 가질 수 있다는 점을 유의해야 한다는 주문이었습니다.
- 머신러닝을 사용하는 사람에 집중하라 : 완벽하지 않은 머신러닝 시스템도 경험과 숙련도 높은 ‘사람’에 둘러싸여 있으면 여전히 유용하다는 것을 강조합니다. 사람과 함께 라면 다소 부족한 머신러닝이라도 충분히 도움이 될 수 있다는 의미였습니다.
- 사회-기술 시스템은 지속적으로 감시가 필요하다 : 머신러닝을 도입하면 기술적, 조직적 변화를 요구할 수밖에 없다고 합니다. 이 과정은 끝이 없다고 하고요. 따라서 전체 시스템을 정기적으로 관찰하고 정비할 필요가 있다는 것입니다. 도입은 곧 시작이지 마지막이 아니라는 메시지였습니다,
우리에게 던지는 함의들
퍼스펙티브라는 댓글 필터링을 위한 머신러닝 시스템은 분명 뉴욕타임스가 더 많은 기사에 댓글란을 부착하는데 혁혁한 공을 세웠습니다. 하지만 그것은 완벽하지 않았습니다. 머신러닝이 도깨비 방망이는 아니라는 말입니다. 국내 언론사에서도 머신러닝에 대한 낙관적 판타지가 여전한 것으로 알고 있습니다. 하지만 결코 그렇지 않다는 것을 뉴욕타임스는 자신의 사례를 통해서 알려주고 있습니다. 그렇다고 배척할 이유도 없다고 합니다. 바로 역량 있는 인간이 판단을 내린다면 생산성을 높이면서도 기대했던 성과를 만들어낼 수 있다는 의미입니다.
저는 포털이 댓글을 운영하는 방식에 이들의 노하우를 참고해보면 좋겠다는 생각을 했습니다. 더 건강한 댓글 코너가 운영되기 위해서는 무엇을 더하고 무엇을 빼야 하는가에 대한 성찰과 열정이 필요하다는 것이죠.
언론사에 계신 분을 향해서는, 이제 스스로의 댓글 시스템을 만들어가는 준비를 해보시라는 겁니다. 이를 통해 기술적 숙련도를 높일 수 있을 뿐 아니라 더 많은 재방문자를 만들어낼 수도 있을 겁니다. 여전히 기사 소비에 댓글이 미치는 영향에 대해 실감을 못하시는 분들이 적지 않으리라 생각됩니다. 직소의 퍼스펙티브 같은 시스템은 외부 기술 기업과 협업을 통해 얼마든 개발해낼 수 있습니다. 연합뉴스와 NC소프트의 날씨 기사 자동작성 협업 사례처럼 말이죠. 하지만 그것이 적용이 되려면 자체적으로 댓글란을 운영하고 있어야 합니다.
언론사들은 저널리즘의 기능과 역할 중 하나라고 할 수 있는 건강한 공동체의 구축과 숙의 및 토론의 제공을 너무도 쉽게 외주화했습니다. 그럴 만한 시점이 있었고 계기도 있었습니다. 하지만 이제는 다시 본질에 대한 구상에 시작돼야 하지 않을까 합니다. 그것이 내부 기술 역량도 키울 수 있는 계기가 될 것이라고 생각합니다.