LA Times '알고리즘 기사' 어떻게 작성되나
image LA Times 본사 건물
상황
오전 6시 25분. LA에 강도 4.4의 지진이 발생한다. USGS는 즉각 지진 관련 데이터를 수집해 경고를 발령하고 동시에 정형화된 데이터를 API를 통해 제공한다. 지진 발생 데이터가 도착하자마자 LA Times 담당 기자에게는 메일과 함께 메시지가 도착한다.
“지진 발생 기사의 발행 준비가 완료됐습니다”
기자는 침대에서 일어나 먼저 컴퓨터를 켰다. 간단히 팩트를 크로스 체크한 뒤 CMS에서 ‘publishing’ 버튼을 누른다. 그리고 한편의 기사가 온라인에 게재된다. 제목은
‘Earthquake aftershock: 2.7 quake strikes near Westwood’
이 모든 작업이 완료되기까지 걸린 시간은 불과 8분. LA Times는 언론사 가운데 가장 빨리 지진 사실을 속보로 내보내는데 성공했다. 속보를 발송하기까지 기자가 개입한 작업은 사실을 확인하고 ‘publishing’ 버튼을 누른 것이 전부였다. 데이터에 대한 무한 신뢰가 전제된다면 속보 발송 시간은 이보다 더 당길 수 있었다.
기술적으로 어떻게 작동되는가
알고리즘이 작성하는 기사는 이제 미국 유력 언론들에겐 낯설지 않은 풍경이 됐다. LA Times, 로이터 등은 일찌감치 이 시스템을 편집국에 도입한 손꼽히는 언론사이다. Computational Journalism의 영역에서도 알고리즘에 의한 기사 작성은 중요한 과제로 연구되고 있다. 3월 중순에는 Tow Center 주최로 관련 세미나가 열리는 등 관련 업계 간 연계 연구 작업도 활발해지고 있다.
Quakebot. LA Times의 Schwencke가 개발한 Computational Writing 알고리즘 가운데 지진 기사를 담당하는 로봇의 명칭이다. Quakebot은 진도 3.0 이상의 지진이 발생하면 자동적으로 작동한다. API를 통해 전달된 데이터로 기사를 작성하고 CMS에 등록한다. 스트레이트 기사의 기본 문장 구조가 규격화돼있기에 적절한 위치에 정확한 데이터만 배치하면 간단한 리드문이 생성되는 방식이다. 제목도 동시에 추출된다.
현재 USGS가 ATOM 등의 형식으로 제공(feed)하는 지진 관련 메타 정보는 다음과 같다.
location, magnitude(s), depth, moment tensor, focal mechanism, DYFI, ShakeMap, PAGER, event posters, tectonic summaries, Finite Fault, Exposure, lists of significant events, phase data, residuals
이렇게 피딩 받는 데이터를 기반으로 리드문을 작성하는데까지 소요되는 시간은 불과 몇 초. 기사 등록이 완료되면 담당 기자에게 즉시 메시지와 메일을 전달한다. 이 모든 작업은 LA Times의 CMS와 연결돼있다.
LA Times의 기사 작성 봇은 Computational Storytelling의 1단계 수준이다. 데이터 수집 -> 구조화 된 문장에 데이터 배치 -> 온라인 퍼블리싱의 비교적 단순한 작업 플로우를 갖고 있다. 하지만 노스웨스턴대 Narrative Science는 한층 고도화된 Storytelling 기술을 개발해 편집국으로 침투해들어가고 있다. 이들이 개발한 Computational Storytelling 솔루션 ‘Quill’은 데이터마이닝을 거쳐 인공 지능 알고리즘에 의한 구조화, 분석, 해석, 조직화, 작성에 이르는 과정이 모두 기계에 의해 대체되고 있는 수준이다.
LA Times는 어떻게 활용하고 있고 유익은 무엇인가
이미 LA Times는 여러 봇을 운영하며 기사 작성에 도움을 얻고 있다. 예를 들면, 자살 데이터를 기반으로 자살 관련 보도를 내보내고, LAPD(LA 경찰)로부터 범죄 사건의 데이터를 제공받아 이메일로 공유하고 있다. 특히 중범죄 사건을 분류해 기사 작성에 참고한다.
단순 정보를 가공하는 작업, 특히 속보 관련 기사 작성 작업은 알고리즘이 대신한다. 이를 통해 기자들의 업무 강도를 낮추고 심층 기사에 집중할 수 있도록 배려한다. 보다 품질 높은 기사 생산에 기자들이 몰입할 수 있도록 지원함으로써, LA Times 전반의 고품질 기사 양산에 기여를 하고 있다.
한국 기자 문화 속 적용 대상들
(1) 경찰출입기자의 숙면권과 알고리즘
알고리즘에 의한 기사 작성이 국내 언론의 취재 문화에 긍정적인 기여를 할 수 있는 영역은 적지 않다. ‘사스 마와리’라고 불리는 경찰서 출입 기자가 우선적인 혜택을 받을 수 있을 것으로 보인다. 새벽부터 담당 경찰서를 돌아다니며 사건사고 기사 거리를 시경캡에게 보고하는 말단 기자들. 이들의 단순 사건사고 보고 작업은 얼마든지 알고리즘에 의해 대체될 수 있다. 말단 기자들은 새벽부터 밤 늦은 시간까지 경찰서에 머물며 지금도 고강도의 격무에 시달리고 있다.
경찰청 측이 정형화된 형태로 사건을 집계해 데이터화한다면, 소위 ‘시경캡’들은 말진 경찰청 출입 기자들의 격무에 의존하지 않고도 효율적으로 기사 작성을 지시할 수 있게 될 것이다. ‘기자 정신의 함양’이라는 명분으로 유지되고 있는 전근대적 취재 행태는 알고리즘에 의한 가장 우선적으로 도전에 직면하게 될 것으로 보인다. 알고리즘에 의한 사건사고 보고 시스템은 갓 취업한 기자들에게 숙면권을 보장해줄 수 있을 뿐 아니라 ‘기사 거리’의 효율적인 관리 방식 개발에도 기여를 할 것으로 보인다. 다만, 모든 사건사고 관련 문서가 한글로 작성돼 취합되고 있어 이를 Machine Readable 데이터로 전환하는데 상당한 시간이 소요될 것으로 보인다. LAPD와 같은 데이터 시스템 구축에 국내 경찰청이 얼마나 투자할지가 관건이다.
(2) 포털의 언론사발 속보 의존도 하락
현재 기술적 수준에서 국내 포털은 공개된 데이터를 가공해 알고리즘으로 속보를 생산하는 데 큰 어려움을 없다. 물론 영역이 한정돼있다는 한계가 존재하지만, 주식 마감 속보, 한국은행 금리 속보, 고용율 통계 속보, 날씨 관련 속보, 데이터가 공개된 기타 관련 속보를 로봇에 의해 대체하는 건 그리 어려운 과제는 아닐 것으로 보인다.
최근 국내에선 적지 않은 속보를 쏟아내고 있는 원전 가동 중단 속보나 자연재해 속보는 관련 업계 및 기관과 업무협약을 맺는다면 Machine Readable 데이터로 제공받을 수 있다. 이를 가공해 1보를 우선 처리하는 시스템이 마련된다면 연합, 뉴시스에 의존해왔던 속보 전달 시스템은 새로운 전기를 마련할 수 있게 될 것이다. 속보는 그 특성상 단 시간 내 막대한 트래픽을 유입시키는 Attention Power Effect를 발휘하므로 포털로서도 유익이 없는 것은 아니다. 다만, 포털의 기사 생산 논란을 불러일으키며 미디어 생태계 내의 갈등 구조에 불쏘시게 역할을 할 개연성도 있어 유의할 필요는 있다.
(3) 경제지
우려들
속보 수준의 알고리즘 기사 작성 기술은 새롭지 않다. 이미 2011년부터 등장해 여러 용도로 활용되고 있다. 하지만 대형 언론사들은 이 기술의 적용에 부정적인 시건을 거두지 않고 있다. 내부 기자 노동자들은 자신의 일자리를 빼앗을 수 있다며 반발할 가능성이 높기 때문이다. 기자들의 단순 업무를 덜어주기 위해 기획된 기술이라 항변하더라도 차후 진행될 기술의 확장적 적용 가능성을 노조 차원에서는 염려하지 않을 수 없다.
LA Times가 Writing Machine에 적극적인 이유는 편집국 내 고비용 구조를 탈피하고자 하는 목적도 내재돼있다. LA Times는 지난해 8월 디자이너를 포함해 11명의 스탭을 해고한 바 있다. 모회사인 Tribune company는 파산 신청 이후 여전히 재정적 불안 국면을 벗어나지 못하고 있다. LA Times가 매각의 손길을 기다리고 있다는 소문은 이미 사실로 확증된 상황이다.