‘인터렉티브 보이스 콘텐츠', 언론사 어떻게 대응해야 하나

원하든 원하지 않든 ‘인터렉티브 보이스‘ 콘텐츠는 뉴스 산업의 부담스런 숙제로 성큼 다가왔다. 가깝게는 AI 스피커를 염두에 둔 전략을 요구받고 있고 멀게는 자율주행화 한 자동차를 대상으로 한 콘텐츠 개발을 구상해야 하는 상황이다. 디지털 퍼스트, 모바일 퍼스트에 이어, 보이스 퍼스트가 또 한번 머릿속을 지끈거리게 할 가능성이 크다.

인터렉티브 보이스는 라디오의 확장된 형태거나 이형이다. 그렇다고 라디오 종사자가 현명하게 대응할 것이라는 기대는 버리는 것이 좋다. 블로그가 출현하고 인터렉티브 스토리텔링이 주목을 받을 때, 지체나 부적응의 정도가 깊었던 쪽은 역설적이게도 인쇄 신문이었다. 하이퍼텍스트가 인쇄 텍스트의 단순한 연장일 뿐이라는 섣부른 예단이 그들의 상상력을 제한했다. 오히려 인쇄 체제의 레거시에서 자유로웠던 디지털 네이티브들의 반응 속도와 적응력이 훨씬 뛰어났다는 사실을 부인할 수 없다.

기존 라디오 종사자들이 라디오라는 레거시에 갇혀 인터렉티브의 유연성을 체화하지 못한다면, 인쇄 미디어 종사자들의 실패 궤적을 온전히 뒤따를 수밖에 없을 것이다. 참고로 인쇄 기반의 매스미디어 종사자들은 독자의 사회적 맥락을 고려한 상호작용성을 이해하고 수용하는데 상당 기간 실패했다. 따라서 이 국면은 디지털 퍼스트 과정에서 확인했던 바, 레거시에서 자유로운 뉴 플레이어들에게 유리하다.

BBC의 Talking with Machine 프로젝트

BBC R&D팀이 추진하고 있는 한 프로젝트는 이 같은 실패의 반복에서 벗어나기 위해 유용한 시사점을 제공한다. BBC R&D팀은 지난 2016년부터 ‘기계와 말하기’(Talking with Machine)라는 연구 프로젝트를 출범시킨 이래, 스크린이 존재하는 않는 디바이스에서 인터페이스를 어떻게 설계해야 할지 경험을 누적시키고 있다. BBC 내 여러 팀들과 협업하며 라디오 콘텐츠를 변형하거나 업그레이드 하면서, ‘인터렉티브 보이스 시대’를 대비하고 있다.

이 프로젝트를 수행하고 있는 BBC R&D팀은 ‘쌍방향 구술 대화’(Two way spoken coversation)라는 맥락을 구체적으로 전제하고 콘텐츠를 개발한다. 이를 통해 아마존 에코 Skill과 같은 소프트웨어를 개발하고 이에 적합한 보이스 UI를 만들어내고 있다. 궁극적으로는 플랫폼이나 디바이스에 독립적인 유형을 내재화하는 것을 목표로 삼는다.

BBC R&D팀은 프로토타입을 개발하는 과정을 다음과 같이 제시했다. 먼저 자체 개발한 시나리오 매핑툴을 통해 이야기의 전개 과정을 정리한다. 누구를 대상으로 콘텐츠를 제공할 것인지, 어떤 사회적 맥락에서 발화가 이뤄지는지, 어떤 감정상태에 놓여있는지 등 모두 6개 요건을 설정하도록 요청한다. 이 과정에서 가장 중요한 요소는 협업이다. BBC R&D팀은 “여러분들은 기술 분야, 편집 분야, UX 분야 사람들과 첫 시작에서부터 경험의 플로우를 만드는 과정까지 반드시 함께 해야 한다”고 조언했다. 이러한 재능을 갖춘 사람들이 모여있는 지점에서 비로소 VUI 설계가 가능하다고 거듭 강조했다.

시나리오 매핑이 종료되면 스크립트 작성에 들어가고, 실제 역할 게임(role playing)을 하면서 검증한다. 역할 게임에서는 시스템 음성으로 테스트해보기도 하고, 효과음도 활용했다. 이를 통해 사용자의 반응을 유추할 수 있고, 각각의 음성이나 효과에 따라 어떤 반응이 나올지를 상상해볼 수 있게 된다. 이 단계에서는 블라인드 역할 게임도 동시에 진행할 것을 BBC R&D팀은 제안했다. 역할 게임을 통해 검증된 결과를 애니메이션 스토리보드에 반영하고, 실제 소프트웨어 개발에 착수한다.

아마존 에코나 구글 홈, 시리 플랫폼 등은 저마다 제공하는 기능들이 상이하기 때문에, 플랫폼의 특성도 미리 분석해두는 것이 필요하다고 조언했다. 이를테면 오디오 레코딩 기능은 아마존 에코와 구글 홈에선 제공하지 않지만 시리 플랫폼에선 가능하다며, 자신들의 Children’s 콘텐츠를 테스트 할 때 iOS를 사용할 수밖에 없었다고 소개하기도 했다.

무엇보다 BBC R&D팀은 기존 프로덕트 개발 과정과 인터렉티브 오디오 콘텐츠/서비스 개발은 판이하다는 점을 인식해야 한다고 했다. 기존 프로덕트 제작 방식을 기계적으로 적용하기 어렵다는 사실, 언론사들이 인식해야 한다는 것이다.

인터렉티브 보이스 콘텐츠의 5가지 특성과 프로토타이핑 툴

기존 방식으로 개발하기 어려운 배경에는 인터렉티브 보이스 콘텐츠가 지닌 단절적이고 차별적인 속성에 기인한다. 벤처비트는 이러한 특성을 5가지를 정리한 적이 있다. 소개하면 아래와 같다.

  • 실제로 대화형이어야 한다
  • 사람과 1:1 대화하는 것처럼 느낄 수 있어야 한다
  • 공감을 얻을 수 있어야 한다
  • 맥락과 이전 히스토리를 유지할 수 있어야 한다
  • 정확하고 일관되게 신뢰를 획득할 수 있어야 한다

위 조건은 인쇄 신문 기사의 일반적 특성과 빗겨가는 측면들이 적지 않다. 정보 전달의 일방향적 관성은 인터렉티브 보이스에선 또 한번 장애물로 작용할 수밖에 없다. 텍스트 중심의 인터렉티브 스토리텔링에서도 인쇄 신문 종사자의 일방향적 사고 관성은 대화적 문법을 구상하는데 철저하게 장애 요인이었다. 라디오 종사자들의 경우 정도가 덜하긴 하지만, 정보 생산자로서의 사고 체계 이면에는 여전히 일방향적인 관성이 뚜렷하게 각인돼있다.

공감도 마찬가지다. 특정 독자를 타깃으로 공감을 얻어가는 프로세스는 뉴스의 논리적/설득적 특성과는 다소 거리가 있다. 정보의 고체성과 공감의 유체성은 결합하기 쉽지 않다. 공감의 깊이에 빠질수록 논리성의 희생이 필요한 경우가 허다하다. 하지만 둘은 배제적이라기보다 보완적이다. 친구와 경성 이슈로 대화할 때에도 공감과 논리는 상호 교차하고 침투한다. 공감 속에서 논리가 설득되고, 논리 속에서 공감의 폭은 확대된다. 단 비대면 미디어에서는 이러한 작용이 발생하지 않는다는 점을 미리 주의할 필요가 있다.

VUI는 분명 특별하고 새로운 영역이지만, 지레 두려워하며 회피할 필요는 없을 것 같다. VUI 설계를 위한 프로토타이핑 툴들이 속속 등장하면서 상상력의 확장과 실험을 도와주고 있다. Tincan.ai, Sayspring 등이 대표적이다. 이들 소프트웨어는 사용자의 맥락을 설정한 상황에서 어떤 질문에 어떻게 응답하는 것이 최적인지 시나리오별로 테스트해볼 수 있도록 돕는다.

Sayspring의 경우 사용자 입장에서 작성된 시나리오 별로 프리뷰를 해볼 수 있도록 지원한다. 8초간 응답하지 않을 때 어떤 답변을 내놓으면 좋을지 등 다양한 상황을 고려한 디테일한 프로토타이핑 방식을 제공해주고 있다. Tincan.ai도 에디터의 구성만 조금 다를 뿐 질의응답의 다양한 선택지 속에서 사용자 경험을 극대화하는 설계를 도와주고 있다.

상호작용적 문자성에서 상호작용적 구술성으로

디지털 전환으로 상징되던 상황적 표어는 디지털 퍼스트, 모바일 퍼스트를 거쳐 보이스 퍼스트로 넘어가고 있다. 이 흐름을 한 문장으로 정리하면 ‘문자성과 구술성의 디지털 상호작용화‘라고 할 수 있다. 초기 문자성의 디지털 재현 단계는 이미 디지털만의 독립적인 특성이 등장하는 창발적 재조직 단계로 진입하고 있다. 라디오의 디지털 재현이 팟캐스트였다면, 인터렉티브 보이스 콘텐츠는 ’디지털 창발‘의 초기 상태라고 감히 정의할 수 있다. 문자성의 상호작용화는 영역이 뒤섞임을 거쳐 구술성의 상호작용화로 이어지고 있는 것이다.

구술성은 본래부터 상호작용적이었다. 대면적 대화는 상대의 사회적 맥락을 고려해야 했고, 대면하고 있는 상대의 표정과 음성, 감정의 상태에 따라 말하기의 방식과 톤은 조정돼야만 했다. 인터렉티브 보이스 콘텐츠는 대면하는 상대가 인간에서 기계로 전환된 상태에서 작용하는 콘텐츠 유형이다. 인간은 대면하고 있는 기계를 인간성이 투사된 객체이길 기대한다. 신뢰를 주는 어법과 표현, 목소리가 구별되듯, 기계를 통해 발화되는 기계의 목소리와 표현도 뉴스라는 영역에서는 신뢰감을 전달할 수 있어야 한다.

뉴스 조직 입장에서는 기계의 음성을 통제할 수 없는 상황에서, 정보를 보다 신뢰감이 있게 전달할 수 있는 구술적 문법과 기법을 콘텐츠 안에서 설계해야 하는 부담을 떠안을 수밖에 없다. 따라서 목소리를 교체할 수 없는 제약 조건 속에서 신뢰적 구술을 어떻게 구현할 수 있을지 해답을 찾을 수 있어야 한다.

인터렉티브 보이스 시대 초기엔 방송/라디오 뉴스의 단순 재현 수준에서 서비스가 제공될 것이 분명하다. 대다수의 콘텐츠 설계자들이 기존의 레거시에서 자유롭지 않기에 인쇄 신문의 디지털화 과정과 유사한 전철을 밟게 될 것이다. VUI/VUX만을 고민하는 별도의 팀을 구성할 수 없는 물리적 환경은 당분간 뉴스의 음성 복제 수준을 넘어서지 못하는 상황을 연출할 개연성을 높인다.

하지만 이 기간이 얼마나 지속될지는 확신하기 어렵다. 텍스트 스토리텔링의 버즈피드와 같은 플레이어가 보이스 스토리텔링 분야에서 나오지 말라는 법은 없다. 뒤늦은 한탄을 내뱉기 전에 일단 실험에 나서보는 것도 레거시 미디어 입장에선 방법이다. 물론 국내에서 적지 않은 자원을 투입해 무모한 도전에 나설 레거시 미디어는 소수에 불과할 것이다. 결국 이 생태계를 휘어잡는 주체는 또 새로운 플레이어가 될 가능성이 높아 보인다.

추가 : 2019년 3월22일(금)
스마트 스피커를 어떻게 해야 할까 고민들 많으시죠? 있던 콘텐츠 다시 퍼나르는 방식으로 작동하지 않는 것도 대략 다들 확인하셨으리라 생각됩니다. 일단 뉴스 사용자들의 소비 행동이 어떻게 변화하고 있는지 보면,

45% are listening to less radio,
38% are using their smartphones less,
32% are reading fewer magazines and newspapers
29% are watching less TV.

일단 라디오 소비에 타격이 가장 커보이고요, 스마트폰, 잡지, 신문, TV 순이었습니다.

문제는 수익입니다. FT와 NYT는 다른 접근법을 갖고 있는 사례인데요. 먼저 FT는 구독 유도 채널로 활용하고 있었습니다. 스마트 스피커의 콘텐츠로 사용자를 유인한 뒤, ft 구독 가입으로 연결시키는 비즈니스 구조를 짰더군요. NYT는 ad-sponsored 콘텐츠를 통해서 광고 수익을 만들어가고 있었습니다. The Daily가 대표적인 사례인 모양입니다. 어찌됐든 돈 벌 구석을 찾았다는 거고, 그래서 서서히 투자를 시작해가고 있다는 내용입니다.

국내는 아직 사례가 빈곤하고 콘텐츠의 다양성/실험도 떨어져서 이렇다 할 사례를 찾기가 쉽지 않은 상황이긴 한데요. 제가 모를 수도 있으니, 혹시 모범 사례 있으면 소개 좀 부탁드릴게요.

함께 읽기를 추천하는 제 글