과학 욕보인 최형우 교수 ‘포털 편향’ 보고서
최형우 서강대 교수 외 3명이 새누리당 여의도연구소 의뢰로 작성한 ‘포털 모바일뉴스(네이버, 다음) 메인화면 빅데이터 분석 보고서’로 논란이 뜨겁다. 새누리당은 이 보고서를 근거로 포털 군기잡기에 나섰다. 총선이 다가왔다는 신호이며 동시에 새누리당의 여론 장악 플랜이 가동됐다는 방증이기도 하다.
여당이든 야당이든 우호적인 여론 환경을 조성하기 위해 미디어를 적절히 활용하거나 혹은 겁박한다. 때론 당근을 던져주며 우호적인 보도를 유도하기도 하고 때론 채찍을 치며 자신들에 불리한 환경을 제거하려는 정치적 행보를 보인다. 여기까지는 큰 선거를 앞두고 빈번하게 목격되는 풍경들이다.
포털의 뉴스 유통 영향력이 절대적인 최근 들어서는 언론사를 직접 제어하기보단 다루기 상대적으로 쉬운 포털을 겨냥하는 경우가 더 빈번해졌다. 규제의 향방에 따라 포털의 영업이 출렁이는 현실을 정치권들이 그냥 놔둘리 만무하다. 이번 최형우 교수의 보고서도 이러한 정치적 맥락에서 해석해볼 필요가 있다.
최형우 교수의 보고서는 그 목적이 포털의 편집권에 영향을 미치기 위한 사전 정지 작업의 일환으로 볼 개연성이 높다. 하지만 그 작업의 근거나 권위의 대체물로 삼기엔 보고서의 품질이 생각 이상으로 낮다. 최소한의 권위를 갖기 위한 과학적 방법론을 무시함으로써 보고서로서의 기본적 신뢰를 잃어버렸다. ‘함량미달‘이라는 수식어가 적절한 축에 속한다. 그 이유를 하나씩 검토해보면.
2.8MB 수집이 빅데이터일까
최 교수는 보고서 제목에 ‘메인화면 빅데이터 분석‘이라고 적고 있다. 물론 이 표현은 논문 요약문에도 몇 차례 언급된다. ’빅데이터’에 대해 상대적으로 무지하면서도 관심이 높은 정치인들을 교묘하게 유혹하고 있다. 단정적으로 말하면 이 데이터 규모를 두고 빅데이터이라는 표현을 명시하면 업계에선 ‘사기꾼’이라는 평가를 받기 마련이다.
보고서 2페이지를 보면, 최 교수는 분석 기간 6개월에 이어 수집 샘플을 명시하고 있다. 그대로 옮겨 적으면
“수집샘플 : 50,236개(daum 19,754개, 네이버 30,482개)
– 샘플 수집 방법 : 30분을 기준으로 모바일 뉴스 페이지에 접속하여 해당 뉴스 콘텐츠 제목을 수집하여 분석“
이어 분석 유목으로 “뉴스 콘텐츠 제목과 출처(모바일 페이지에 올라온 제목을 그대로 사용)”이라고 적고 있다. 쉽게 말해 수집한 데이터는 네이버와 다음 모바일(웹인지 앱인지조차 모호, 앱이라고 가정)앱 첫화면에 게시된 뉴스의 제목 50,236건을 수집한 것이다. 강조하지만 제목이지 본문이 아니다. 다만 여기에 해당 뉴스를 작성한 언론사 데이터를 더했다.
일반적으로 한글 1음절은 2byte로 구성된다. 여백은 1byte. 포털 뉴스 제목의 최대치는 많이 잡아도 30음절이다. 여백 없이 제목을 꾸몄을 때다. 따라서 제목 한 건의 최대치는 대략 60byte라 할 수 있다. 60byte 제목 50,236건을 수집했으니 대략 3,014,160byte를 모았다고 볼 수 있다. 1KB=1024byte로 전제하고 계산해보면 이들이 수집한 용량은 불과 2.8MB밖에 되지 않는다.
다시 말하지만, 최 교수가 본문 내용까지 수집했다는 내용은 보고서 어디에도 찾아볼 수 없다. 뿐만 아니라 본문을 분석한 내용도 보고서에 발견할 수 없다. 기사에 포함된 각종 메타데이터, 이미지나 동영상을 포함한다면 분명 적지 않은 규모일 수는 있겠지만 이를 분석 대상에 포함시켰다거나 그 분석한 결과를 적시한 곳도 찾아볼 수 없었다.
해당 제목의 작성 언론사를 메타데이터로 포함시킨다더라도 2.8MB+2.8MB를 넘긴 힘들다. 최대 5MB 남짓한 데이터로 ‘빅데이터’라는 제목을 붙였으니 이는 IT 동향에 무지한 정치인들으리 기만한 보고서라 말할 수 있다.
최소한의 ‘정의’도 안 써놓은 비과학 보고서
이 보고서의 치명적인 약점은 정의(Definition)가 존재하지 않는다는 사실이다. 정의가 존재하지 않고 방법론이 구체적이지 않기에 이 보고서는 실험의 재연을 불가능하게 한다. 재연이 불가능하다는 사실은 진위 여부를 검증할 수 없다는 것을 의미한다. 이는 곧 과학이 아니라는 얘기다.
개념 정의조차 없는 이 보고서에서, 반복적으로 사용되는 개념은 ‘긍정/부정/중립 이슈’와 ‘긍정/부정/중립 표현’이다. 문제는 이슈의 긍정과 부정, 중립 극성을, 표현의 긍정/부정/중립 극성을 어떻게 정의했는지 보고서 어디에도 찾아볼 수가 없다.
다음은 새누리/여당 부정적 ‘표현’ 기사로 언급된 제목이다.
보고서는 위 제목을 새누리당/정부 부정적 기사로 분류했다. 하지만 근거는 없었다. 4.29 보선 당시 성남 중원의 민심을 보도한 문화일보 기사의 제목을 다음 등이 그대로 게시한 샘플이다. 보수층 지지쪽과 반대쪽 지지쪽의 목소리를 대칭형으로 연결한 전형적인 기계적 중립형 ‘vs 제목’ 구조다. 표현의 부정적 극성에 대한 정의가 존재하지 않으니 이를 자의적으로 평가했다는 지적을 받을 수밖에 없다.
이런 방식이라면 최형우 교수 등이 부정적으로 분류한 11,755건을 전수로 다시 대조할 필요가 발생한다. 여기에 얼마나 많은 자의성이 개입됐는지, 누가 어떤 식으로 판단했는지, 기준이 무엇인지, 긍정-부정-중립을 어떤 측정 지표에 따라 어떻게 스코어링을 하는지 공개하는 것이 보고서의 신뢰를 회복하는 방법이다.
‘알바‘에 맡긴 부정과 긍정의 판단
추정 수준이긴 하지만, 최 교수팀은 이 보고서의 작성을 위해 적지 않은 아르바이트 학생을 동원한 것으로 보인다. 이들은 데이터를 수집하기 위해 정교하게 설계된 소프트웨어를 활용하지는 않았던 것으로 생각된다. 그 이유는 다음과 같다.
(1) “30분을 기준으로 모바일 뉴스 페이지에 접속하여 해당 뉴스 콘텐츠 제목을 수집하여 분석”했다는 수집 방법의 설명 문구
(2) 오피니언 마이닝 소프트웨어를 동원했다면 이에 따른 각종 스펙 명시 부재
보고서 10페이지를 보면 ‘이 중 부정 표현을 사용한 콘텐츠의 수는 네이버 591건, 다음 438건으로 나타남’이라고 설명한 뒤 그 사례로 다음을 들었다.
[다음]
박대통령 ‘마이웨이’ 인적쇄신…당청 관계 2차 시험대에
이완구 “투기 안했다..국보위 훈장 반납 신중히 검토”
정흥원, 이임 준비만 3번째..각종 패러디물 넘쳐난다
[네이버]
박대통령, 러시아 승전 행사 참석할까…청 ‘고심’
청문건유출 사건 첫 공판, 조응천 혐의 전면 부인
청 인사개편…청 “기대” vs 야 “김기춘 유임 실망”
일단 정치 도메인 말뭉치(corpus)를 기계학습으로 구축해 정치권 오피니언 마이닝으로 사업을 해본 경험을 토대로 할 때 오로지 위 제목만으로 ‘분석기’(data miner)가 부정 표현으로 분류할 확률은 매우 낮다고 생각한다. 일반적으로 오피니언 마이닝은 ‘어휘 사전’(말뭉치)에 누적된 평가 데이터에 의해 정확도가 좌우되는 구조다. 무엇보다 도메인(분야나 카테고리)에 따라 어휘의 쓰임새가 달라지므로 경제 분야 기사에 활용된 긍/부정 말뭉치가 정치 분야에 동일한 정확도의 성능을 발휘하기를 기대하기 어렵다.
위 사례처럼 30음절도 되지 않는 짧은 제목 문구만으로 그것도 긍/부정 분류가 애매한 보통/고유 명사로 짜여진 제목에서 긍부정을 기계적으로 추출해내기란 결코 쉽지 않다. 예를 들어 ‘마이웨이’, ‘시험대’를 정치 도메인 말뭉치에서 부정어로 분류할 것이냐, ‘신중히‘라는 부사를 부정어로 분류할 것이냐 중립어로 분류할 것이냐. 이는 판단이 쉽지 않다. 만약 그렇게 판단했다면 기계학습을 통해 정치 도메인에서 두 단어가 부정어로 학습됐다는 ’기계학습 알고리즘 활용‘ 문구라도 보태지는 것이 기본이다.
만약 이 보고서가 기계학습(Machine Learning)에 따른 오피니언 마이닝을 실시했다면 분명하게 이를 밝혔을 것이다. 이는 용역 보고서의 가치를 더하는 것으로 더 많은 비용을 의뢰인측에 요구할 수 있는데다 권위와 신뢰까지 얻을 수 있기 때문이다.
결국 포털 모바일 뉴스 각 카테고리마다 30분 간격으로 접속한 것은 최형우 교수 등이 보고서 작성을 위해 채용한 아르바이트생일 확률이 높다. 그렇다면 이 보고서 전체의 신뢰에 다시 한 번 금이 간다. 24시간 모니터링을 했는지(새벽 2시, 3시에도 접근했는지), 누락된 기사는 없는지, 각 아르바이트생들은 제목을 어떤 기준에 따라 긍정/부정/중립이라 판단했는지, 꼬리에 꼬리를 무는 질문들이 이어지게 마련이다.
결국 해당 제목에 대한 1차 판단은 담당 아르바이트생이 진행했을 가능성이 높으며, 이를 최 교수 등이 제대로 검증했는지는 확인할 길이 없다. 검증했다손 치더라도 5만여건 전수 검증을 진행했을 거라 믿는 이들은 적을 것이다. (물리적으로 어렵기 때문에 빅데이터 분석 소프트웨어가 유행을 타는 것이다.) 그리고 이들 아르바이트생들이 정치 분야 뉴스에 대한 맥락적 지식을 갖추고 있는지에 따라 각 개별 기사 판단 값이 천차만별일 텐데 이를 어떤 방식으로 고려했는지도 보고서엔 나타나있지 않다.
숫자 오류와 성의 없는 감수
작은 실수를 들먹이는 건 유치할 수도 있겠지만, 보고서 곳곳에서는 감수의 성의가 부족한 내용도 포함돼있다. 예를 들면, 포털 뉴스 부정적 표현 사용 기사 건수에 대한 수치다. 도표에는 부정 표현이 11,755건이라고 명시돼있지만 아래 해설문에는 11,555건이라고 표기돼있다. 단순 실수에 불과할 수 있겠지만 이는 보고서의 신뢰를 떨어트리는 요소라 할 수 있다. 보고서가 주장하는 주장의 핵심 논거임에도 해당 수치를 명시하는데 실수가 있었다는 사실은 감수자의 불성실성을 방증하는 한 예라고 할 수 있다. (2015년 9월8일 업데이트)
궁금해지는 대목
몇 가지 동의하는 점