과학과 철학 에세이/과학, 기술, 사회

감염병 대유행과 정치 2. 사전투표 조작 의혹 논란(PI와 SI 구분하기)

착한왕 이상하 2020. 4. 27. 00:17

그런데 이번 총선을 놓고 사전투표 조작설을 둘러싼 잡음이 굉장히 소란스럽다. 부정 투표 정황을 통계적으로 추적하는 방법은 사례별로 다른 경우가 많은 데다가 상당히 복잡하기 때문에, 그것을 다루는 것 역시 상당히 긴 분량의 글을 요구한다. 그러한 글을 작성하는 데 에너지를 투자하는 것은 나에게는 시간 낭비에 불과하다. 그래서 봉인 효과가 독일, 이탈리아, 우리나라에 어떤 식으로 나타났는지를 추정하기 앞서, 이번 총선 사전투표 의혹을 둘러싼 논쟁을 간략히 집고 넘어가자. 그 논쟁을 불러일으킨 핵심 이유는 다음과 같다.

 

핵심 이유 EG: 더불어 터진당 대 과거 통합당, 문어벙 대 황어벙을 대표하는 이번 총선에서 더불어 터진당의 압승에는 사전투표가 결정적 기여를 했다. 당일 투표 개표 결과에서 두 당의 득표율은 큰 차이를 보이지 않았기 때문이다. 부산, 경남, 경북 지역이 과거 통합당으로 넘어갔기 때문에, 인구가 밀집된 서울권 지역 유권자들 다수가 사전투표에서 더불어 터진당에게 표를 던졌다고 해야 한다. 그래도 그렇지 어떻게 두 당에 대한 선거 당일 득표율과 사전투표 일 득표율이 크게 다를 수 있는가? 사전투표와 당일 투표에 걸친 두 정당의 전체적 평균 격차가 서울 및 경기도 지역구들에서만 13% 내외로 일정하게 나타날 수 있단 말인가?

 

현 개판 선거관리 방식 틀 내에서 위 EG를 말끔하게 불식시키기 어렵다고 생각한다. 하지만 사전투표 부정이 수학적으로 100% 확실하다는 몇몇 보수 진영 교수들과 유튜브 논객들의 주장에는 허점이 많다. 너무나 유치한 주장이 있다. 통계 물리학 등을 운운하면서 자연계의 현상에 투표 결과를 적용해, EG13%가 절대 발생할 수 없다는 것이다. 자연계와 관련된 통계는 인간의 의도나 선호도 등과 무관한 자연적 제약 및 그러한 제약들에 바탕을 둔 물리적 안정성을 다룬다. 자연계의 성향을 다룬 통계 결과를 지역적 편차 및 상황에 따라 변화하는 개인들의 투표 성향에 직접 적용해 이렇다 저렇다 주장하는 것은 넌센스에 가깝다. 전통적으로 지역별로 집단적 투표 성향 차이가 크고 또 변동폭이 심한 국가들이 있는데, 실례로 독일, 스페인, 폴란드 등을 들 수 있다. 그런 국가들의 과거 선거 결과들을 분석해 보면, 특이 현상 혹은 통계적 비규칙성을 보이는 경우가 많다. 관심 있는 사람은 해당 국가들의 그런 특이 현상을 다룬 논문들을 구글을 통해 쉽게 찾아 볼 수 있다.

 

EG를 가지고 사전투표 의혹을 주장하는 유튜브 보수 논객들 중 일부는 엉뚱하게 무차별성의 원리(Principle of Indifference)’를 근거로 제시한다. 그들의 주장이 무엇인지 이해할 수는 있는데, 그 주장의 근거는 무차별성의 원리가 아니라 통계 기법 적용의 무차별성혹은 투표자들의 무작위성(randomness of voters)’이 되어야 한다. 다시 말해, 그들은 그들의 주장에 엉뚱한 근거를 제시하고 있지만, 그들을 추종하는 무리들은 동영상으로 뜬 위키 등의 관련 자료를 제대로 읽지도 않고 박수치기에 바쁘다. 이러한 현상은 그들과 반대편에 서 있는 진보 논객들에게도 공통적으로 나타나고 있다. 이들 머저리 보수와 진보 논객들에게 놀아나는 일반인들이 줄어야 한다. 먼저 무차별성의 원리와 통계 기법 적용의 무차별성을 구분하고, 어떤 특수한 경우에 통계학적으로 선거 조작의 흔적을 찾을 수 있는지 알아보자.

 

무차별성의 원리 PI: n개의 가능한 경우 혹은 결과들이 있다고 하자. 각 경우 혹은 결과의 가능성에 대한 확률을 결정할 수 있도록 해 주는 정보가 불충분하다. 이때 각 경우 혹은 결과에 대해 동일한 확률값을 주는 것이 합리적이다.

 

통계 기법 적용의 무차별성 SI: 변덕스러운 개인들의 선호 방식에 근거한 집단적 성향을 보여 주는 선거 결과 등을 통계적으로 다룰 때, 통계학자는 각 개인들의 그런 선호 방식을 알 수 없는 것으로 전제하고 투표 절차 및 결과에 통계적 분석을 가해야 한다. SI는 그냥 설명을 쉽게하려고 내가 만든 용어이다. 그것은 주류 학계의 투표자들의 무작위성개념에 대응하는 것이다. 그 무작위성은 유권자들이 동전 던지기 등을 통해 무작위로 투표한다는 것이 아니며, 또 그들에게 동일한 확률값을 준다는 것도 아니다. 그것은 투표 절차 및 결과의 통계적 분석을 통해 집단적 성향을 밝히는 과정에서 개개인 유권자의 선호 방식을 '?'로 처리해야 한다는 것이다.

 

PISI의 위 구분에서 보듯이, PI는 단일 사건 발생에 대한 개인의 주관적 믿음 혹은 예측과 관련된다면, SI는 선거 결과에 대한 통계적 사후 분석에 해당한다. PI를 가지고 EG를 평가하는 것이 얼마나 터무니 없는지를 아는 것은 쉽다. PI가 적용 가능한 대표적 사례는 동전 던지기에서 앞면이 나올 확률값을 정하는 것이다. 인위적 조작이 없다면, 동전을 던져 앞면이 나올지, 뒷면이 나올지를 정확히 알 수 없다. 이러한 경우, 앞면이 나올 가능성과 뒷면이 나올 가능성에 각각 동일 확률값 1/2를 주는 것이다. 그리고 동전 던지기 시행이 늘어날수록 각 면의 확률값은 1/2로 수렴한다는 것이다. PI는 엄격히 말해 단일 사건 발생 가능성에 대한 개인의 주관적 믿음 혹은 가망성 예측과 관련되기 때문에, PI를 무조건 빈도수 확률이나 집단 성향을 나타내는 확률에 적용할 수 없다. 그럼에도 멍청한 일부 보수 논객들은 함부로 PI를 거론해 가며 EG에 근거해 사전투표 의혹을 몰아가고 있는데, 이에 속아 넘어가는 무비판적 대중도 많다.

 

PI는 여러 모순과 문제를 발생시킨다. 아주 간단한 것 하나만 예로 들자. 두 자녀를 둔 어느 가정이 있다. 그 중 한 명은 딸이다. 나머지 한 명은 딸일까, 아니면 아들일까? 어떤 사람은 다음과 같이 판단한다.

 

둘 모두 딸이다.

하나만 딸이고, 다른 한 명은 아들이다.

 

위와 같이 판단한 경우, 둘 모두 딸인 경우 그리고 하나만 딸이고 다른 한 명은 아들인 경우 각각은 PI에 따라 확률값 1/2를 갖게 된다. 그런데 위와는 다르게 다음과 같이 판단하는 사람도 있다.

 

더 나이가 많은 아이는 딸이고, 어린 아이도 딸이다.

더 나이가 많은 아이가 딸이고, 어린 아이는 아들이다.

더 나이가 많은 아이가 아들이고, 어린 아이는 딸이다.

 

위처럼 판단하는 사람에게 각 경우는 PI에 따라 확률값 1/3을 갖게 된다. 판단에서 이러한 두 사례의 차이는 단일 사건 발생 또는 경우에 대한 주관적 믿음 혹은 확률은 가능한 가능성들의 초기 분할 조건에 의존적임을 암시한다. 따라서 단일 사건 발생 혹은 경우에 대한 주관적 믿음 혹은 확률을 정하는 데 PI를 그 사용 맥락과 무관하게 일률적으로 사용할 수 없다. 주관적 확률을 둘러싼 현대적 논쟁 중 하나는 일반적으로 인정되는 합리성의 기준들에서 PI를 이끌어 낼 수 있는가?’이며, 이 물음에 대해 긍정하는 진영과 부정하는 진영이 충돌하고 있는 상황이다.

 

PI에 관한 지금까지의 간략한 논의에 따를 때, 개인의 선호 방식들에 근거한 집단적 성향에 대한 사후 분석에서 PI를 운운하는 것은 어불성설이다. PI는 단일 사건 발생 가능성에 대한 사전 예측 혹은 주관적 믿음과 관련된 원리이기 때문이다. 만약 PI를 선거 결과에 억지로 적용한다면, n명의 후보자의 경우 '어느 후보보다 누구를 더 선호한다'는 조건만으로도 서로 다른 경우의 수들의 조합들이 발생하기 때문에 위에서 살펴본 초기 분할 문제의 딜레마에 빠지게 된다. 보수 논객들이 EG와 관련해 무차별성운운한 내용을 들어보면, 그것은 PI가 아니라 SI이다. SI. 즉 통계 기법 적용의 무차별성에 따를 때, 우리는 통계학적으로 혹은 수학적으로 선거를 조작한 경우에 대한 다음의 정의를 얻을 수 있다.

 

통계학적으로 혹은 수학적으로 선거를 조작한 경우: 통계 기법 적용의 무차별성에 위반된 어떤 정황이 통계적 분석을 통해 수치적으로 혹은 패턴으로 나타나는 경우이다.

 

위 경우를 대표하는 조작 정황 중 하나로 반올림 조작을 들 수 있다. 특정 후보가 특정 득표율을 얻도록 득표수 특정 자릿수 이하를 반올림 기법을 사용하여 삭제시키는 조작법이다. 대표적으로 프듀X101’ 반올림 조작 사건을 들 수 있다. 반올림 조작을 한 경우, 특정 분포군에서의 반올림한 결과가 0, 5 등의 반복적 패턴으로 나타난다. 그러한 패턴이 나올 가능성은 매우 희박하기 때문에, 그러한 패턴은 통계 기법 적용의 무차별성을 어긴 정황, 즉 조작한 정황을 대표한다. 러시아의 2011년 총선은 반올림 기법을 통한 선거 조작 정황을 보여 주는 사례로 자주 거론된다.

 

Kobak, D., Shilkin, S. & Pshenichnikov, M.S.(2016). “Statistical fingrprints of electoral fraud?”. Significance, Vol.13, Issue4, pp.20-23.

https://bit.ly/355Pr5L

 

그러나 아주 특수한 조건들이 성립하는 경우, 정상적인 선거 결과에서도 반올림 효과의 통계적 특이 현상이 나타날 수도 있다. 그래서 통계학적으로 혹은 수학적으로 선거를 조작한 경우에 대한 또 다른 감식법 및 기준을 제시하는 학자들도 있다. 실례로 다음을 들 수 있다.

 

Kliml, P., Yegorov, Y., Hanel, R. & Thurner, S.(2012). “Statistical detection of systematic election irregularities”. Proc. Natl. Acad. Sci. U.S.A., 109(41), pp.16469-16473.

https://bit.ly/357aF2Z

 

이번 총선 결과를 통계적으로 분석하면, 반올림 효과의 조작 정황은 없다. 그렇다면 위 연구 결과를 적용해 조작 정황을 판가름지을 수 있을까? 나의 대답은 아니다이다. 현 선거 방식을 보면, 사전투표와 당일 투표로 나누어져 있고, 더욱이 전자 개표와 수동 개표가 뒤섞여 있다. 뭐 이런 지랄스러운 선거 및 선거 관리 방식이 다 있는가? 21세기에 들어와 선거 조작 의도를 가진 독재자나 정치 세력들은 사전 조작 의혹이 통계학적으로 드러나지 않도록 최선을 다한다. 그런 조직들에게 구세주와 같이 나타난 것이 있는데 바로 전자 개표이다.

 

컴퓨터를 이용하는 전자 개표 방식은 외부 해킹에 노출될 가능성을 배제 못하며, 또한 컴퓨터에 사전 조작 프로그램 이식 가능성도 배제 못한다. 더욱이 후자의 경우, 단 한 명의 프로그래머만을 이용해 선거 사전 조작이 가능하다. 이 때문에 조작을 은폐하려는 집단은 관리자 수를 줄일 수 있다는 명목만으로도 전자 개표를 선호한다. 실제 아프리카, 남미 등 여러 국가들에서 전자 개표를 이용한 사전 투표 조작 사건들이 있었다. 이번 총선의 사전투표에 정말 조작이 개입했다면, 그 조작은 개표기를 주관하는 컴퓨터에 특정 프로그램을 이식시키는 공학적 조작 방식일 것이다.

 

공학적 사전투표 조작 가능성과 관련해 현 상황에서는 그런 조작이 있었던 국가들의 통계 분석에 비추어 이번 총선 결과의 논란거리인 EG를 평가해 보는 것이다. 그런 국가들을 보면, 13%와 같은 것이 지역구를 더욱 소규모로 쪼개어도 나타난 경우가 많다. 실례로 13%가 인천, 안양, 성남시, 서울 각 지역구에서 나타났다고 하자. 종로구만 하더라도 평창동, 무슨 등 여러 동들이 있다. 그런 동들 전체에 걸쳐 문제의 13%가 나타난다면, EG를 가지고 전자 개표의 공학적 조작 의심에 대한 신뢰도는 높아진다. 왜 그럴까? 그런 13% 평균 격차가 지역구들을 쪼갠 동단위까지 편차 없이 나타난다는 것은 지역별 빈부 격차, 교육 수준 등을 고려할 때 민주주의 사회에서는 발생하기 어렵다고 판단되기 때문이다.

 

정말 그렇게 나타나는지는 확인해 보지 않았다. 정말 그렇게 13%가 나타나더라도, 현 상황에서 선관위가 그 현상을 사전투표에서 해당 지역 사람들의 선호 방식의 특별한 쏠림 현상이라고 주장하면서 아무 검증 조치를 취하지 않는다면 어떻게 되는가? EG 평가에서 공학적 조작 가능성이 배제되지 않는 한, 사전투표 조작설을 둘러싼 논쟁은 식지 않을 것이다. 사전투표 일에 52% 이상의 50대 이상 중년 및 노년층이 투표했기 때문에, 조작이 맞다는 보수 진영의 주장도 이번 바이러스 대유행의 특수한 상황에서는 무조건 수긍하기 힘들다. 당장 내 주변만 보아도, 평소 현 정권에 비판적이던 사람들 중에서도 우리가 알고 보니 정말 선진국이었어”, “미국이 계속 방위비 인상을 고집하면 우리의 우수한 진단기를 미국에 수출하지 말아야지라고 말하는 사람들이 늘어났다는 것이다.

 

분명한 것은 이렇다. 현 선거 및 선거 관리 방식은 문제가 많다. 사전투표는 전자 개표, 선거 당일 개표는 수동 개표의 이원 관리 체제에다가 전자 개표의 허술한 점들도 보완되고 있지 않다. 우리나라 전자 개표기를 수입해 명백한 부정 선거를 한 곳들도 있다. 실례로 이라크 2018년 총선을 들 수 있다. 솔직히 말해 나는 전자 개표의 필요성을 인정할 수 없다. 아무튼 선관위가 EG에 근거한 의혹을 말끔하게 정리할 정도의 설명을 제공하지 못하는 한, 사전투표 사전 조작 의혹은 당분간 지속될 것이다. 더욱이 의혹 제기 자체를 불법화하여 형사 고발 운운하는 선관위의 태도는 매우 실망스럽다. 의혹을 제기하면, 무조건 반민주적인 것이고 형사 처벌감? 현 방식의 선거 및 선거 관리 방식이 계속 유지된다면, 대선과 총선 때마다 항상 부정 선거 의혹설이 나올 것이다. 이러한 상황에서 나는 일단 사전투표의 공학적 조작이 없었다고 가정하고 봉인 효과가 독일, 이탈리아, 우리나라에 어떻게 나타났는지를 추정할 것이다. 설령 그런 공학적 조작이 있었다고 해도, 또 대통령 지지율 여론 조사 방식에 많은 문제점이 있다고 해도, 이번 코로나바이러스 대유행 덕에 그 지지율이 오른 것은 사실이다. 다만 실제 지지율에서 오른 것인지, 아니면 과장된 지지율에서 더 오른 것인지만 문제가 될 뿐이다.