[장지연의 통계 칼럼] 설문조사에도 방법이 있다

올바른 설문조사 매뉴얼

  

우여곡절 끝에 전국의 모든 학생이 등교한 지도 벌써 넉 달이 지났다. 지난 한 학기 동안 대부분의 학교에서 격주 등교가 잘 이루어진 것을 보면 학교에서 생활 방역이 어느 정도 성공적인 것 같기도 하나, 최근 다시 교회를 중심으로 한 지역감염이 늘어나면서 9월 수도권의 학교는 다시 원격수업으로 전환해야만 했다. 그리고 앞으로는 추석 연휴 간의 이동에 따른 확산세도 얼마나 커질지 가늠할 수 없다. 이에 따라 매일 아침 학생들이 등교 전 하는 '학생 자가진단'의 역할은 더욱 커질 것이다. 학생 자가진단은 등교 직전뿐만 아니라 원격으로 진행되는 수업일수 동안 꾸준히 학생들의 건강 상태를 확인하여 교내 집단감염을 사전에 방지해 줄 수 있기 때문이다.

 

학생 자가진단 문항은 아래와 같다. 응답 결과 코로나19로 의심된다는 판정이 나오면 해당 학생은 등교 중지 처리된다. 

 

학생 자가진단은 총 다섯 개의 객관식 문항으로 구성되어 있다. 코로나19의 대표적 증상의 유무를 묻기도 하고, 주변인의 격리 여부를 묻기도 한다. 이렇게 여러 학생으로부터 특정한 응답을 요구하는 '학생 자가진단'은 일종의 설문조사라고 할 수 있을 것이다. 그런데 이렇게 간단해 보이는 설문조사도 신중히 문항을 구성해야 하고, 설문대상을 공정하게 정하는 적절한 표집법이 필요하다. 설문조사는 왜 신중히 행해져야 하며, 또 올바르게 설문조사를 실행하는 방법에는 무엇이 있을까?

 

 

설문조사의 올바른 방법을 알아보기에 앞서, 우선 설문조사(survey)의 특성을 파악할 필요가 있다. 설문조사의 본래 목적은 적은 사람(표본, sample)을 대상으로 몇 가지 질문을 하고 답변을 얻어냄으로써 더 많은 사람(모집단, population)의 전반적인 의견을 예측하는 데 있다. 예를 들어 회사 A의 제품 X를 구매하여 사용한 고객이 해당 제품에 대해 얼마나 만족했는지를 알아보기 위해 전체 고객 중 100명을 뽑아 만족도 조사를 실시할 수 있다. 제품 X를 구매한 고객 전부를 대상으로 설문조사를 실시하기에는 고객 수가 너무나도 많고, 설문 결과를 정리하는 데에도 너무 오랜 시간이 걸리기 때문이다. 이때 설문조사의 대상이 된 고객 100명은 전체 고객(모집단)을 대표하는 "표본"이 되는 것이고, 이렇게 적절한 수의 표본을 조사하는 것을 "표본조사"라고 한다. 

 

앞서 언급한 대로 시간적 · 경제적 문제 때문에 대부분의 설문조사는 표본조사로 실시된다. 물론 '학생 자가진단'의 경우 대한민국의 초 · 중 · 고등학생의 건강 상태를 매일 확인하는 그 특성상 모든 학생을 대상으로 하지만, 이는 각 시 · 도의 교육청과 각 학교의 교사들이 본인이 맡은 소수 학생의 상태만을 확인하면 되기 때문에 가능한 일이다. 따라서 표본조사로 실시되는 설문조사의 경우, 표본으로부터 나온 결과를 바탕으로 모집단의 결과를 "예측"하는 일이므로 표본의 결과가 최대한 모집단의 결과를 대표할 수 있게끔 설문조사를 설계하는 것이 중요하다. 물론 표본의 결과가 한 치의 오차 없이 모집단의 결과를 나타내지는 못하겠지만, 모집단의 결과와 너무 다른 표본의 결과가 나와 버린다면 설문조사의 본래 목적을 이루지 못하게 되기 때문이다. 

 

그러나 안타깝게도 설문조사의 결과를 정확하지 않은 방향으로 편향(bias)시키는 요인들이 몇 가지 존재한다. 가장 흔한 경우는 자발적으로 답변하는 설문조사에서 발생한다.1 개인의 자유에 맡긴 설문조사를 실시할 경우, 그 분야에 관해 관심이 있거나 강한 의견을 가지고 있는 사람들이 표본의 대부분을 차지할 가능성이 커지므로 설문 결과가 그들의 의견 쪽으로 치우치게 된다. 예를 들어 "현재 코로나19의 유행 속 학생들의 격주 등교제의 효율성"에 대한 설문조사를 실시할 때, 이 설문조사의 링크를 교육청 홈페이지에 탑재해 놓고 원하는 사람만 해당 링크에 접속해 자유롭게 답변하도록 한다고 가정해 보자. 당신이라면 설문조사에 참여하겠는가?

 

해당 설문조사에는 '강제성'이 없다는 것이 큰 특징이다. 즉, 자유롭게 응해도 되므로 격주 등교제에 대해 큰 관심이 없거나 현재 등교 방침에 별다른 불만이 없는 사람이라면 굳이 링크에 접속해 설문조사에 응하지 않을 것이다. 그러나 현재 시행되고 있는 격주 등교제가 비효율적이라고 생각하며 불만을 느끼고 있는 사람이라면, 설문조사에 참여함으로써 자신의 부정적 의견을 제시할 가능성이 크다. 따라서 설문조사에 참여할 표본을 미리 정하지 않고 개인의 자유에 맡길 경우, 해당 문제에 대해 강한 부정적 의견을 가지고 있는 사람이 주로 답할 것이기 때문에 설문 결과 또한 부정적 방향으로 편향될 수 있다. 즉, 실제로는 격주 등교제에 대해 만족하는 사람이 더 많을 수 있지만, 설문에 답한 대다수가 부정적 의견을 나타냈기 때문에 설문 결과에 따르면 격주 등교제가 효율적이지 않다는 결론이 나올 수 있는 것이다. 

 

 

위와 같은 이유로 설문조사에서는 공정성을 위해 표본을 미리 추출하는 것이 바람직하다. 그러나 표본을 추출했음에도 설문 결과에 편향성이 생길 수 있다. 크게 두 가지 이유가 있는데, 첫 번째는 표본을 추출하는 방법 자체가 잘못된 경우이다. 전화통화로 설문조사를 실시하여 이에 응답한 첫 100 명의 결과를 정리하는 경우를 생각해 보자. 이때 표본은 "통화에 응답한 첫 100명"이 되는 것이다. 그런데 이 설문을 통해 결과를 예측하고자 하는 모집단이 "대한민국 국민" 또는 "경기도민"이라고 한다면 이 설문은 잘못 설계된 것이다. 대한민국 국민과 경기도민 중에는 휴대전화가 없는 사람이 있을 수 있는데, 전화 통화로 설문을 실시할 경우 휴대전화가 없는 사람들은 표본을 추출하는 과정에서 처음부터 누락되었기 때문이다. 즉, 모집단의 결과를 예측하기 위한 표본을 추출할 때 그 표본은 모집단 전체로부터 추출해야 하는데, 일부 사람을 제외한 집단에서 표본을 추출한다면 그 표본은 모집단을 대표할 수 없기 때문이다. 따라서 표본을 추출할 때는 모집단을 대표할 수 있도록 하는 것이 설문으로부터 모집단의 결과를 올바르게 예측하는 데 도움이 된다. 

 

두 번째는 표본을 올바르게 추출했음에도 설문 과정에서 오류가 생긴 경우이다. 설문 과정에서의 오류는 다시 여러 개로 나눌 수 있다. 그중 하나는 명료성에 관한 문제이다. 설문조사의 문항은 참여자들이 읽었을 때 무엇을 묻고 있는지를 정확하게 이해할 수 있어야 한다. 설문조사 문항이 "격주 등교제에 반대하는가?"이고 선택지로는 "찬성"과 "반대"가 있는 경우를 가정해 보자. 이때 "찬성"은 격주 등교제에 찬성하는 것인지, 격주 등교제에 반대하는 것에 찬성하는 것인지 불분명하다. 따라서 위와 같이 문항을 구성하는 경우 문항의 잘못된 이해로 인해 편향성이 생길 수 있다. 학생 자가진단의 문항의 경우, 3번 문항인 최근 해외여행 여부를 물을 때 "최근"의 정의를 "14일 이내"로 정함으로써 "최근"에 대한 개개인의 생각 차이로부터 오는 편향성을 줄였다고 볼 수 있다. 

 

또 한 가지는 솔직함과 관련된 문제이다. 설문조사는 오로지 참여자의 응답에만 의존하기 때문에 응답자가 솔직하게 답했을 것이라는 전제하에 결과를 분석한다. 그런데 설문 문항이 솔직하지 못한 답변을 유도할 경우, 이 전제는 깨지게 되며 결국 편향된 결과를 가져올 수 있다. 한 가지 예로, 학교폭력 실태조사에는 지난 1년간 다른 학생을 학교폭력으로 괴롭힌 적이 있는지를 묻는 문항이 있다. "있다" 혹은 "없다"로 응답하는 이 문항에서 "있다"라고 대답할 학생이 과연 몇이나 될까? 학교폭력을 행한 적이 없는 학생의 경우 솔직하게 "없다"라고 답하겠지만, 실제로 학교폭력으로 피해자를 괴롭힌 경우 사실대로 "있다"라고 자백할 학생은 거의 없을 것이다. 학교폭력의 가해 사실이 밝혀질 경우 생활기록부에 해당 내용이 기재됨은 물론, 심하면 전학 혹은 퇴학 처분까지 받을 수 있기 때문이다. 따라서 이 문항은 솔직한 답변을 유도해내지 못하고, 결국 대한민국 학생은 다른 학생을 학교폭력으로 괴롭힌 적이 없다는 편향된 결과를 가져올 수 있다. 

 

이렇듯 설문조사는 여러 요인으로 인해 편향된 결과를 나타낼 수 있고, 이로 인해 결국 표본의 잘못된 결과를 바탕으로 모집단의 결과를 예측하게 되므로 설문조사의 의미는 퇴색된다. 따라서 공정하게 표본의 결과를 수집하기 위해서는 우선 표본을 올바르게 추출하는 것이 가장 중요하다. 개인의 자발적인 참여나 전화 통화로 이루어지는 설문의 경우 문제점은 모두 "모집단을 대표할 수 없는 표본"에서 왔기 때문이다. 앞서 말했듯 설문조사는 모집단의 결과를 표본의 결과로부터 예측할 때 쓰이는 도구이므로, 이때 표본은 모집단에 대해 대표성을 가져야 한다. 격주 등교제에 대한 한국인의 의견을 조사하고자 할 때 미국인을 대상으로 설문조사를 실시한다면 한국인의 의견을 알아볼 수 없기 때문이다. 따라서 모집단을 대표할 수 있도록 표본을 올바르게 추출한 뒤, 그 표본을 대상으로 설문조사를 실시하는 것이 바람직하다. 이때 표본을 추출하는 것을 통계학적 용어로 "표집(sampling)"이라고 한다. 그렇다면 올바른 표집법에는 무엇이 있을까?

 

첫 번째로는 "단순 무작위 추출법"(Simple Random Sampling, SRS)이 있다.1 이는 모집단에 있는 모든 개인을 놓고 한 명씩 무작위로 추출하는 것이다. 경기도민 1,365만명2을 모집단으로 하는 설문조사에서 표본수가 5만인 표본을 추출한다고 가정해 보자. 이 경기도 인구 1,365만 명 모두에게 1부터 1,365만까지 일정한 숫자를 부여하고, 컴퓨터 시스템으로 1부터 1,365만까지의 자연수 중 무작위로 5만 개의 숫자를 추출해 그 5만 개의 숫자에 해당하는 사람을 표본으로 삼는 것이 단순 무작위 추출법이다. 이 표집법은 모집단의 개인을 한 명씩 추출하기 때문에, 모집단으로부터 추출될 수 있는 모든 표본의 경우의 수는 모두 같은 확률을 가진다는 특징이 있다. 그리고 무엇보다도 방법이 단순하기 때문에 설문 결과를 쉽게 이해할 수 있다는 장점이 있다.

 

그러나 위 예시와 같이 모집단의 크기가 큰 경우 실질적으로 실행하기 어렵다는 단점이 있다. 경기도민 1,365만 명에게 1,365 개의 자연수를 부여하고, 그중 5만 개의 자연수를 선택하고, 그 5만 개의 자연수를 부여받은 사람이 누구인지를 찾기까지 얼마나 많은 시간이 걸리겠는가. 또한, 무엇보다도 모집단에 여러 특징이 섞여 있는 경우 그중 한 특징만을 주로 포함하는 표본이 추출될 수 있다는 치명적인 단점이 있다. 자사고 폐지에 대한 대한민국 학생의 의견을 묻는 설문조사를 실시한다고 가정해 보자. 이때 대한민국 학생 모두를 대상으로 단순 무작위 추출법을 이용해 학생 1,000명을 뽑을 수 있을 것이다. 그런데 개인을 대상으로 표본을 추출하는 것이기 때문에, 추출된 1,000명이 모두 초등학생일 수도 있다. 과연 초등학생 1,000명이 자사고 폐지에 대한 대한민국 학생의 의견을 대변할 수 있을까? 

 

이런 문제를 해결하기 위해 나온 표집법이 바로 "층화추출법"(Stratified Sampling)이다.1 성별, 연령, 직업 등 설문 결과에 영향을 줄 수 있는 특정한 기준으로 모집단을 두 개 이상의 층으로 나눈 뒤, 각 층에서 단순 무작위 추출법을 이용하여 표본을 뽑는 것이다. 이때 각 층은 기준에 따른 서로 다른 특징이 섞인 것이 아니라 같은 특징으로 구성되어야 한다. 예를 들어서 자사고 폐지에 대한 대한민국 학생의 의견을 물을 때, 대한민국 학생을 초 · 중 · 고등학생의 세 단계로 분류한 뒤, 각 집단에서 500명씩 표본을 추출하는 것이다. 이렇게 되면 표본에 초 · 중 · 고등학생 모두가 표본에 반영된다는 장점이 있고, 더 나아가 설문 결과를 각 집단별로 비교할 수도 있다. 

 

이 방법과 비슷하지만 다른 표집법으로는 "집락추출법"(Cluster Sampling)이 있다.1 서로 다른 특징을 고루 가지고 있는 여러 개의 집단 중 몇 개의 집단을 선택하는 방법이다. 앞서 나온 예시를 바탕으로 생각해 보자. 자사고 폐지에 대한 대한민국 학생의 의견을 물을 때, 몇 개의 지역만을 선택할 수 있다. 각 지역은 초 · 중 · 고등학생을 모두 가지고 있기 때문이다. 따라서 만약 대한민국의 시 · 도 17개 중 5개를 무작위로 골라 그 지역 학생 전부를 대상으로 설문을 실시한다면 이것은 집락추출법이다. 이 표집법 또한 성별이나 연령과 같은 기준으로 집단을 나누어 표집한다는 점이 층화추출법과 비슷하지만, 서로 같은 특징을 가진 집단으로 나눈 층화추출법과는 달리 각 집단에 서로 다른 특징이 서로 섞이도록 한다는 점이 다르다. 따라서 서로 섞인 집단 중 몇 개를 선택하면 되기 때문에 층화추출법에 비해 쉽고 빠르게 표집할 수 있다는 장점이 있지만, 학급이 배정된 것처럼 이미 집단이 구성된 경우가 아니라면 직접 특정한 기준에 따라 집단을 나누어야 한다는 불편함이 있다. 또한, 층화추출법에 비해 정확하지 않다는 단점도 있다. 특정한 지역 학생만을 대상으로 자사고 폐지에 대한 의견을 물을 경우, 수도권과 지방에 따라 의견이 달라질 수도 있는데 집락추출법은 이 점을 간과했기 때문이다. 

 

설문조사는 사람들의 선호도나 의견을 조사하고자 할 때 유용하고, 편의성 때문에 널리 쓰이는 방법이다. 그런데 설문조사의 결과를 바탕으로 모집단 전체의 결과를 예측해야 하므로 설문조사는 적절히 추출된 표본을 대상으로 이루어져야 한다. 안타깝게도 대다수의 설문조사는 이러한 표집의 원리를 지키지 못하고 있다. 이로 인해 설문 결과에 편향성이 생길 수 있고, 이 편향된 결과를 바탕으로 수많은 '어그로성 제목'이 나오게 되는 것이다. 따라서 설문조사를 실시할 때 공정한 표집법을 사용하는 것도 중요하지만, 설문 결과를 분석할 때 이 설문의 표본이 모집단을 잘 대표할 수 있는지, 그리고 설문 문항이 명료하고 솔직한 답변을 유도하게끔 구성되어 있는지 살펴볼 필요가 있다. 앞으로 길에서 "2019년 고객 만족도 조사 1위!"라는 광고 문구가 보인다면 스스로 질문을 던져 보도록 하자. '저 만족도 조사에 참여한 고객은 어떻게 선택되었을까?' 

 

 

『참고 및 인용자료 출처』

1. 참고자료: Martin Sternstein, Ph.D.(2017). AP Statistics. 뉴욕: Barron's Educational Series, Inc.

2. 인용자료: 경기통계 https://stat.gg.go.kr/statgg/tblInfo/mainStats.html

 

이 기사 친구들에게 공유하기