오픈 이슈 갤러리 같이 보고 싶은 유머 글이나 이미지를 올려보세요!
URL 입력
-
유머
방송을 통해 인성이 드러났다는 사망여우
[12]
-
유머
딸 데리고 놀이공원 처음 간 애아빠
[17]
-
유머
인절미에게 자리뺏긴 냥이
[16]
-
계층
1억 2천 캣맘
[30]
-
계층
ㅎㅂ) 수영장에서 나오는 짤
[34]
-
유머
ㅇㅎㅂ 트위터에서 유행하는 엉하트 챌린지
[35]
-
계층
한국에는 없는 일본 유부녀들의 고유문화..
[48]
-
계층
김동현 자식농사 근황...
[16]
-
유머
임신한 친구 와이프에게 먹을 걸 사다 준 썰
[6]
-
유머
소리on) 왜 아내들이 항상 삼시세끼 밥해줘야함?
[26]
이미지 업로드중입니다
(1/5)
URL 입력
ㅇㅇㄱ 지금 뜨는 글
|
2025-01-19 09:25
조회: 3,312
추천: 5
서울의소리 여론조사에서 20대 대상으로 한 질문에 대한 글최근에 서울의소리에서 의뢰한 여론조사 결과에서
"20대 보수 지지자들의 뉴진스에 대한 질문 정답률 69.3%가 진보층의 정답률 89.7%에 비해 현저히 낮았다. 이러한 현상은 보수 지지층들이 나이를 속이고 20대라고 거짓 대답을 했기 때문이다." 라는 글이 많이 올라왔었습니다. 하지만 제 생각에는 저 차이가 남여 차이로 인해 발생한 것일 수도 있었다고 봤고, 아직 세부 지표가 올라오지 않아 결론을 내리기 힘들다고 댓글을 단 적이 있었습니다. 지금은 시간이 지나서 해당 여론조사에 대한 세부 지표를 확인할 수 있는데, 제 예상이 틀리긴 했지만 그걸 떠나서 여론조사 자체에 심각한 문제가 있는 부분들을 발견했습니다. 제가 여론조사나 통계 전문가는 아니지만 지난 대선을 거치며 여론조사 결과에 대해 의문점이 많이 발생하였고, 궁금증을 해소하기 위해 나름대로 공부하고 분석한 적이 있습니다. 그래서 다른 분들께 여론조사 결과를 볼 때 주의해야 할 점도 말씀드릴 겸 간략히 정리해서 글 올립니다. 짧은 지식이지만 알고 계시면 나쁘진 않을 것 같으니 시간 되시는 분들은 교양 삼아 보시면 좋을 것 같네요 목차는 크게 세 가지로, 다음과 같습니다. 1. 여론조사 샘플링 및 가중값 적용 원리 2. 여론조사 결과와 실제 상황(실제 투표 결과 등) 사이에 괴리감이 큰 상황이 발생하는 이유 3. 서울의소리 여론조사 결과의 문제점 1. 여론조사 샘플링 및 가중값 적용 원리 일반적으로 여론조사를 할 때는 1000명가량의 시민의 의견을 샘플링 해서 전체 국민들의 의견을 추정합니다. 이상적으로는 전체 국민 중 특정 그룹에 치중되지 않게 대답을 받아내는 경우, 1000명의 대답만으로도 오차범위 내로 전체 시민의 의견을 추정할 수 있습니다. (가끔 착각하시는 분들이 계시는데 조사를 1000명에게 했다는 것과 1000명에게 대답을 받아냈다는 전혀 다른 의미이고, 1000명이 대답했다고 하면 적은 숫자라고 볼 수 없습니다.) 하지만 조사 과정에서 특정 그룹에 치중해 샘플링을 하게 되면 현실과는 전혀 다른 결과가 나올 수밖에 없습니다. 극단적인 예를 들어서 우리나라 국민 중 남성의 30%, 여성의 10%가 페이커 선수를 안다고 가정해봅시다. 이 경우 남여 인구수가 거의 반반이니 우리나라 국민 중 평균적으로 대략 20%가 페이커 선수를 안다고 할 수 있죠. 하지만 만약 남성 200명, 여성 800명을 대상으로 조사하는 경우 남성 200명의 30%인 60명, 여성 800명의 10%인 80명을 더하면 140명만이 페이커 선수를 안다고 대답할 것이고 그 결과 14%가 페이커 선수를 안다고 하는 잘못된 결과가 나옵니다. 여론조사 업체에서는 이런 문제를 해결하기 위해 실제 인구수를 고려해서 가중값을 적용합니다. 위의 예시처럼 남성 200명, 여성 800명이 응답한 경우 실제 인구수를 고려해 남성의 대답에 2.5의 가중치를, 여성의 대답에 0.625의 가중치를 적용합니다. (실제 적용 방법은 더 복잡하지만 이해를 위해 극단적으로 단순화한 것임) 그러면 남성 200명중 60명의 응답은 2.5를 곱해 150명이 되고, 여성 응답 80은 0.625를 곱해 50명이 됩니다. 이러면 150+50 = 200이 되어 실제 수치인 20%가 정확히 나오죠. ![]() 위와 같이 실제 여론조사 기관에서는 성별/나이/지역 등으로 세분화하고, 세분화된 그룹 별로 실제 인구수에 따른 가중치를 적용합니다. 그래서 1000명의 조사 결과만을 가지고 비교적 정확하게 여론을 조사할 수 있는 것입니다. 2. 여론조사 결과와 실제 상황(실제 투표 결과 등) 사이에 괴리감이 큰 상황이 발생하는 이유 정상적인 여론조사 기관에서는 조사 결과를 바탕으로 실제 여론을 정확하게 잡아내기 위해 많은 노력을 합니다. 하지만 여론조사 특성 상 여론조사를 했다는 이유 하나만으로도 여론조사 결과는 틀릴 수밖에 없습니다. 왜냐하면 여론조사에 '응답'한 사람들에 대한 대답만 들을 수 있다는 사실 자체가 균일한 샘플링에 실패했다는 의미이기 때문입니다. 많이들 경험하시겠지만 여론조사 전화가 오는 경우 귀찮아서 받지 않는 분들이 대부분이고, 특히 정치 관련 여론조사에 응답하는 사람은 정치 고관심층일 가능성이 높습니다. 상식적으로 생각해도 본인이 잘 모르는 분야에 대한 여론조사에는 내용도 모르고 응답하는 것이 의미가 없다고 생각하기 때문에 전화를 받지 않거나 끊는 경우가 많을 수밖에 없습니다. 그래서 정치 관련 여론조사는 정치 무관심층이나 저관심층에 대한 의견을 제대로 반영할 수 없는 구조입니다. 여기서도 이해를 돕기 위해 간단한 예를 들자면 올해 lck에서 어느 팀이 우승할 것인가에 대한 여론조사가 있다고 생각해봅시다. 이 여론조사에 응답할 정도라면 lck를 잘 아는 사람이 많을 것이고, 국내 리그에서는 젠지의 우승 가능성이 높다는 사실을 알 것입니다. 반면 lck를 잘 모르는 사람들은 젠지는 더 모를것이고, 페이커가 작년에도 월즈 우승을 했다는 정도만 아는 사람이라면 T1이 이길 거라고 생각하는 사람이 압도적으로 많을 것입니다. 그래서 아래와 같이 실제로는 굳이 전 국민에게 물어보면 T1이 이길 거라고 생각하는 사람이 많더라도 여론조사를 해보면 젠지가 이길 거라고 생각하는 사람이 많을 수밖에 없어 실제 여론과 여론조사 결과가 크게 차이납니다. ![]() (위에서 말씀드린 예시는 이해를 돕기 위해 극단적으로 설정한 것이라 현실적이지 않은데다, 실제로 젠지가 우승할 가능성이 높은 건 사실이니 여론조사 결과가 정답에 가까운 의견을 찾아낸 것은 맞을 겁니다. 하지만 대통령 선거나 국회의원 선거 등에서는 의견=결과가 되기 때문에, 여론조사 결과와 실제 결과가 매우 다른 경우가 종종 발생하죠.) 또한 특정 사안들이 발생할 때마다 여론조사 응답 의지가 달라지기 때문에 상황에 따라서도 샘플링이 불균형하게 이뤄질 가능성이 매우 높습니다. 참고로 대선 결과나 총선 결과를 가장 정확하게 맞춘 여론조사 결과를 보시면 보수/진보 응답자가 330/300 정도로 조사되는 경우가 대부분입니다. 하지만 탄핵 이후에도 윤석열 지지도가 40%를 넘는 모습을 보이는 여론조사 공정의 결과를 보면 보수/중도/진보 조사 수가 33/38/21% 로 보수 지지층에서 위기감을 느끼고 여론조사에 적극적으로 응답해서 과표집이 일어난 모습을 볼 수 있습니다. 이런 결과는 현실적이지도 않고 정상적이지도 않습니다. 하지만 응답하지 않는 사람들의 데이터를 추정하는 것은 사실상 불가능하기 때문에 여론조사 결과는 현실과 괴리감이 발생할 수밖에 없고, 상황에 따라 그 괴리감이 매우 큰 경우도 발생한다는 사실은 분명히 아셔야 합니다. 3. 서울의소리 여론조사 결과의 문제점 위에서 말씀드린 두 가지 사항을 요약해서 다시 말씀드리자면 다음 두 문장으로 압축할 수 있습니다. 1. 여론조사를 할 때는 가중치를 두어 결과를 보정한다 2. 여론조사 특성 상 샘플링 문제로 결과가 잘못 나올 수밖에 없고, 이를 고려해서 결과를 해석해야 한다 여기서 서울의소리 여론조사 세부 내용을 확인해보면 큰 문제점이 두 개 있습니다. 1) 첫 번째는 가중치 적용입니다. ![]() 해당 조사 결과를 보면 위와 같이 성별/나이/지역에 따라 가중치를 두었다고 하고 있습니다. 하지만 정당 지지도/정당 후보 등의 질문에 대한 결과를 보면 가중값이 전혀 적용되지 않았습니다. 이는 매우 비정상적인 상황입니다. 아래는 여론조사 꽃의 결과인데, 이렇게 정상적인 상황에서는 왼쪽 박스와 오른쪽 박스의 값이 다릅니다. ![]() 하지만 아래 서울의소리 조사의 경우 성별/나이/지역에서 조사 완료수와 가중값 적용 사례수가 완벽하게 일치하죠. 그리고 그 와중에 이념성향이나 정당지지도는 또 두 값이 다릅니다. 이건 말이 안 되는 상황입니다. ![]() 그리고 아래와 같이 논란이 된 K-pop 질문지에서만 성별/나이/지역 가중치가 적용되는 현상이 보여서 자료 자체에 대한 신뢰도가 심각하게 떨어질 수밖에 없습니다. ![]() 2) 두 번째로, 샘플링이 잘못될 경우 여론조사 자체의 신뢰도가 매우 떨어질 수밖에 없는데, 서울의소리 의뢰 여론조사에서는 보수 지지층 응답자가 384명이나 됩니다. ![]() 이는 조사 방법이 잘못되었을 수도 있고, 현 상황 때문에 샘플링 자체가 심각하게 편중되었을 가능성도 있습니다. 만약 샘플링이 편중된 것만이 문제라면 조사기관의 고의성은 없기 때문에 세부 지표는 문제가 없을 수도 있습니다. 하지만 이미 가중치 관련해서도 심각한 오류가 있었기 때문에 조사 과정이나 결과 정리 과정에서 문제가 있었을 가능성이 높습니다. 이번 조사의 의도와 방법에 대해서는 저도 매우 긍정적으로 생각하고 있습니다. 하지만 합리적으로 납득할 수 없는 내용이 존재하고, 큰 오류가 있을 가능성이 높기 때문에 이 결과는 신뢰할 수 없습니다. '그래서 보수 지지층들이 나이를 속이고 20대라고 거짓 대답을 하기 때문에 여론조사 결과가 이상해진다' 라는 주장을 할 때 이 결과를 근거로 내세우는 것은 아직 위험하다는 말씀 드리고 싶습니다. 아무리 상대가 선동과 날조로 승부한다고 해도 저희도 잘못된 자료를 바탕으로 싸우면 안 되는 거니까요. 혹시나 잘못된 내용이 있는 경우 말씀해주시면 좋겠고, 궁금하신 부분 있으시면 아는 한에서는 늦게라도 답변 드리겠습니다.
EXP
4,626
(56%)
/ 4,801
|







비둘기맨