논리도 기본지식도 없이 무조건 맞다빼에엑 소리 하는인간들 늘어나서 설명해주러 글씀.

글의 발단은 여기.
현재 정확한(?) 서버 얼호 비율이라고 후겔겔이라는 사람이 쓴글임.




이걸보고 얼호 비율이라고 이야기 하면서 정확하다고 이야기하는데
여기 현시점에서 등록된 공대수 보면 알겟지만, 호드 34개 ,얼라 22개
카라잔이니깐 호드 340명/ 얼라 220명 의 표본임.

실제 로크호드 인구수의 1/10 이하 표본임.
이걸로는 정확한 얼호비율을 예측하기란 무리가 있음.





원론적인 통계학적 확률에 대해서 우선 이야기 하고감.


동전을 던졌을때 앞이 나오는 수학적 확률은 뭐임?
앞과 뒤 두경우 뿐이니깐 50%라고 이야기 할수있음.

그럼 통계학적 확률은?
동전을 10번 던져서 6번 앞면이 나오면 60%임.
근데, 10번 던져서 앞이 한번밖에 안나왔다? 그럼 통계학적 확률은 10%임.

실제 수학적 확률과는 다르다는 이야기임.
그래서, 실제로 표본조사 해서 통계낼때는
표본조사 1회 그대로를 가지고 전수조사와 확률이 비슷하다고 말하는 미친인간은 없음.
오차를 줄이기위해 신뢰수준이라는 자료를 바탕으로함.
아무튼 이건 뒤에서 더 이야기하고

일단 뭐때문에 이걸 설명하려 하는가?





후겔겔의 말은 현시점에서 로그집계를 가지고, 대선지지율도 조사는 2천명 대상으로하니깐.
저기 나온 340/220 표본이 전체 인구비와 비슷하다는 논리를 펼치고 있음.

대선지지율과는 궤가 다른 이유와 후겔겔의 주장의 오류를 최대한 상세하게 설명해주겠음.



1. 조사 카테고리 오류.

대선 지지율 조사할때는
유권자들 상대로 ARS조사나 면접조사 패널 조사등을 거침.
어제 글로 엄청 설명해줘도 이해를 못해서 그림판으로 그려서 가져옴.

원이 전체인구라고 했을때.
대선 지지율 여론조사는 비유권자는 조사할필요가 없음.
노란색으로 색칠한 범위 유권자들 안에서 표본조사를 실행해서, %률 내는거임.

가령 전체국민이 A라고 하고
비유권자가 B라고 하며, 유권자가 C라고 했을때
A값이 얼마든, B값이 얼마든 C갑이 얼마든 상관없게됨.
 
A - B = C 라고 했을때
A값과 B값이 변동해서 C값이 달라지더라도
C안에서의 각 후보자들의 지지율을 조사하기때문에 C자체가 조사의 실직적 최상위 카테고리가 됨.





반면에 와우 인구비 통계는?
위에 그림 보면 알겠지만, 인구비라는건 전자와 카테고리 범위가 다름.
우리가 원론적으로 구하고자 하는건 오른쪽 원의 노란색 색칠한 범위 
전체인구의 에서의 얼호 비율임. 
(대선으로 비교하면 유권자에서의 후보자 지지비율을 조사하는것처럼) 

위에서 A B C 예를 든것처럼
와우 로크홀라 전체인구가 A  로그사용자가 B  로그미사용자C 
만렙안찍었거나 레이드 준비가 안된인원이 D라고했을때

우리는 A의 얼호비율을 구해야됨.
대선지지율과 같은 궤의 표본조사 카테고리를 가질려면 C를 표본 조사해야되는것처럼.
A의 표본을 조사해야되는데
A - C -D 값이 A과 같다는 카테고리 오류로, 표본조사를 진행하는거나 다름없다는 소리임.


그럼 로그사용자의 표본은 인구비를 예측할수 없나?
그건 아님. 


시점이 지나서 모두 레이드를 다니게 되면 자연스레 위의 그림처럼
로그 사용자의 표본이 커지게됨. 통계학에서 큰수의 법칙을 구하는것과 가깝게 나옴.

다시 한번 이야기하지만 애초에 카테고리 궤가 다르다는걸 인식해야됨.







2. 표본조사의 이해.

위에서도 이야기 했듯이, 
동전을 10번 던졌을때 단 한번만 앞면이 나왔다고
동전을 던졌을때 앞이 나올 비율은 실제로 10%라고 말하지않는다임.
통계의 의미가 실측하기 어려운 부분을 구할때 큰수의 법칙과 신뢰범위라는 기준을 정해서
최대한 실측과 오차가 없게 조사해서 참고하기 위함이지

단순히 1회성 표본조사를 가지고, 이게 전수조사의 비율과 비슷하다고 말하는 또라이새끼는없음.


 
 



빨간직선이 실제 비율이라고 했을때
표본조사는 여러회를 거치면서 신뢰기준점을 정함.

위의 검은선 범위가 오차범위라고 가정했을때 오차범위 +- 몇라고 두고 위의 그림처럼
N회 실행해서, 오차범위내 들어온 표본조사가 몇번이었나를 따져서 신뢰수준을 논함.

대선지지율 조사공개할때 신뢰수준 몇% 이런말 본적있지않음?
그걸 바탕으로 표본조사의 신뢰도를 이야기한다는 말임.

대선지지율 사전조사도 소수인데, 오차률이 적다. 그러니
로그에 등록된 1회성 소수 비율이라 할지라도 신빙성이 있다.
이딴 개소리 안한다고..


쉽게 이야기하면 사과박스에 사과 100개 담겨있는데 5개만 꺼내서 3개 썩었다고
이 사과박스는 60%의 사과가 썩었습니다. 라고 안한다는 이야기임.

근데, 후겔겔은 그런오류로 접근하는거임.


사과 100개 담겨있는 박스에 사과 5개만 꺼내서 3개가 썩었는데
진짜로 60개가 썩어있을수도 있음. 하지만 이 바탕으로 

"그럼으로 모든 사과박스는 5개만 꺼내보면 100개의 사과중 몇개가 썩었는지 알수있다"고 
통계논문쓰는 병신은 없다는거임.




하물며 대선지지율 조사는 지금까지 쌓아온 통계적 
오차범위 신뢰기준을 바탕으로 두고있고 
표본조사 역시, 세분하면 여러가지가 있을텐데 ARS조사역시 어느기간동안 몇회라는
식으로 조사함. 이외에도 패널조사, 면접조사등 다양한 조사결과를 가지고
사전조사 결과를 발표함.






여기 달린 몇몇댓글처럼, 제발 기본지식도 논리도 없이 그저 니편내편 가르는식으로 정신승리좀 그만하자. 진짜