밑에 전냥주 글을 올렸더니 전혀 예상치 못한 곳에서 반응들이 뜨겁네요.
그런데 통계 얘기는 왜이렇게들 하는건지 모르겠습니다요. 확률이 어쩌고
통계가 어쩌고 리플단 사람중에 통계학에 대해 이해하고 있는 글은 전무하더군요.
와우하는 집단은 나름 똘똘한 사람도 많다고 들었는데 깜짝 놀랐어요.
고딩때 산수 공부 정말 안하셨구나들. 물론 좀 알고 있는 사람은 그러려니 하고
대충 넘어갔겠지요. 암.

애초에 글을 썼던 목적은 그냥 전냥주 너무 안나온다 징징이었는데,
제 전공이 전공인지라 어쩌다 그렇게 드랍될 확률을 계산해 줬더니.... 안습.
하지 말았어야 할 일을 한 거 같은데, 이왕 이렇게 된거 강의나 좀 해봐야겠군여.
제목은 '와우 유저를 위한 재미있는 통계학'

정규분포는 고딩때 배우는거니 넘어가고, 이항분포 얘기를
해봅시다. 우리가 동전을 던질 때 앞면이 나올 확률은 1/2이예요.
100번 던지면 대략 50번 근처로 앞면이 나오겠죠? 근데 운이 나빠서 앞면이
30번쯤만 나올 수도 있어요. 이렇게 앞면이 몇번이 나올 것인가의 분포가
이항분포예요. 그런데 이게 그래프를 그리면 모양이 정규분포랑 거의 비슷해요.
50번 근처는 확률이 높고 30번이나 70번은 좀 낮겠죠. 0번이나 100번은 거의 0에
가까울테고요.
일반적으로 시행횟수가 30번 이상이면 이항분포가 정규분포로 근사한다고
할 수 있어요. 실제로 계산해보면 약간의 차이로 확률이 비슷하지요.

어떤 동전을 100번 던졌더니 앞면만 100번 나왔다고 해봅시다.
이 사건을 보고 '우와 운이 미친듯이 좋았네' 라고 얘기할 수 있나요?
상식적으로는 '이 동전엔 문제가 있어. 뒷면이 없이 양쪽 다 앞면인 동전일 거야'
혹은 '이 동전은 뒷면에 금속함량이 훨씬 많아서 앞면이 훨씬 잘 나와'
라고 판단하는게 맞지 않을까요? 100번은 너무 적다고요? 그럼 1000번 던지면요?

자, 처음 저의 글로 가서 문제를 봅시다.
전냥주 토큰의 드랍률은 0.3으로 알려져 있어요. 실제로 그런지는 아무도 몰라요.
만약 넴드를 잡아서 토큰이 총 40번 드랍됐는데 그 중에 21번이 전냥주 토큰이 
나왔어요. 일단 보니 평균적으로는 12번 나와야 하는데 21번이니 좀 많아 보여요.
그런데 이게 충분히 일어날 수 있는 정도인지, 아니면 비정상적인지 판단하기
좀 애매해요. 그래서 나온게 통계학이예요. 사용하기에 따라 꽤 유용하지요.

검증을 해봅시다.
H0(귀무가설) : 전냥주 토큰의 드랍률은 0.3이다.
H1(대립가설) : 전냥주 토큰의 드랍률은 0.3이 아니다.

우리가 가진 사건은 40번 중에 21번 드랍이라는 사실이예요.
이 상황이 H0를 accept하느냐 reject하느냐를 가르는 것은, 0.3이라는 확률로
계산을 해봐서 이 사건이 일어날 가능성이 있으면 H0를 받아들이고
도저히 그럴 가능성이 없을 거 같으면 H0를 reject하고 H1이라고 해야겠지요.

그래서 계산을 원글 리플에 제가 간단히 계산했었어요.
이 이항분포를 정규분포로 근사해서 21번보다 같거나 많이 드랍될 확률은
0.1% 예요. 보통 유의수준이 5% 혹은 1%로 계산하기 때문에 이 정도는
H0를 reject하고 H1을 받아들여야 해요.
다시 말해서 '전냥주 토큰의 드랍률은 0.3보다 크다'

물론 0.1%의 확률로 H1을 받아 들이는게 틀렸을 수 있어요. 실제로 0.3인데
완전 운이 나빴을 수 있지요. 이런걸 type1 error라고 해요.
그래도 현대 통계학에선 이게 최선이예요. 이걸 받아들이지 못하면 통계학따윈
개나 줘버려야죠.

다시 계산해 봅시다.
만약 드랍률이 0.3일 때 40번 시행하면 99% 신뢰수준으로 몇번 정도 드랍되어야
맞는가?
표준편차가 2.89 이고 표준정규분포표에서 z값을 찾아서 곱해서 계산하면
5번에서 19번 사이로 드랍되는게 정상인 상황이예요. 그런데 21번이나 드랍되어서
그 영역을 벗어났기 때문에 0.3의 드랍률은 아닐거라는 추론이 가능한 겁니다.
'우린 성사흑만 나와' 하는 분이 있었는데 성사흑도 0.3으로 알려져 있죠?
이것도 5번에서 19번 사이로 나오는게 맞아요. 0.3이 맞다면.

40번이 너무 적은거 아냐? 하실 수 있지만, 그정도면 통계적으로 충분히 유의미한
계산을 할 수 있어요. 물론 표본의 크기가 아주 크진 않기 때문에 신뢰구간의 길이는
늘어나야하는 단점은 있어요. 그렇기 때문에 5번 ~ 19번이라는 아주 넓은 구간이 나왔죠.
type1에러를 줄이기 위해 넓게 나온거죠. 그럼에도 그 영역을 21번으로 넘겨버렸지요.


여튼 제 결론은 전냥주 드랍률은 0.3이 아니라 대략 0.4 이상이 아닐까?
하는 것이예요. 물론 확인할 방법은 없습니다.
별로 어려운 통계학도 아니예요. 고딩때도 이런거 나왔던 거 같은데..
그러니 여기에 제발 토좀 달지 마세요. 네?
아니면 주위에 통계 전공하는 친구한테 함 물어보세요. -_-+