(3줄 요약 있음. 통계 궁금하면 읽어주세요.)
통계를 낼 때, 표본의 개수는 정말 중요한 영향을 미칩니다.

70% 강화 주문서 10장을 발랐는데 8장이 붙거나, 6장이 붙는 경우는 충분히 일어날 수 있지만, 1,000,000장을 발랐는데 800,000장이 붙거나 600,000장이 붙는 경우는 매우 매우 드무니까요. 그런데 이런 경우는 매우 드문 것일 뿐이지, 물론 일어날 수 있는 경우입니다. "그런데 그것이 실제로 일어났습니다." 로 알려진, 3조분의 1 확률을 뚫은 루리웹 중복 당첨 사건을 보면 알 수 있지요. (나무위키 링크)

그래서 통계학자들은 이 통계값이 얼마나 믿을만한가를 특이한 방법으로 수치화합니다.
"70% 강화 주문서를 100장 바르는 행위"를 시행A라고 합시다. 정말 운이 좋은 누군가는 100장 중 99장을 붙였고, 정말 운이 나쁜 누군가는 100장 중 50장밖에 붙이지 못했겠지요. 이렇게 이 시행A를 하는 사람 100명을 모아놓고, 얼마나 많이 붙였나를 기준으로 순서를 매겼다고 합시다. 그렇게 되면 운이 70등으로 좋은 사람은 기분이 나쁘기는 하지만 충분히 일어날 수 있는 일이라고 납득할 수 있을 것이고, 운이 가장 안 좋은 100번째 사람은 "이거 조작 아니야?"라고 말할 것입니다.

비유가 복잡했을 수도 있지만, "알려진 확률에 따르면 이렇게 나오는게 얼마나 희귀한 일이냐?"를 유의확률(p-value)라 하고, 이는 기존에 알려진 확률이 유의미한지를 판별하는 좋은 기준이 됩니다.

이 p-value를 기준으로 가설 검정은 다음과 같은 방식으로 이루어집니다.
1. 자 오피셜로 뜬 확률이 맞다고 하자.
2. 이제 표본 뽑아서 확률이 맞는지 확인해볼건데, 이 정도로 정말 희귀한 데이터 나오면 너희 의심할거야.
3. 자 표본을 뽑아 봤어.
4.1. 우리가 뽑은 표본이 생각한 것 만큼 희귀한 건 아니네. 오피셜 확률이 맞나보다.
4.2. 2에서 세운 기준보다 더 희박한 표본이 나왔는데? 이거 조작 아니야?

1에서 세운 오피셜을 귀무가설이라 합니다. 기존에 알려진 가설로서, 이번 큐브의 경우에는 넥슨이 3월 5일 공개한 확률입니다. 2에서 세운 '이 정도로 정말 희귀한'의 기준을 신뢰도라 합니다. 신뢰도 95%는 5% 이하로 희귀한 표본이 나오면 의심하겠다는 것이고, 신뢰도 99%는 1% 이하로 희귀한 표본이 나와야 의심하겠다는 뜻입니다. 이 신뢰도를 p-value와 비교해서 4.1.처럼 귀무가설을 채택할지, 4.2.처럼 귀무가설을 기각할지 선택하게 됩니다.

넥슨에서 공개한 큐브 표본(링크)의 경우 넥슨에서 공개한 확률을 p, 표본의 개수를 n이라 하면 n개의 시도 중 잠재가 등급업한 개수는 평균이 np, 분산이 np(1-p)인 정규분포를 따르고, 표본확률은 평균이 p, 분산이 p(1-p)/n인 정규분포를 따르게 됩니다. 이를 바탕으로 계산한 레드큐브를 통한 에픽 > 유니크 등업 시행의 p-value는 다음과 같습니다.

즉, 에픽 템에 레드큐브를 10,000,000개 돌렸다면 이는 5.8%로 희박한 케이스이고, 20,000,000개 돌렸다면 1.32%로 희박한 케이스입니다. 메이플 유저들이 6개월동안 몇 개의 레드큐브를 돌렸는지 추정해보기 위해 인벤 '니키슈'님의 비공식 메이플 유저수 통계 (링크)를 이용해 보았습니다. 이 자료를 기준으로 2020년 9월 메이플 활동 유저수는 319,760명으로, 이 유저들이 모두 마일리지 레드큐브만 6개월동안 에픽템에 사용했다 할 때, 표본의 개수는 13,429,920개가 됩니다. 이 경우의 p-value는 3.44%로, 넥슨은 이 최소한의 기준에서조차 3.44%로 희박한 표본을 근거로 들고 있습니다.
따라서 넥슨은 자신들이 확률이 정상적으로 돌아가고 있다고 주장하기 위해서는 각 경우에 대한 표본의 개수를 명확히 밝혀야 합니다.

(3줄 요약)
1. 표본 개수에 따라 데이터를 얼마나 믿을수 있는가가 바뀐다.
2. 최소한으로 계산했을 때 이런 표본이 나올 확률은 스타포스 23성 갈 확률(3%)과 비슷하다.
3. 그래서 넥슨은 큐브를 몇 개 썼는지(표본 개수)를 공개해야한다.

저는 학부 통계학 교양 수준에서 배운 단순한 통계적 추론을 이용하여 분석했습니다. 따라서 이에 관련해 오류나 수정해야할 것이 있으면 말씀해주시면 감사하겠습니다. 이를 계산하는데 사용한 엑셀 파일을 올리겠습니다. 확률, 표본확률, 표본 개수를 건드리면 p-value가 계산되게 해 두었습니다. 다른 표본의 확률을 계산해보며 이 레드큐브 등급업 외에도 이상한 확률이 있다면 공론화해주시면 감사하겠습니다.

=================================================

많은 분들이 에픽 > 유니크 등업을 하는데 레드큐브를 사용하지 않는다고 말하셨습니다. 그래서 표본 개수를 그대로 두고, 레드큐브를 이용한 유니크 > 레전 등업에 대한 p-value를 계산해 보았습니다. 유니크 > 레전 등업의 경우 많은 분들이 블랙큐브 대신 레드큐브를 사용하는 것으로 알고 있기에, 마일 레큐 추정 총량인 1342만개보다 더 많은 양이 사용되었을 것입니다. 이 경우는 6개월간 총 2천만개의 레드큐브만 사용되었을 때도 p-value가 5% 이하로 떨어지는 것을 확인할 수 있었습니다.
=================================================
계산을 위해 사용한 엑셀 파일을 좀 더 수정하기 편하게 새로 올렸습니다.
위의 경우를 예시로 들면, 설정확률에 1.8%, 통계상 확률에 1.7934%를 입력하면 됩니다. 엑셀 내부 함수만을 이용했기에, 수정이나 검증이 편하실 거라 생각합니다.