플레이어는 레벨 1에서 시작하며, 1레벨은 보상이 없고 자동으로 레벨 2로 진입한다고 볼 수 있습니다.
각 기회(즉, 한 판)는 최대 100번의 “도전(챌린지)”을 할 수 있는 독립적인 시도입니다.
보상은 오직 “멈춤(스탑)”을 선택할 때, 현재 단계의 안전 보상(R)을 바로 획득하는 방식으로 지급됩니다.
안전 보상 (멈춤 시 획득):
레벨 2: 1
레벨 3: 3
레벨 4: 6
레벨 5: 10
레벨 6: 15
레벨 7: 50
레벨 8: 150
레벨 9: 300 (최종)
도전 시 확률 (현재 레벨의 확률표 적용):
레벨 2: • 성공 60% → 레벨 3로 진입 • 실패 40% → “하락 없음” → 계속 레벨 2에 머무름
레벨 3: • 성공 50% → 레벨 4 진입 • 실패 50% → 하락하여 레벨 2로 복귀
레벨 4: • 성공 40% → 레벨 5 진입 • 실패 60% → 하락하여 레벨 3로 복귀
레벨 5: • 성공 30.7% → 레벨 6 진입 • 실패 69.3% → 하락하여 레벨 4로 복귀
레벨 6: • 성공 20.5% → 레벨 7 진입 • 실패 76.5% → 하락하여 레벨 5로 복귀 • 도망 3% → 해당 기회를 조기 종료 (보상 0)
레벨 7: • 성공 10.3% → 레벨 8 진입 • 실패 85.7% → 하락하여 레벨 6로 복귀 • 도망 4% → 기회 종료 (보상 0)
레벨 8: • 성공 5% → 레벨 9 진입 • 실패 90% → 하락하여 레벨 7로 복귀 • 도망 5% → 기회 종료 (보상 0)
레벨 9: 도달 시 즉시 300 보상을 획득하며 해당 기회는 종료됨
2. 동적 계획법(DP) 모델과 제한 도전 횟수 고려
각 기회를 “상태 (현재 레벨, 남은 도전횟수 n)”로 모델링합니다.
경계 조건: • n = 0일 경우 더 이상 도전할 수 없으므로, 반드시 멈춤을 선택하여 현재 단계의 안전 보상 R를 획득 • 레벨 9에 도달하면 300 보상이 확정됨
상태 전이: 예를 들어, (레벨 3, n) 상태에서 도전을 선택하면 - 성공(50%) 시 (레벨 4, n–1)로 진입 - 실패(50%) 시 하락하여 (레벨 2, n–1)로 돌아감 각 상태마다 “멈춤”을 선택하면 즉시 R(해당 단계 보상)을 획득합니다.
도전의 EV 계산: 남은 도전횟수가 충분할 때(예, n=100)라면 DP 해를 구하면, 무한(또는 충분히 많은) 도전횟수에 가까운 경우와 유사한 가치가 나오지만, 말기(남은 n이 매우 적은 경우)에는 추가 도전의 기대치가 안전 보상보다 낮아지므로 “멈춤”을 선택하게 됩니다.
3. 수치적 분석 및 단계별 임계값
(수치적 DP 해를 근사적으로 분석한 결과)
초기(레벨 2부터): 대부분의 경우, 안전 보상은 매우 낮습니다(레벨 2: 1, 레벨 3: 3, …). 따라서 남은 도전횟수가 충분하다면 도전 선택 시 후속 단계로의 EV가 크게 상승합니다.
레벨 2 ~ 레벨 6: 각 단계에서 도전의 기대가치는 안전 보상보다 훨씬 높습니다. 예를 들어, • 레벨 2에서 도전 시 EV는 0.60×V(3, n–1) + 0.40×V(2, n–1)로, n이 충분하면 V(2,100)가 50점대(대략 50~53점)로 수렴하는 경향이 있습니다. • 레벨 6의 경우에도 도전 시 EV는 약 52점 내외로 산출되며, 이는 안전 보상 15보다 훨씬 높습니다.
레벨 7의 선택: 안전 보상은 50입니다. 레벨 7에서 도전 시에는 EV ≈ 0.103×V(8, n–1) + 0.857×V(6, n–1) + 0.04×0 무한 혹은 충분히 많은 도전횟수 하에서는 이 값이 약 46점 내외로 산출됩니다. 따라서 레벨 7에서는 도전보다 “멈춤”이 더 유리합니다.
레벨 8 이상: 안전 보상은 각각 150(레벨 8) 및 300(레벨 9)로 매우 크므로, 만약 우발적으로 도달한다면 즉시 멈춰야 합니다.
남은 도전횟수가 적을 경우: 말기(예, n이 5~10 이하)에는 미래 도전의 EV가 하락하므로, 현재 단계의 안전 보상이 미래 기회보다 더 높다면 당장 멈추는 것이 최선입니다.
4. 최적 전략 요약 (각 기회당)
(1) 일반 상황 – 충분한 도전 횟수 (예, n≈100):
레벨 2 ~ 레벨 6:
안전 보상이 낮으므로 항상 “도전”을 선택합니다.
실패 시 레벨이 하락(단, 레벨 2에서는 하락 없음)하더라도 재도전을 통해 높은 EV(약 50점대)를 추구할 수 있습니다.
레벨 7:
안전 보상 50과 도전 시 기대 EV(약 46)가 비교되므로,
**대부분의 경우 최적 선택은 여기서 “멈춤”**하여 50의 보상을 확정하는 것입니다.
레벨 8 이상:
만약 실수로 도달하거나 남은 도전횟수가 많아 도전하는 상황이 발생해도,
안전 보상이 150(레벨 8) 또는 300(레벨 9)이므로 즉시 멈추어야 합니다.
(2) 말기 – 남은 도전횟수가 부족한 경우:
남은 횟수가 극히 적을 때(예, n이 1~2 남은 상황)에는 미래의 도전 기회가 제한되므로,
현재 단계의 안전 보상이 확정 가능한 최종 보상으로 작용하게 됩니다.
이 경우, 도전의 위험(도망으로 0 보상 전환)을 감안하여 즉시 “멈춤”하는 것이 바람직합니다.
5. 전체 12번 기회에서의 기대 효과
한 기회당 EV:
DP 해석에 따르면 충분한 도전횟수(예, 100번)가 주어질 경우,
최적 전략(레벨 26 도전 후 레벨 7에서 정지)을 따르게 되면 한 기회당 기대 보상은 대략 **5053점** (보상 단위) 내외로 산출됩니다.
전체 12번 기회:
따라서 12번의 기회를 모두 최적 플레이한다면,
총 기대 보상은 대략 600점 내외가 목표치입니다.
6. 결론 및 전략 실행 시 유의점
주요 전략:
초반(레벨 2~6): 남은 도전횟수가 충분할 때는 반드시 도전하여 높은 후속 EV(50점대)를 노립니다.
전환점(레벨 7): 도전 시 위험(4% 도망, 85.7% 실패 후 하락 등) 때문에 안전 보상 50가 도전 EV(약 46)보다 높으므로, 이 지점에서 즉시 멈춤합니다.
말기 대응: 남은 도전횟수가 부족해지면, 더 이상의 도전으로 EV가 떨어지므로 현재 단계의 안전 보상을 확정하는 쪽으로 전환합니다.
추가 고려:
각 기회 내에서 “도전” 횟수를 관리하는 것이 매우 중요합니다.
100번이라는 도전 제한 내에서 최적의 기대치를 달성하기 위해, 상황별(남은 횟수, 현재 레벨)에 따른 유연한 결정이 필요합니다.
다행히 100번은 상당한 도전 여유를 주므로, 정상적인 상황에서는 레벨 7에 도달하면 거의 100% “멈춤” 선택이 최적이며, 레벨 7에서 8로 도전할 만한 상황은 거의 발생하지 않습니다.
최종 요약
최적의 기본 경로:
레벨 1 → 2: 자동 진입
레벨 2 ~ 6: 항상 도전 (도전 시 실패하더라도 재도전할 수 있으므로 높은 EV 추구)
레벨 7: 도전 EV가 약 46에 불과하므로, 안전 보상 50를 위해 반드시 멈춤
레벨 8 이상: 도달 시 즉시 멈춤 (150 이상 획득)
기회당 기대 보상: 약 50~53
전체 12회 기회 총 기대 보상: 약 600 정도
이 보고서는 각 기회마다 최대 100번의 도전 횟수가 주어졌을 때, DP 분석에 따른 최적 의사결정 및 보상 기대치를 바탕으로 작성되었습니다. 상황에 따라 남은 도전횟수가 줄어들 경우 보다 보수적으로 “멈춤” 선택을 할 필요가 있음을 유념하시기 바랍니다.