Markov Reward Process(MRP) 마르코프 보상 프로세서
Markov Reward Process(MRP)
Markov Reward Process(MRP)는 Markov Process의 개념을 확장하여 각 상태에 보상이라는 개념을 추가한 수학적 모델입니다. 기존의 Markov Process가 단순히 상태 간의 전이 확률만을 다뤘다면, MRP는 각 상태가 얼마나 가치있는지를 정량적으로 평가할 수 있게 해줍니다. 이는 다음의 Markov Property를 기본으로 합니다:
$$P(S_{t+1} | S_t, S_{t-1}, ..., S_0) = P(S_{t+1} | S_t)$$
이 식이 의미하는 바는 다음 상태로의 전이 확률이 오직 현재 상태에만 의존한다는 것입니다.
보상(Reward)
MRP에서 가장 핵심적인 개념은 보상(Reward)입니다. 보상은 특정 상태에 도달했을 때 즉시 얻을 수 있는 가치를 의미하며, 이를 immediate reward라고 부릅니다.보상 함수 $\mathcal{R}_s$는 특정 상태 s에서 즉시 얻을 수 있는 가치(immediate reward)의 기댓값을 나타냅니다:
$$\mathcal{R}s = E[R{t+1} | S_t = s]$$
예를 들어 학생의 일과를 모델링할 때, 공부 상태에서는 양의 보상을, 게임 상태에서는 음의 보상을 설정할 수 있습니다.
할인 인자
하지만 상태의 진정한 가치를 평가하기 위해서는 즉각적인 보상뿐만 아니라 미래에 얻을 수 있는 보상도 고려해야 합니다. 이때 중요한 개념이 할인 인자(Discount Factor, γ)입니다. 할인 인자는 미래의 보상을 현재 시점에서 어떻게 평가할지를 결정하는 0과 1 사이의 값입니다. 이는 실제 경제에서 이자율과 비슷한 개념으로, 미래의 가치를 현재 가치로 환산하는 역할을 합니다.
예를 들어 $\gamma = 0.9$일 때, 10단계 후의 보상은 $0.9^{10}$배로 할인되어 현재 가치에 반영됩니다.
Return
이러한 할인 인자를 사용하여 우리는 Return ($G_t$) 이라는 개념을 정의할 수 있습니다. Return은 특정 시점부터 시작하여 미래에 받을 수 있는 모든 보상의 할인된 합을 의미합니다. 현재의 immediate reward에 미래의 보상들을 할인하여 더한 값이죠.
$$G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2R_{t+3} + ...$$
Value Function $V(s)$
마지막으로 Value Function은 특정 상태의 가치를 종합적으로 평가하는 함수입니다. 이는 해당 상태에서 시작했을 때 얻을 수 있는 모든 Return의 기댓값으로 정의됩니다. 같은 상태에서 시작하더라도 여러 가능한 경로가 있을 수 있으므로, 이 모든 경우의 Return을 확률적으로 고려한 평균값이 바로 그 상태의 가치가 되는 것입니다.
$$V(s) = E[G_t | S_t = s] = E[R_{t+1} + \gamma R_{t+2} + \gamma^2R_{t+3} + ... | S_t = s]$$
더 나아가 Value Function은 Bellman Equation을 통해 재귀적으로 표현할 수 있습니다:
$V(s) = \mathcal{R}s + \gamma\sum{s'\in S} P(s'|s)V(s')$
이 식은 현재 상태의 가치가 즉각적인 보상($\mathcal{R}_s$)과 미래 상태들의 할인된 가치의 기댓값 합으로 구성됨을 보여줍니다.