Markov Reward Process(MRP) 마르코프 보상 프로세서
·
인공지능 공부/수학 및 통계
Markov Reward Process(MRP)Markov Reward Process(MRP)는 Markov Process의 개념을 확장하여 각 상태에 보상이라는 개념을 추가한 수학적 모델입니다. 기존의 Markov Process가 단순히 상태 간의 전이 확률만을 다뤘다면, MRP는 각 상태가 얼마나 가치있는지를 정량적으로 평가할 수 있게 해줍니다. 이는 다음의 Markov Property를 기본으로 합니다: $$P(S_{t+1} | S_t, S_{t-1}, ..., S_0) = P(S_{t+1} | S_t)$$ 이 식이 의미하는 바는 다음 상태로의 전이 확률이 오직 현재 상태에만 의존한다는 것입니다. 보상(Reward)MRP에서 가장 핵심적인 개념은 보상(Reward)입니다. 보상은 특정 상태에 도달했..