제출 기한 : ~ 10월 6일 11시59분 @ecampus

제출 형식 : 자유

Gym Environment 의 Taxi-v3를 이용하여 policy iteration 구현 :

Untitled

  1. Open AI GymTaxi-v3 Environment 에서 다음의 조건에 따라 Policy Iteration Class를 구현 하시오.

    1. Policy Iteration Class 의 생성자 def init(self, env): 에서 다음의 instance parameter 를 초기화한다
      1. env
      2. policy
      3. value
    2. policy_evalution 함수를 구현하시오
      1. 다음의 input parameter를 포함한다
        • env
        • iter_num
        • discount_factor
    3. policy_improvement 함수를 구현하시오
    4. print_value 함수를 구현하시오
      1. 현재상태의 value 를 출력
    5. get_policy(self, state), get_value(self, state) 함수를 구현하시오
    6. 필요한 함수가 있으면 자유롭게 더 구현 해도됨
  2. 1에서 구현한 Policy Iteration Class 를 이용하여 Policy Iteration을 통해 policy를 적절하게 학습시키고 view_policy_animation 함수를 이용하여 검증하시오

  3. 1에서 구현한 Policy Iteration Class 를 이용하여 Policy Evalution 10번 Policiy Improvement 1번을 반복하는것과 Policy Evalution 1번 Policy Improvement 1번을 반복하는것이 같은 값으로 수렴하고 같은 정책으로 수렴하는지 비교 하시오.