강화학습 튜토리얼: OpenAI Gym을 소개합니다

Find AI Tools

No difficulty

No complicated process

Find ai tools

Home AI News KR 강화학습 튜토리얼: OpenAI Gym을 소개합니다

강화학습 튜토리얼: OpenAI Gym을 소개합니다

소개
카트 폴 환경
제어 목표
초기 상태
액션 공간
관측 공간
에피소드 종료 조건
보상 체계
파이썬에서 카트 폴 환경 만들기
시뮬레이션 실행 및 결과 분석

소개

안녕하세요 여러분! 오늘은 강화학습 튜토리얼 시리즈의 첫 번째 튜토리얼로, 카트 폴(OpenAI gym 또는 gymnasium 환경)에 대해 소개하려고 합니다. 카트 폴 환경은 제어 공학 및 강화학습 알고리즘을 테스트하기 위해 사용되는 고전적인 제어 환경입니다. 이 시스템은 회전 막대가 달린 카트로 구성되어 있으며, 카트는 수평으로 이동할 수 있고 막대는 자유롭게 회전할 수 있습니다. 우리의 목표는 카트에 적용하는 수평 힘을 조절하여 막대를 수직으로 유지하는 것입니다.

카트 폴 환경

카트 폴 환경은 다음과 같이 구성됩니다. 카트는 X 방향으로 이동할 수 있으며, 막대는 회전하며 카트에 연결되어 있습니다. 회전의 기준점은 기준점으로 봉이 자유롭게 회전할 수 있습니다. 이 환경에서는 우리가 주로 사용하는 수평 힘을 통해 카트를 왼쪽이나 오른쪽으로 이동시킬 수 있습니다.

제어 목표

카트 폴 환경의 제어 목표는 막대를 수직 위치에 유지하는 것입니다. 즉, 막대가 아래 그림과 같은 위치에 있어야 합니다.

수직 위치

이 튜토리얼에서는 파이썬을 통해 이 환경을 만들고 무작위 제어 동작을 시뮬레이션하는 방법에 대해 설명하겠습니다. 다음 튜토리얼에서는 해당 시스템의 강화학습 문제를 해결하는 방법에 대해 설명하겠습니다.

초기 상태

카트 폴 환경의 초기 상태는 완전히 무작위입니다. 상태는 카트 위치 (X), 카트 속도 (X dot), 막대의 각도 (Theta), 막대의 각속도 (Theta dot)로 구성됩니다. 초기 상태는 각 상태 변수가 -0.05부터 0.05 사이의 균일한 값을 가지도록 무작위로 선택됩니다. 각 시뮬레이션 에피소드에서는 다른 초기 조건에서 시작합니다.

액션 공간

카트 폴 환경의 액션 공간은 두 가지 액션으로 구성되어 있습니다. 액션 0은 카트를 왼쪽으로 밀기를 의미하며, 액션 1은 카트를 오른쪽으로 밀기를 의미합니다. 이를 통해 막대를 수직 위치에 유지할 수 있습니다.

관측 공간

카트 폴 환경의 관측 공간은 상태로 구성되어 있습니다. 상태는 카트 위치 (X), 카트 속도 (X dot), 막대의 각도 (Theta), 막대의 각속도 (Theta dot)로 구성됩니다. 각 상태 변수에는 최소 및 최대 값이 있으며, 범위는 환경의 스펙에 명시되어 있습니다.

에피소드 종료 조건

에피소드는 다음과 같은 조건에서 종료됩니다. 먼저, 막대의 각도가 12도 이상이 되면 기준점을 벗어나는 것으로 간주되어 에피소드가 종료됩니다. 또한, 카트의 절대 위치가 2.4보다 크면 에피소드가 종료됩니다. 마지막으로, 한 에피소드 내에서의 시간 단계 수가 특정 값보다 크면 에피소드가 종료됩니다.

보상 체계

카트 폴 환경에서는 한 번의 시간 단계가 지날 때마다 보상 1점을 얻을 수 있습니다. 이 보상은 에피소드 내에서 적용하는 모든 액션에 대해 받을 수 있습니다. 따라서 보상의 총합은 제어 성능의 좋은 척도가 됩니다.

파이썬에서 카트 폴 환경 만들기

Python에서 카트 폴 환경을 만들기 위해 다음 라이브러리를 import 해야 합니다.

import gym
import numpy as np
import time

환경을 만든 후 초기화해야 합니다. 이를 위해 gym.make 함수와 reset 메서드를 사용합니다.

env = gym.make("CartPole-v1")
env.reset()

환경을 시뮬레이션하기 위해 액션을 적용하고, 다음 상태로 전환되어야 합니다. 이를 위해 step 메서드를 사용합니다.

action = 0  # 액션 선택 (0 또는 1)
observation, reward, done, info = env.step(action)

시뮬레이션 결과를 분석하고 시각화하기 위해 반복문을 사용할 수 있습니다.

for episode in range(num_episodes):
    env.reset()
    for t in range(num_timesteps):
        action = env.action_space.sample()  # 무작위 액션 선택
        observation, reward, done, info = env.step(action)
        # 결과 분석 및 시각화
        time.sleep(0.03)  # 애니메이션 재생 속도 조절

env.close()