제주대학교 Repository

메모리 트랜스포머 Q-학습을 활용한 카트-폴 시스템 제어

Metadata Downloads
Alternative Title
Cart-Pole System Control with Memory Transformer Q-Learning
Abstract
본 논문은 기존 심층강화학습 알고리즘을 개선하기 위하여 Memory Transformer Q-learnig Network(MTQN)을 제안하였다. MTQN은 sequence 시스템을 보다 효율적으로 모델링하기 위하여 기존 심층 강화학습 모델에 transformer를 결합하여 구성하였으며, 또한 transformer 사용을 위하여 부수적으로 LSTM의 gating mechanism이 이용되었다.
제안한 알고리즘은 대표적인 강화학습 benchmark 환경인 Cart-Pole 시스템에서 비교 분석하였으며, Cart-Pole 시스템은 OpenAI에서 제공하는 gym 라이브러리를 사용하였으며, 강화학습 알고리즘은 pytorch와 numpy로 구현되었다.
제안한 알고리즘의 성능분석을 위하여 대표적인 심층 강화학습 알고리즘인 DQN과 DQN의 변형 알고리즘들을 비교 분석하였다. 실험은 Cart-Pole 시스템의 evaluation score, cart position 그리고 pole angle을 추출하여 비교 분석하였다. Evaluation score를 확인해본 결과 제안된 알고리즘이 가장 빠르고 안정적으로 학습함을 보였다. 또한 cart position과 cart의 누적 이동 거리를 확인해본 결과 제안된 알고리즘에서 cart position이 다른 알고리즘에 비하여 원점을 기준으로 균형적으로 수렴하며 움직였고, 총 누적 거리는 다른 알고리즘에 비해 확연히 짧은 모습을 확인할 수 있었다. Pole angle 또한 제안한 알고리즘에서 다른 알고리즘과 비교하여 빠르게 원점 근처로 수렴하였으며 그리고 학습된 알고리즘에서 수행한 결과를 추출한 자료에서도 원점을 기준으로 대칭적인 분포한다는 사실을 확인하였다.|This paper proposes a Memory Transformer Q-learnig Network (MTQN) to improve the existing deep learning algorithm. The MTQN is constructed by combining the existing deep learning model with a transformer to model the sequence system more efficiently, and the gating mechanism of LSTM is used.
The proposed algorithm is compared and analyzed on the Cart-Pole system, which is a representative reinforcement learning benchmark environment. The Cart-Pole system uses the gym library provided by OpenAI, and the reinforcement learning algorithm is implemented with pytorch and numpy.
To analyze the performance of the proposed algorithm, DQN, a representative deep reinforcement learning algorithm, and DQN's variants were compared and analyzed. The experiments were conducted by extracting the evaluation score, cart position, and pole angle of the Cart-Pole system. The evaluation score shows that the proposed algorithm learns the fastest and most stable. Also, by checking the cart position and the cumulative distance by the cart, it can be seen that the cart position in the proposed algorithm moves symmetrically around the origin compared to other algorithms, and the total cumulative distance is significantly shorter than other algorithms. Pole angle also converged to the origin quickly in the proposed algorithm compared to the other algorithms, and the extracted results from the trained algorithm also confirmed that it was symmetrically distributed around the origin.
Author(s)
한병찬
Issued Date
2024
Awarded Date
2024-02
Type
Dissertation
URI
https://dcoll.jejunu.ac.kr/common/orgView/000000011534
Alternative Author(s)
Han Byeong Chan
Affiliation
제주대학교 대학원
Department
대학원 에너지응용시스템학부
Advisor
김호찬
Table Of Contents
1. 서론 1
1.1 연구 배경 및 목적 1
1.2 논문의 구성 3
2. Cart-Pole 시스템 4
3. Transformer를 활용한 Cart-Pole 시스템 제어 6
3.1 강화학습 6
3.2 Deep Learning 기반 Q-Learning 12
3.2.1 테이블 기반 Q-Learning 12
3.2.2 DQN 13
3.2.3 DDQN 15
3.2.4 Dueling DDQN 16
3.3 Transformer 기반 Q-Learning 18
3.3.1 Transformer 18
3.3.2 Memory Transformer Q-Learning 23
4. 실험 및 결과 분석 25
4.1 Evaluation score 26
4.2 Cart position 31
4.3 Pole angle 35
4.3.1 학습 과정 중 pole angle 35
4.3.2 학습 완료 후 pole angle 38
5. 결론 43
참고문헌 45
Degree
Master
Publisher
제주대학교 대학원
Citation
한병찬. (2024). 메모리 트랜스포머 Q-학습을 활용한 카트-폴 시스템 제어.
Appears in Collections:
Faculty of Applied Energy System > Electronic Engineering
Authorize & License
  • AuthorizeOpen
  • Embargo2024-02-12
Files in This Item:

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.