DOI QR코드

DOI QR Code

Function Approximation for Reinforcement Learning using Fuzzy Clustering

퍼지 클러스터링을 이용한 강화학습의 함수근사

  • 이영아 (경희대학교 대학원 컴퓨터공학과) ;
  • 정경숙 (경희대학교 대학원 컴퓨터공학과) ;
  • 정태충 (경희대학교 컴퓨터공학과)
  • Published : 2003.10.01

Abstract

Many real world control problems have continuous states and actions. When the state space is continuous, the reinforcement learning problems involve very large state space and suffer from memory and time for learning all individual state-action values. These problems need function approximators that reason action about new state from previously experienced states. We introduce Fuzzy Q-Map that is a function approximators for 1 - step Q-learning and is based on fuzzy clustering. Fuzzy Q-Map groups similar states and chooses an action and refers Q value according to membership degree. The centroid and Q value of winner cluster is updated using membership degree and TD(Temporal Difference) error. We applied Fuzzy Q-Map to the mountain car problem and acquired accelerated learning speed.

강화학습을 적용하기에 적합한 많은 실세계의 제어 문제들은 연속적인 상태 또는 행동(continuous states or actions)을 갖는다. 연속 값을 갖는 문제인 경우, 상태공간의 크기가 거대해져서 모든 상태-행동 쌍을 학습하는데 메모리와 시간상의 문제가 있다. 이를 해결하기 위하여 학습된 유사한 상태로부터 새로운 상태에 대한 추측을 하는 함수 근사 방법이 필요하다. 본 논문에서는 1-step Q-learning의 함수 근사를 위하여 퍼지 클러스터링을 기초로 한 Fuzzy Q-Map을 제안한다. Fuzzy Q-Map은 데이터에 대한 각 클러스터의 소속도(membership degree)를 이용하여 유사한 상태들을 군집하고 행동을 선택하고 Q값을 참조했다. 또한 승자(winner)가 되는 퍼지 클러스터의 중심과 Q값은 소속도와 TD(Temporal Difference) 에러를 이용하여 갱신하였다. 본 논문에서 제안한 방법은 마운틴 카 문제에 적용한 결과, 빠른 수렴 결과를 보였다.

Keywords

References

  1. Richard S. Sutton and Andrew G. Barto, 'Reinforcement Learning : An Introduction,' The MIT Press, Cambridge, MA., 1998
  2. Stephan ten Hagen and Ben Krose, 'Q-learning for System with continuous state and action spaces,' BENELEARN 2000, 10th Belgian-Dutch conference on Machine Learning
  3. Chris Gaskett, David Wettergreen, and Alexander Zelinsky, 'Q-learning in continuous state and action spaces,' Australian Joint Conference on Artificial Intelligence, 1999
  4. Jan Jantzen, 'Neurofuzzy Modelling,' Technical Report 98-H-869 (soc), Technical University of Denmark : Dept. of Automation, http://fuzzy.iau.dtu/download/soc.pdf, 1998. Lecture notes, pp. 14
  5. 전효병, 이동욱, 김대준, 심귀보, '퍼지추론에 위한 리커런트 뉴럴 네트워크 강화학습,' 한국퍼지및지능시스템학회 '97년도 춘계학술대회논문집, 1997
  6. 정석일, 이연정, '분포 기여도를 이용한 퍼지 Q-learning,' 퍼지및지능시스템학회논문지, Vol.11, No.5, pp.388-394, 2001
  7. Pierre Yves Glorennec, Lionel Jouffe, 'Fuzzy Q-learning,' Proceedings of Fuzz-Ieee'97, Sixth Internationl Conference on Fuzzy Systems, Barcelona, pp.719-724, July, 1997
  8. Lionel Jouffe, 'Fuzzy Inference System Learning by Reinforcement Methods,' Ieee Transactions on System,Man and Cybernetics, Vol.98, No.3, August, 1998 https://doi.org/10.1109/5326.704563
  9. Andrea Bonarini. 'Delayed Reinforcement, Fuzzy Q-learning and Fuzzy Logic Controllers,' In Herrera, F. Verdegay, J. L. (Eds.) Genetic Algorithns and Soft Computing, (Studies in Fuzziness, 8.), Physica-Verlag, Berlin, D., pp.447-466
  10. Artistidis Likas, 'A Reinforcement Learning Approach to On-Line Clustering,' Neural Computation, Vol.11, No.8, pp.1915-1932, 1999 https://doi.org/10.1162/089976699300016025

Cited by

  1. Multi-Agent Reinforcement Learning Model based on Fuzzy Inference vol.9, pp.10, 2009, https://doi.org/10.5392/JKCA.2009.9.10.051