Skip to content

最近在做一些强化学习方面的工作,这里对一些传统的强化学习算法做一个总结,不断整理

Notifications You must be signed in to change notification settings

zhkmxx9302013/ReinforcementLearning_experiment

Folders and files

NameName
Last commit message
Last commit date

Latest commit

1675936 · Aug 18, 2019

History

36 Commits
Jan 26, 2019
Feb 3, 2019
Apr 13, 2019
Feb 1, 2019
Apr 6, 2019
Apr 27, 2019
Aug 18, 2019

Repository files navigation

ReinforcementLearning_experiment

最近在做一些强化学习方面的工作,这里对一些传统的强化学习算法做一个总结,不断整理。 本repo提供的代码,参考莫烦和baseline进行实现,实验环境基于openai gym, 不涉及图像处理相关,较为纯净的强化学习部分实现。 实验结果主要以gym的实验结果为主,有一些实验是在自己实现的一套1v1 6DoF飞行器博弈仿真环境做的实验,该环境较为复杂,对各种算法也有更加全面的验证。

DQN系列

已完成:

  1. Nature DQN
  2. Double DQN
  3. Dueling DDQN
  4. DRQN
  5. Multistep DQN

DQN_IN_PROJECT目录为整理成项目架构形式的算法,可以兼容以上五种算法,将网络结构,agent学习,主程序分开封装。

三类算法对比:(DQN, DoubleDQN, Dueling DQN)

  1. gym CartPole-v0 环境: x
  2. 1v1 6DoF飞行器博弈仿真环境做的实验(mean_reward越大越优) x

@Todo

  • DRQN 考虑加入部分可观马尔科夫时序处理
  • Multistep DQN (重要性采样)
  • Priority Replay buffer

非确定性PG系列

已完成:

  1. PPO2 (Clip advantage)
  2. 加入 exploration curriculum 参考 Emergent Complexity via Multi-agent Competition

代码在PPO2部分


模仿学习系列

已完成:

  1. GAIL (WGAN-GP)
  2. PPO2
  3. seprate net

代码在GAIL

@Todo

  • VAE VAE
  • 参考复现 Robust Imitation of Diverse Behaviors

About

最近在做一些强化学习方面的工作,这里对一些传统的强化学习算法做一个总结,不断整理

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages