zhkmxx9302013
diff --git a/‎PPO2/ResultLogger.py
+50 b/‎PPO2/ResultLogger.py
+50
diff --git a/‎PPO2/algo/ppo.py
+142 b/‎PPO2/algo/ppo.py
+142
diff --git a/‎PPO2/main.py
+145 b/‎PPO2/main.py
+145
@@ -0,0 +1,50 @@
+import tensorflow as tf
+class ResultLogger:
+    def __init__(self, writer):
+        """
+
+        :param writer: TensorboardX writer
+        """
+        self.writer = writer
+        self.score = []
+        self.mean = []
+        self.episode = 0
+        pass
+
+    def log_result(self, total_reward, winnum, drawnum, episode):
+        """
+        log result 
+        :param total_reward:
+        :param winnum:
+        :param drawnum:
+        :param episode:
+        :return:
+        """
+        self.episode=episode
+        self.score.append(total_reward)
+        self.writer.add_scalar('total_reward', total_reward, episode)
+        mean_reward = sum(self.score[-100:]) / 100
+        self.mean.append(mean_reward)
+        self.writer.add_scalar('mean_reward', mean_reward, episode)
+
+        if episode % 100:
+            self.writer.add_scalar('win_rate', winnum / 100, episode)  # 用于博弈环境
+            self.writer.add_scalar('draw_rate', drawnum / 100, episode) # 用于博弈环境
+        pass
+
+    def log_parameter(self, info_dict=None):
+        """
+        Log hyper parameter. 
+        :param info_dict:
+        :return:
+        """
+        if info_dict and type(info_dict) == dict:
+            for (k, v) in info_dict.items():
+                self.writer.add_scalar(k, v, self.episode)
+
+        pass
+
+    def log_gaes(self, gae, episode):
+        self.writer.add_scalar('GAE', gae, episode)
+
+
@@ -0,0 +1,142 @@
+import tensorflow as tf
+import copy
+
+
+class PPOTrain:
+    def __init__(self, Policy, Old_Policy, gamma=0.95, clip_value=0.2, c_1=1, c_2=0.01, logger=None, args=None):
+        """
+        :param Policy:
+        :param Old_Policy:
+        :param gamma:
+        :param clip_value:
+        :param c_1: parameter for value difference
+        :param c_2: parameter for entropy bonus
+        :param logger: hyper-parameter Saver
+        :param is_log: wheter save the hyper-parameter
+        """
+
+        self.Policy = Policy
+        self.Old_Policy = Old_Policy
+        self.gamma = gamma
+        self.logger = logger
+        self.args = args
+
+        pi_trainable = self.Policy.get_trainable_variables()
+        old_pi_trainable = self.Old_Policy.get_trainable_variables()
+
+        # assign_operations for policy parameter values to old policy parameters
+        with tf.variable_scope('assign_op'):
+            self.assign_ops = []
+            for v_old, v in zip(old_pi_trainable, pi_trainable):
+                self.assign_ops.append(tf.assign(v_old, v))
+
+        # inputs for train_op
+        with tf.variable_scope('train_inp'):
+            self.actions = tf.placeholder(dtype=tf.int32, shape=[None], name='actions')
+            self.rewards = tf.placeholder(dtype=tf.float32, shape=[None], name='rewards')
+            self.v_preds_next = tf.placeholder(dtype=tf.float32, shape=[None], name='v_preds_next')
+            self.gaes = tf.placeholder(dtype=tf.float32, shape=[None], name='gaes')
+
+        act_probs = self.Policy.act_probs
+        act_probs_old = self.Old_Policy.act_probs
+
+        # agent通过新策略选择action的概率 probabilities of actions which agent took with policy
+        act_probs = act_probs * tf.one_hot(indices=self.actions, depth=act_probs.shape[1])
+        act_probs = tf.reduce_sum(act_probs, axis=1)
+
+        # agent通过旧策略选择action的概率 probabilities of actions which agent took with old policy
+        act_probs_old = act_probs_old * tf.one_hot(indices=self.actions, depth=act_probs_old.shape[1])
+        act_probs_old = tf.reduce_sum(act_probs_old, axis=1)
+
+        with tf.variable_scope('PPO_loss'):
+            """
+                策略目标函数
+            """
+            #
+            # ratios = tf.divide(act_probs, act_probs_old)
+            # r_t(θ) = π/πold 为了防止除数为0，这里截取一下值，然后使用e(log减法)来代替直接除法
+            ratios = tf.exp(tf.log(tf.clip_by_value(act_probs, 1e-10, 1.0)) - tf.log(tf.clip_by_value(act_probs_old, 1e-10, 1.0)))
+            # L_CLIP 裁剪优势函数值
+            clipped_ratios = tf.clip_by_value(ratios, clip_value_min=1 - clip_value, clip_value_max=1 + clip_value)
+            self.loss_clip = tf.minimum(tf.multiply(self.gaes, ratios), tf.multiply(self.gaes, clipped_ratios))
+            self.loss_clip = tf.reduce_mean(self.loss_clip)
+
+            """
+                策略模型的熵
+            """
+            # 计算新策略πθ的熵 S = -p log(p) 这里裁剪防止p=0
+            self.entropy = -tf.reduce_sum(self.Policy.act_probs * tf.log(tf.clip_by_value(self.Policy.act_probs, 1e-10, 1.0)), axis=1)
+            self.entropy = tf.reduce_mean(self.entropy, axis=0)  # mean of entropy of pi(obs)
+
+            """
+                值目标函数
+            """
+            # L_vf = [(r+γV(π(st+1))) - (V(π(st)))]^2
+            v_preds = self.Policy.v_preds
+            self.loss_vf = tf.squared_difference(self.rewards + self.gamma * self.v_preds_next, v_preds)
+            self.loss_vf = tf.reduce_mean(self.loss_vf)
+
+            # construct computation graph for loss
+            # L(θ) = E_hat[L_CLIP(θ) - c1 L_VF(θ) + c2 S[πθ](s)]
+            # L = 策略目标函数 + 值目标函数 + 策略模型的熵
+            self.loss = self.loss_clip - c_1 * self.loss_vf + c_2 * self.entropy
+            # minimize -loss == maximize loss
+            self.loss = -self.loss
+
+        optimizer = tf.train.RMSPropOptimizer(learning_rate=args.ppo_lr, epsilon=1e-5)
+        self.gradients = optimizer.compute_gradients(self.loss, var_list=pi_trainable)
+        self.train_op = optimizer.minimize(self.loss, var_list=pi_trainable)
+
+
+    def train(self, obs, actions, gaes, rewards, v_preds_next):
+        tf.get_default_session().run(self.train_op, feed_dict={self.Policy.obs: obs,
+                                                               self.Old_Policy.obs: obs,
+                                                               self.actions: actions,
+                                                               self.rewards: rewards,
+                                                               self.v_preds_next: v_preds_next,
+                                                               self.gaes: gaes})
+
+    def log_parameter(self, obs, actions, gaes, rewards, v_preds_next):
+        lc, ent, lvf, loss = tf.get_default_session().run([self.loss_clip, self.entropy, self.loss_vf, self.loss], feed_dict={self.Policy.obs: obs,
+                                                                    self.Old_Policy.obs: obs,
+                                                                    self.actions: actions,
+                                                                    self.rewards: rewards,
+                                                                    self.v_preds_next: v_preds_next,
+                                                                    self.gaes: gaes})
+
+        log_dict = {
+                'ppo_loss_clip': lc,
+                'ppo_entropy': ent,
+                'ppo_value_difference': lvf,
+                'ppo_total = (Lclip+Lvf+S)': loss
+            }
+
+        self.logger.log_parameter(log_dict)
+
+    def assign_policy_parameters(self):
+        # assign policy parameter values to old policy parameters
+        return tf.get_default_session().run(self.assign_ops)
+
+    def get_gaes(self, rewards, v_preds, v_preds_next):
+        """
+        GAE
+        :param rewards: r(t)
+        :param v_preds: v(st)
+        :param v_preds_next: v(st+1)
+        :return:
+        """
+        deltas = [r_t + self.gamma * v_next - v for r_t, v_next, v in zip(rewards, v_preds_next, v_preds)]
+
+        # calculate generative advantage estimator(lambda = 1), see ppo paper eq(11)
+        gaes = copy.deepcopy(deltas)
+        for t in reversed(range(len(gaes) - 1)):  # is T-1, where T is time step which run policy
+            gaes[t] = gaes[t] + self.gamma * gaes[t + 1]
+        return gaes
+
+    def get_grad(self, obs, actions, gaes, rewards, v_preds_next):
+        return tf.get_default_session().run(self.gradients, feed_dict={self.Policy.obs: obs,
+                                                                       self.Old_Policy.obs: obs,
+                                                                       self.actions: actions,
+                                                                       self.rewards: rewards,
+                                                                       self.v_preds_next: v_preds_next,
+                                                                       self.gaes: gaes})
@@ -0,0 +1,145 @@
+#!/usr/bin/python3
+import argparse
+import gym
+import numpy as np
+import utils
+import tensorflow as tf
+from environment import Environment
+from network.policy_net import Policy_net
+from algo.ppo import PPOTrain
+from tensorboardX import SummaryWriter
+from ResultLogger import ResultLogger
+
+
+def argparser():
+    parser = argparse.ArgumentParser()
+    parser.add_argument('--logdir', help='log directory', default='log/train/ppo_curriculum_without_misslerew')
+    parser.add_argument('--savedir', help='save directory', default='trained_models/ppo_curriculum_without_misslerew')
+    parser.add_argument('--gamma', default=0.95, type=float)
+    parser.add_argument('--ppo_lr', help='ppo learning rate', default=1e-4)
+    parser.add_argument('--episode', default=int(10e4), type=int)
+    parser.add_argument('--continue_train',default=False, type=bool, help='whether continue training on the previous model.')
+    parser.add_argument('--continue_meta', type=str, default='./trained_models/ppo_curriculum/model.ckpt.meta',
+                        help='meta file trained by the previous model.')
+    parser.add_argument('--continue_modeldir',  type=str, default='./trained_models/ppo_curriculum/',
+                        help='trained models dirctory trained by the previous model.')
+    return parser.parse_args()
+
+
+def main(args):
+    writer = SummaryWriter(args.logdir)
+    logger = ResultLogger(writer)
+
+    env = Environment()  # 自定义环境
+    ob_space = env.observation_space
+    Policy = Policy_net('policy', env)
+    Old_Policy = Policy_net('old_policy', env)
+    PPO = PPOTrain(Policy, Old_Policy, gamma=args.gamma, args=args, logger=logger)
+    saver = tf.train.Saver()
+
+    if args.continue_train:
+        tf.reset_default_graph()
+        tf.train.import_meta_graph(args.continue_meta)
+
+
+
+    with tf.Session() as sess:
+        if args.continue_train:
+            saver.restore(sess, args.continue_modeldir)
+        sess.run(tf.global_variables_initializer())
+        reward = 0
+        winnum = 0
+        drawnum = 0
+        for episode in range(args.episode):
+
+            observations = []
+            actions = []
+            v_preds = []
+            rewards = []
+
+            run_policy_steps = 0
+
+            total_reward = 0
+            obs = env.reset()
+            while True:  # run policy RUN_POLICY_STEPS which is much less than episode length
+                run_policy_steps += 1
+
+                obs = np.stack([obs]).astype(dtype=np.float32)  # prepare to feed placeholder Policy.obs
+                act, v_pred = Policy.act(obs=obs, stochastic=True)
+
+                act = np.asscalar(act)
+                v_pred = np.asscalar(v_pred)
+
+                observations.append(obs)
+                actions.append(act)
+                v_preds.append(v_pred)
+                rewards.append(reward)
+
+                next_obs, reward, sparse_rew, done, info = env.step(act)   
+                if reward < -1000:
+                    reward = -10
+
+                reward = utils.get_curriculum_reward(reward, sparse_rew, 1.0, run_policy_steps)
+                # if episode==1:
+                #     print(reward)
+
+
+                obs = next_obs
+                if done:
+                    total_reward = sum(rewards)
+                    total_reward /= run_policy_steps
+                    total_reward += reward
+                    v_preds_next = v_preds[1:] + [0]  # next state of terminate state has 0 state value
+
+                    reward = -1
+                    if info == 3:
+                        winnum += 1
+                    if info == 2:
+                        drawnum += 1
+
+                    break
+
+            if episode % 100 == 0:
+                winnum = 0
+                drawnum = 0
+
+            logger.log_result(total_reward, winnum, drawnum, episode)
+            print(episode, total_reward)
+            if episode % 1000 == 0:
+                saver.save(sess, args.savedir + '/model.ckpt')
+
+            ####
+            ##  GAE
+            ####
+            gaes = PPO.get_gaes(rewards=rewards, v_preds=v_preds, v_preds_next=v_preds_next)
+
+            # 把list 转成 适应于tf.placeholder 的numpy array
+            observations = np.reshape(observations,  newshape=(-1, ob_space))
+            actions = np.array(actions).astype(dtype=np.int32)
+            gaes = np.array(gaes).astype(dtype=np.float32)
+            gaes = (gaes - gaes.mean()) / gaes.std()
+            rewards = np.array(rewards).astype(dtype=np.float32)
+            v_preds_next = np.array(v_preds_next).astype(dtype=np.float32)
+
+            logger.log_gaes(gaes.mean(), episode)
+            PPO.log_parameter(observations, actions, gaes, rewards, v_preds_next)
+            PPO.assign_policy_parameters()
+
+            inp = [observations, actions, gaes, rewards, v_preds_next]
+
+            # train
+            for epoch in range(2):
+                # sample indices from [low, high)
+                sample_indices = np.random.randint(low=0, high=observations.shape[0], size=32)
+                sampled_inp = [np.take(a=a, indices=sample_indices, axis=0) for a in inp]  # sample training data
+                PPO.train(obs=sampled_inp[0],
+                          actions=sampled_inp[1],
+                          gaes=sampled_inp[2],
+                          rewards=sampled_inp[3],
+                          v_preds_next=sampled_inp[4])
+
+
+
+if __name__ == '__main__':
+    args = argparser()
+    main(args)