nlinker
diff --git a/‎logs/tetris-20190731-224908-nn=[32, 32]-mem=10000-bs=1024-e=1/events.out.tfevents.1564591749.GS65
-28 KB b/‎logs/tetris-20190731-224908-nn=[32, 32]-mem=10000-bs=1024-e=1/events.out.tfevents.1564591749.GS65
-28 KB
diff --git a/‎logs/tetris-20190731-224908-nn=[32, 32]-mem=10000-bs=1024-e=1/model.hdf
-42 KB b/‎logs/tetris-20190731-224908-nn=[32, 32]-mem=10000-bs=1024-e=1/model.hdf
-42 KB
diff --git a/‎run_eval.py
+1-19 b/‎run_eval.py
+1-19
diff --git a/‎run.py renamed to ‎run_train.py
+24-14 b/‎run.py renamed to ‎run_train.py
+24-14
@@ -1,7 +1,7 @@
 import cv2
 from dqn_agent import DQNAgent
 from tetris import Tetris
-from run import AgentConf
+from run_train import AgentConf
 from keras.engine.saving import load_model
 
 
@@ -49,25 +49,7 @@ def run_eval(dir_name):
 
 def enumerate_run_eval():
     dirs = [
-        # 'tetris-20190731-172645-nn=[32, 32]-mem=15000-bs=512-e=1',
-        # 'tetris-20190731-180835-nn=[32, 32]-mem=25000-bs=512-e=1',
-        # 'tetris-20190731-184008-nn=[32, 32]-mem=25000-bs=64-e=1',
-        # 'tetris-20190731-190022-nn=[32, 32]-mem=25000-bs=128-e=1',
-        # 'tetris-20190731-200804-nn=[32, 32]-mem=5000-bs=256-e=1',
-        # 'tetris-20190731-201826-nn=[32, 32]-mem=10000-bs=256-e=1',
-        # 'tetris-20190731-203105-nn=[32, 32]-mem=15000-bs=256-e=1',
-        # 'tetris-20190731-204235-nn=[32, 32]-mem=20000-bs=256-e=1',
-        # 'tetris-20190731-205614-nn=[32, 32]-mem=25000-bs=256-e=1',
-        # 'tetris-20190731-210946-nn=[32, 32]-mem=5000-bs=512-e=1',
-        # 'tetris-20190731-212322-nn=[32, 32]-mem=10000-bs=512-e=1',
-        # 'tetris-20190731-213758-nn=[32, 32]-mem=15000-bs=512-e=1',
-        # 'tetris-20190731-215701-nn=[32, 32]-mem=20000-bs=512-e=1',
         'tetris-20190731-221411-nn=[32, 32]-mem=25000-bs=512-e=1',
-        # 'tetris-20190731-223042-nn=[32, 32]-mem=5000-bs=1024-e=1',
-        'tetris-20190731-224908-nn=[32, 32]-mem=10000-bs=1024-e=1',
-        # 'tetris-20190731-230310-nn=[32, 32]-mem=15000-bs=1024-e=1',
-        # 'tetris-20190731-232109-nn=[32, 32]-mem=20000-bs=1024-e=1',
-        # 'tetris-20190731-234617-nn=[32, 32]-mem=25000-bs=1024-e=1',
     ]
     for d in dirs:
         print(f"Evaluating dir '{d}'")
 
@@ -1,5 +1,4 @@
 from typing import Optional, Iterable
-import cv2
 
 from dqn_agent import DQNAgent
 from tetris import Tetris
@@ -13,13 +12,15 @@
 class AgentConf:
     def __init__(self):
         self.n_neurons = [32, 32]
+        self.batch_size = 512
         self.activations = ['relu', 'relu', 'linear']
         self.episodes = 2000
-        self.epsilon_stop_episode = 1500
+        self.epsilon = 1.0
+        self.epsilon_min = 0.0
+        self.epsilon_stop_episode = 1600
         self.mem_size = 25000
         self.discount = 0.95
-        self.replay_start_size = 5000
-        self.batch_size = 1024
+        self.replay_start_size = 2000
         self.epochs = 1
         self.render_every = None
         self.train_every = 1
@@ -33,14 +34,19 @@ def dqn(ac: AgentConf):
 
     agent = DQNAgent(env.get_state_size(),
                      n_neurons=ac.n_neurons, activations=ac.activations,
-                     epsilon_stop_episode=ac.epsilon_stop_episode, mem_size=ac.mem_size,
-                     discount=ac.discount, replay_start_size=ac.replay_start_size)
+                     epsilon=ac.epsilon, epsilon_min=ac.epsilon_min, epsilon_stop_episode=ac.epsilon_stop_episode,
+                     mem_size=ac.mem_size, discount=ac.discount, replay_start_size=ac.replay_start_size)
 
     timestamp_str = datetime.now().strftime("%Y%m%d-%H%M%S")
-    log_dir = f'logs/tetris-{timestamp_str}-nn={str(ac.n_neurons)}-mem={ac.mem_size}' \
-        f'-bs={ac.batch_size}-e={ac.epochs}'
+    # conf.mem_size = mem_size
+    # conf.epochs = epochs
+    # conf.epsilon_stop_episode = epsilon_stop_episode
+    # conf.discount = discount
+    log_dir = f'logs/tetris-{timestamp_str}-ms{ac.mem_size}-e{ac.epochs}-ese{ac.epsilon_stop_episode}-d{ac.discount}'
     log = CustomTensorBoard(log_dir=log_dir)
 
+    print(f"AGENT_CONF = {log_dir}")
+
     scores = []
 
     episodes_wrapped: Iterable[int] = tqdm(range(ac.episodes))
@@ -90,12 +96,16 @@ def dqn(ac: AgentConf):
 
 
 def enumerate_dqn():
-    for bs in [256, 512, 1024]:
-        for ms in [5000, 10_000, 15_000, 20_000, 25_000]:
-            agent_conf = AgentConf()
-            agent_conf.batch_size = bs
-            agent_conf.mem_size = ms
-            dqn(agent_conf)
+    for mem_size in [10_000, 15_000, 20_000, 25_000]:
+        for epochs in [1, 2, 3]:
+            for epsilon_stop_episode in [1600, 1800, 2000]:
+                for discount in [0.95, 0.97, 0.99]:
+                    conf = AgentConf()
+                    conf.mem_size = mem_size
+                    conf.epochs = epochs
+                    conf.epsilon_stop_episode = epsilon_stop_episode
+                    conf.discount = discount
+                    dqn(conf)
 
 
 if __name__ == "__main__":