xiaofengShi
diff --git a/‎args.py
Lines changed: 149 additions & 0 deletions b/‎args.py
Lines changed: 149 additions & 0 deletions
diff --git a/‎eval.py
Lines changed: 146 additions & 0 deletions b/‎eval.py
Lines changed: 146 additions & 0 deletions
diff --git a/‎loss.py
Lines changed: 39 additions & 0 deletions b/‎loss.py
Lines changed: 39 additions & 0 deletions
@@ -0,0 +1,149 @@
+import argparse
+
+def get_args(description='Youtube-Text-Video'):
+    parser = argparse.ArgumentParser(description=description)
+    parser.add_argument(
+        '--train_csv',
+        type=str,
+        default='/sequoia/data2/amiech/iccv19/csv/dataset_v10_1300k.csv',
+        help='train csv')
+    parser.add_argument(
+        '--features_path',
+        type=str,
+        default='/local/dataset/youtube_text/2D_features',
+        help='feature path')
+    parser.add_argument(
+        '--features_path_3D',
+        type=str,
+        default='/local/dataset/youtube_text/3D_features',
+        help='feature path')
+    parser.add_argument(
+        '--caption_path',
+        type=str,
+        default='/sequoia/data2/amiech/iccv19/caption_pickle/caption_howto100m.pickle',
+        help='caption csv path')
+    parser.add_argument(
+        '--word2vec_path',
+        type=str,
+        default='/local/dataset/youtube_text/GoogleNews-vectors-negative300.bin',
+        help='word embedding path')
+    parser.add_argument(
+        '--pretrain_path',
+        type=str,
+        default='',
+        help='pre train model path')
+    parser.add_argument(
+        '--checkpoint_dir',
+        type=str,
+        default='',
+        help='checkpoint model folder')
+    parser.add_argument('--sentence_pooling', type=str, default='max',
+                                help='sentence representation')
+    parser.add_argument('--num_thread_reader', type=int, default=1,
+                                help='')
+    parser.add_argument('--embd_dim', type=int, default=2048,
+                                help='embedding dim')
+    parser.add_argument('--lr', type=float, default=0.0001,
+                                help='initial learning rate')
+    parser.add_argument('--epochs', type=int, default=20,
+                                help='upper epoch limit')
+    parser.add_argument('--batch_size', type=int, default=256,
+                                help='batch size')
+    parser.add_argument('--batch_size_val', type=int, default=3500,
+                                help='batch size eval')
+    parser.add_argument('--lr_decay', type=float, default=0.9,
+                                help='Learning rate exp epoch decay')
+    parser.add_argument('--n_display', type=int, default=10,
+                                help='Information display frequence')
+    parser.add_argument('--feature_dim', type=int, default=4096,
+                                help='video feature dimension')
+    parser.add_argument('--we_dim', type=int, default=300,
+                                help='word embedding dimension')
+    parser.add_argument('--seed', type=int, default=1,
+                                help='random seed')
+    parser.add_argument('--verbose', type=int, default=1,
+                                help='')
+    parser.add_argument('--max_words', type=int, default=20,
+                                help='')
+    parser.add_argument('--min_words', type=int, default=0,
+                                help='')
+    parser.add_argument('--feature_framerate', type=int, default=1,
+                                help='')
+    parser.add_argument('--min_time', type=float, default=5.0,
+                                help='')
+    parser.add_argument('--margin', type=float, default=0.1,
+                                help='')
+    parser.add_argument('--hard_negative_rate', type=float, default=0.5,
+                                help='')
+    parser.add_argument('--negative_weighting', type=int, default=1,
+                                help='')
+    parser.add_argument('--gpu_mode', type=int, default=1,
+                                help='')
+    parser.add_argument('--n_pair', type=int, default=1,
+                                help='Num of pair to output from data loader')
+    parser.add_argument('--eval_lsmdc', type=int, default=0,
+                                help='Evaluate on LSMDC data')
+    parser.add_argument('--eval_msrvtt', type=int, default=0,
+                                help='Evaluate on MSRVTT data')
+    parser.add_argument('--lsmdc', type=int, default=0,
+                                help='LSMDC training')
+    parser.add_argument('--sentence_dim', type=int, default=-1,
+                                help='sentence dimension')
+    parser.add_argument(
+        '--youcook_train_path',
+        type=str,
+        default='/sequoia/data2/dataset/YouCook2/scripts/train.pkl',
+        help='')
+    parser.add_argument(
+        '--youcook_val_path',
+        type=str,
+        default='/sequoia/data2/dataset/YouCook2/scripts/val.pkl',
+        help='')
+    parser.add_argument('--youcook', type=int, default=0,
+                                help='')
+    parser.add_argument('--msrvtt', type=int, default=0,
+                                help='')
+    parser.add_argument('--eval_youcook', type=int, default=0,
+                                help='')
+    parser.add_argument(
+        '--msrvtt_test_csv_path',
+        type=str,
+        default='/sequoia/data2/dataset/MSR-VTT_Dataset/test_sentences.csv',
+        help='')
+    parser.add_argument(
+        '--msrvtt_test_features_path',
+        type=str,
+        default='/sequoia/data2/dataset/MSR-VTT_Dataset/features.pth',
+        help='')
+    parser.add_argument(
+        '--lsmdc_test_csv_path',
+        type=str,
+        default='/sequoia/data2/amiech/MPII/LSMDC16_challenge_1000_publictect.csv',
+        help='')
+    parser.add_argument(
+        '--lsmdc_test_features_path',
+        type=str,
+        default='/sequoia/data2/amiech/MPII/features/retrieval_features.pth',
+        help='')
+    parser.add_argument(
+        '--lsmdc_train_csv_path',
+        type=str,
+        default='/sequoia/data2/amiech/MPII/LSMDC16_annos_training.csv',
+        help='')
+    parser.add_argument(
+        '--lsmdc_train_features_path',
+        type=str,
+        default='/sequoia/data2/amiech/MPII/features/train_features.pth',
+        help='')
+    parser.add_argument(
+        '--lsmdc_val_csv_path',
+        type=str,
+        default='/sequoia/data2/amiech/MPII/LSMDC16_annos_val.csv',
+        help='')
+    parser.add_argument(
+        '--lsmdc_val_features_path',
+        type=str,
+        default='/sequoia/data2/amiech/MPII/features/val_features.pth',
+        help='')
+    args = parser.parse_args()
+    return args
@@ -0,0 +1,146 @@
+from __future__ import absolute_import
+from __future__ import division
+from __future__ import unicode_literals
+from __future__ import print_function
+
+import torch as th
+from torch.utils.data import DataLoader
+import numpy as np
+from args import get_args
+import random
+import os
+from youcook_dataloader import Youcook_DataLoader
+from model import Net
+from metrics import compute_metrics, print_computed_metrics
+from gensim.models.keyedvectors import KeyedVectors
+import pickle
+import glob
+from lsmdc_dataloader import LSMDC_DataLoader
+from msrvtt_dataloader import MSRVTT_DataLoader
+
+
+args = get_args()
+if args.verbose:
+    print(args)
+
+assert args.pretrain_path != '', 'Need to specify pretrain_path argument'
+
+# predefining random initial seeds
+th.manual_seed(args.seed)
+np.random.seed(args.seed)
+random.seed(args.seed)
+
+print('Loading word vectors: {}'.format(args.word2vec_path))
+we = KeyedVectors.load_word2vec_format(args.word2vec_path, binary=True)
+print('done')
+
+
+if args.eval_youcook:
+    dataset_val = Youcook_DataLoader(
+        data=args.youcook_val_path,
+        we=we,
+        max_words=args.max_words,
+        we_dim=args.we_dim,
+        n_pair=1,
+    )
+    dataloader_val = DataLoader(
+        dataset_val,
+        batch_size=args.batch_size_val,
+        num_workers=args.num_thread_reader,
+        shuffle=False,
+    )
+if args.eval_lsmdc:
+    dataset_lsmdc = LSMDC_DataLoader(
+        csv_path=args.lsmdc_test_csv_path,
+        features_path=args.lsmdc_test_features_path,
+        we=we,
+        max_words=args.max_words,
+        we_dim=args.we_dim,
+    )
+    dataloader_lsmdc = DataLoader(
+        dataset_lsmdc,
+        batch_size=args.batch_size_val,
+        num_workers=args.num_thread_reader,
+        shuffle=False,
+    )
+if args.eval_msrvtt:
+    msrvtt_testset = MSRVTT_DataLoader(
+        csv_path='/sequoia/data2/dataset/MSR-VTT_Dataset/test_sentences.csv',
+        features_path=args.msrvtt_test_features_path,
+        we=we,
+        max_words=args.max_words,
+        we_dim=args.we_dim,
+    )
+    dataloader_msrvtt = DataLoader(
+        msrvtt_testset,
+        batch_size=3000,
+        num_workers=args.num_thread_reader,
+        shuffle=False,
+        drop_last=False,
+    )
+net = Net(
+    video_dim=args.feature_dim,
+    embd_dim=args.embd_dim,
+    we_dim=args.we_dim,
+    max_words=args.max_words,
+)
+net.eval()
+# Optimizers + Loss
+if args.gpu_mode:
+    net.cuda()
+
+if args.verbose:
+    print('Starting evaluation loop ...')
+
+def Eval_msrvtt(model, eval_dataloader):
+    model.eval()
+    print ('Evaluating Text-Video retrieval on MSRVTT data')
+    with th.no_grad():
+        for i_batch, data in enumerate(eval_dataloader):
+            text = data['text'].cuda() if args.gpu_mode else data['text']
+            vid = data['video_id']
+            video = data['video'].cuda() if args.gpu_mode else data['video']
+            m = model(video, text)
+            m = m.cpu().detach().numpy()
+            metrics = compute_metrics(m)
+            print_computed_metrics(metrics)
+
+def Eval_lsmdc(model, eval_dataloader):
+    model.eval()
+    print ('Evaluating Text-Video retrieval on LSMDC data')
+    with th.no_grad():
+        for i_batch, data in enumerate(eval_dataloader):
+            text = data['text'].cuda() if args.gpu_mode else data['text']
+            video = data['video'].cuda() if args.gpu_mode else data['video']
+            vid = data['video_id']
+            m = model(video, text)
+            m = m.cpu().detach().numpy()
+            metrics = compute_metrics(m)
+            print_computed_metrics(metrics)
+
+
+def Eval_youcook(model, eval_dataloader):
+    model.eval()
+    print ('Evaluating Text-Video retrieval on Youcook data')
+    with th.no_grad():
+        for i_batch, data in enumerate(eval_dataloader):
+            text = data['text'].cuda() if args.gpu_mode else data['text']
+            video = data['video'].cuda() if args.gpu_mode else data['video']
+            vid = data['video_id']
+            m = model(video, text)
+            m  = m.cpu().detach().numpy()
+            metrics = compute_metrics(m)
+            print_computed_metrics(metrics)
+
+all_checkpoints = glob.glob(args.pretrain_path)
+
+for c in all_checkpoints:
+    print('Eval checkpoint: {}'.format(c))
+    print('Loading checkpoint: {}'.format(c))
+    net.load_checkpoint(c)
+    if args.eval_youcook:
+        Eval_youcook(net, dataloader_val)
+    if args.eval_msrvtt:
+        Eval_msrvtt(net, dataloader_msrvtt)
+    if args.eval_lsmdc:
+        Eval_lsmdc(net, dataloader_lsmdc)
@@ -0,0 +1,39 @@
+from __future__ import absolute_import
+from __future__ import division
+from __future__ import unicode_literals
+from __future__ import print_function
+
+import torch.nn.functional as F
+import torch as th
+import numpy as np
+
+class MaxMarginRankingLoss(th.nn.Module):
+    def __init__(self,
+                 margin=1.0,
+                 negative_weighting=False,
+                 batch_size=1,
+                 n_pair=1,
+                 hard_negative_rate=0.5,
+        ):
+        super(MaxMarginRankingLoss, self).__init__()
+        self.margin = margin
+        self.n_pair = n_pair
+        self.batch_size = batch_size
+        easy_negative_rate = 1 - hard_negative_rate
+        self.easy_negative_rate = easy_negative_rate
+        self.negative_weighting = negative_weighting
+        if n_pair > 1:
+            alpha = easy_negative_rate / ((batch_size - 1) * (1 - easy_negative_rate))
+            mm_mask = (1 - alpha) * np.eye(self.batch_size) + alpha
+            mm_mask = np.kron(mm_mask, np.ones((n_pair, n_pair)))
+            mm_mask = th.tensor(mm_mask) * (batch_size * (1 - easy_negative_rate))
+            self.mm_mask = mm_mask.float().cuda()
+
+
+    def forward(self, x):
+        d = th.diag(x)
+        max_margin = F.relu(self.margin + x - d.view(-1, 1)) + \
+                     F.relu(self.margin + x - d.view(1, -1))
+        if self.negative_weighting:
+            max_margin = max_margin * self.mm_mask
+        return max_margin.mean()