GitHub - joshsmith2/pytorch-processing: Creation of training, test and validation datasets for model training, using Pytorch

A single convenience class, TorchModel, which uses PyTorch to convert .csv datasets into JSON training, test and validate data files.

e.g. - to create three JSON files containing a tokenised 'description' field for each record:

from torchtext.legacy import data

DESCRIPTION = data.Field(sequential=True, use_vocab = True, tokenize=your_favourite_tokeniser, lower=True)

w = TorchModel(model_csv = model_file,
               string_fields = ['description],
               conversions = field_conversions)

w.import_model_data_from_csv()
print(f"Records in model: {len(w.json_data)}")
w.split_dataset(test_size=1000, validate_size=100, seed=24)

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
__pycache__		__pycache__
data		data
.gitignore		.gitignore
README.md		README.md
experiment.py		experiment.py
process_dataset_for_torchtext.py		process_dataset_for_torchtext.py
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

About

Releases

Packages

Languages

joshsmith2/pytorch-processing

Folders and files

Latest commit

History

Repository files navigation

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages