Shears/running_commands

# LLaMA with the Unified Math Dataset

# LLaMA-7B (sparsity: 40%)

CUDA_VISIBLE_DEVICES=$DEVICES python wanda/main.py \
    --model yahma/llama-7b-hf \
    --prune_method wanda \
    --sparsity_ratio 0.4 \
    --sparsity_type unstructured \
    --save wanda_out \
    --save_model unstructured_sparsity_models/shears-llama-7b-40-base

CUDA_VISIBLE_DEVICES=$DEVICES python run_math.py \
    --dataset_path datasets/math_10k.json \
    --model_name_or_path unstructured_sparsity_models/shears-llama-7b-40-base \
    --do_train \
    --do_test \
    --per_device_train_batch_size 4 \
    --gradient_accumulation_steps 4 \
    --num_train_epochs 4 \
    --learning_rate 3e-4 \
    --warmup_steps 100 \
    --optim adamw_torch \
    --fp16 \
    --output_dir trained_super_adapter/shears-llama-7b-40-math-super \
    --logging_steps 20 \
    --save_strategy epoch \
    --save_total_limit 2 \
    --lora \
    --lora_r 32 \
    --lora_alpha 64 \
    --lora_dropout 0.1 \
    --target_modules q_proj,k_proj,v_proj,up_proj,gate_proj,down_proj \
    --nncf_config nncf_config/nncf_shears_llama_with_gate_proj.json

# LLaMA-7B (sparsity: 50%)

CUDA_VISIBLE_DEVICES=$DEVICES python wanda/main.py \
    --model yahma/llama-7b-hf \
    --prune_method wanda \
    --sparsity_ratio 0.5 \
    --sparsity_type unstructured \
    --save wanda_out \
    --save_model unstructured_sparsity_models/shears-llama-7b-50-base

CUDA_VISIBLE_DEVICES=$DEVICES python run_math.py \
    --dataset_path datasets/math_10k.json \
    --model_name_or_path unstructured_sparsity_models/shears-llama-7b-50-base \
    --do_train \
    --do_test \
    --per_device_train_batch_size 4 \
    --gradient_accumulation_steps 4 \
    --num_train_epochs 3 \
    --learning_rate 3e-4 \
    --warmup_steps 100 \
    --optim adamw_torch \
    --fp16 \
    --output_dir trained_super_adapter/shears-llama-7b-50-math-super \
    --logging_steps 20 \
    --save_strategy epoch \
    --save_total_limit 2 \
    --lora \
    --lora_r 32 \
    --lora_alpha 64 \
    --lora_dropout 0.1 \
    --target_modules q_proj,k_proj,v_proj,up_proj,down_proj \
    --nncf_config nncf_config/nncf_shears_llama.json

# LLaMA-13B (sparsity: 40%)

CUDA_VISIBLE_DEVICES=$DEVICES python wanda/main.py \
    --model yahma/llama-13b-hf \
    --prune_method wanda \
    --sparsity_ratio 0.4 \
    --sparsity_type unstructured \
    --save wanda_out \
    --save_model unstructured_sparsity_models/shears-llama-13b-40-base

CUDA_VISIBLE_DEVICES=$DEVICES python run_math.py \
    --dataset_path datasets/math_10k.json \
    --model_name_or_path unstructured_sparsity_models/shears-llama-13b-40-base \
    --do_train \
    --do_test \
    --per_device_train_batch_size 4 \
    --gradient_accumulation_steps 4 \
    --num_train_epochs 3 \
    --learning_rate 3e-4 \
    --warmup_steps 100 \
    --optim adamw_torch \
    --fp16 \
    --output_dir trained_super_adapter/shears-llama-13b-40-math-super \
    --logging_steps 20 \
    --save_strategy epoch \
    --save_total_limit 2 \
    --lora \
    --lora_r 32 \
    --lora_alpha 64 \
    --lora_dropout 0.1 \
    --target_modules q_proj,k_proj,v_proj,up_proj,down_proj \
    --nncf_config nncf_config/nncf_shears_llama.json

# LLaMA-13B (sparsity: 50%)

CUDA_VISIBLE_DEVICES=$DEVICES python wanda/main.py \
    --model yahma/llama-13b-hf \
    --prune_method wanda \
    --sparsity_ratio 0.5 \
    --sparsity_type unstructured \
    --save wanda_out \
    --save_model unstructured_sparsity_models/shears-llama-13b-50-base

CUDA_VISIBLE_DEVICES=$DEVICES python run_math.py \
    --dataset_path datasets/math_10k.json \
    --model_name_or_path unstructured_sparsity_models/shears-llama-13b-50-base \
    --do_train \
    --do_test \
    --per_device_train_batch_size 4 \
    --gradient_accumulation_steps 4 \
    --num_train_epochs 3 \
    --learning_rate 3e-4 \
    --warmup_steps 100 \
    --optim adamw_torch \
    --fp16 \
    --output_dir trained_super_adapter/shears-llama-13b-50-math-super \
    --logging_steps 20 \
    --save_strategy epoch \
    --save_total_limit 2 \
    --lora \
    --lora_r 32 \
    --lora_alpha 64 \
    --lora_dropout 0.1 \
    --target_modules q_proj,k_proj,v_proj,up_proj,down_proj \
    --nncf_config nncf_config/nncf_shears_llama.json


# LLaMA with the Unified Commonsense Reasoning Dataset

# LLaMA-7B (sparsity: 40%)

CUDA_VISIBLE_DEVICES=$DEVICES python run_commonsense.py \
    --dataset_path datasets/commonsense_170k.json \
    --model_name_or_path unstructured_sparsity_models/shears-llama-7b-40-base \
    --do_train \
    --do_test \
    --per_device_train_batch_size 4 \
    --gradient_accumulation_steps 4 \
    --num_train_epochs 3 \
    --learning_rate 3e-4 \
    --warmup_steps 100 \
    --optim adamw_torch \
    --fp16 \
    --output_dir trained_super_adapter/shears-llama-7b-40-cs-super \
    --logging_steps 20 \
    --save_strategy epoch \
    --save_total_limit 2 \
    --lora \
    --lora_r 32 \
    --lora_alpha 64 \
    --lora_dropout 0.1 \
    --target_modules q_proj,k_proj,v_proj,up_proj,gate_proj,down_proj \
    --nncf_config nncf_config/nncf_shears_llama.json

# LLaMA-7B (sparsity: 50%)

CUDA_VISIBLE_DEVICES=$DEVICES python run_commonsense.py \
    --dataset_path datasets/commonsense_170k.json \
    --model_name_or_path unstructured_sparsity_models/shears-llama-7b-50-base \
    --do_train \
    --do_test \
    --per_device_train_batch_size 4 \
    --gradient_accumulation_steps 4 \
    --num_train_epochs 5 \
    --learning_rate 3e-4 \
    --warmup_steps 100 \
    --optim adamw_torch \
    --fp16 \
    --output_dir trained_super_adapter/shears-llama-7b-50-cs-super \
    --logging_steps 20 \
    --save_strategy epoch \
    --save_total_limit 2 \
    --lora \
    --lora_r 32 \
    --lora_alpha 64 \
    --lora_dropout 0.1 \
    --target_modules q_proj,k_proj,v_proj,up_proj,down_proj \
    --nncf_config nncf_config/nncf_shears_llama.json


# MPT with GSM8K

# MPT Model preprocessing:
git clone https://huggingface.co/mosaicml/mpt-7b.git && cd mpt-7b
git checkout ada218f && pip install -r requirements.txt
git apply --ignore-space-change --ignore-whitespace ../mpt_process/mpt-7b-modifications-for-shears-usage.patch && cd ..
python mpt_process/split_qkv_preprocess.py --base_model_name_or_path mpt-7b  # Wqkv -> q_proj, k_proj, v_proj
# Wanda for MPT
mv mpt_process/wanda/main_mpt.py wanda && mv mpt_process/wanda/prune_mpt.py wanda/lib

# MPT-7B (sparsity: 40%)

CUDA_VISIBLE_DEVICES=$DEVICES python wanda/main_mpt.py \
    --model mpt-7b \
    --prune_method wanda \
    --sparsity_ratio 0.4 \
    --sparsity_type unstructured \
    --save wanda_out \
    --save_model unstructured_sparsity_models/shears-mpt-7b-40-base

CUDA_VISIBLE_DEVICES=$DEVICES python run_gsm8k.py \
    --dataset_path None \
    --model_name_or_path unstructured_sparsity_models/shears-mpt-7b-40-base \
    --do_train \
    --do_test \
    --per_device_train_batch_size 8 \
    --gradient_accumulation_steps 2 \
    --num_train_epochs 4 \
    --learning_rate 5e-4 \
    --warmup_steps 100 \
    --optim adamw_torch \
    --fp16 \
    --output_dir trained_super_adapter/shears-mpt-7b-40-gsm8k-super-adapter \
    --logging_steps 20 \
    --save_strategy epoch \
    --save_total_limit 2 \
    --lora \
    --lora_r 32 \
    --lora_alpha 64 \
    --lora_dropout 0.1 \
    --target_modules q_proj,k_proj,v_proj,out_proj,up_proj,down_proj \
    --nncf_config nncf_config/nncf_shears_mpt.json

# MPT-7B (sparsity: 50%)

CUDA_VISIBLE_DEVICES=$DEVICES python wanda/main_mpt.py \
    --model mpt-7b \
    --prune_method wanda \
    --sparsity_ratio 0.5 \
    --sparsity_type unstructured \
    --save wanda_out \
    --save_model unstructured_sparsity_models/shears-mpt-7b-50-base

CUDA_VISIBLE_DEVICES=$DEVICES python run_gsm8k.py \
    --dataset_path None \
    --model_name_or_path unstructured_sparsity_models/shears-mpt-7b-50-base \
    --do_train \
    --do_test \
    --per_device_train_batch_size 8 \
    --gradient_accumulation_steps 2 \
    --num_train_epochs 5 \
    --learning_rate 3e-4 \
    --warmup_steps 100 \
    --optim adamw_torch \
    --fp16 \
    --output_dir trained_super_adapter/shears-mpt-7b-50-gsm8k-super-adapter \
    --logging_steps 20 \
    --save_strategy epoch \
    --save_total_limit 2 \
    --lora \
    --lora_r 32 \
    --lora_alpha 64 \
    --lora_dropout 0.1 \
    --target_modules q_proj,k_proj,v_proj,out_proj,up_proj,down_proj \
    --nncf_config nncf_config/nncf_shears_mpt.json

# MPT-7B (sparsity: 60%)

CUDA_VISIBLE_DEVICES=$DEVICES python wanda/main_mpt.py \
    --model mpt-7b \
    --prune_method wanda \
    --sparsity_ratio 0.6 \
    --sparsity_type unstructured \
    --save wanda_out \
    --save_model unstructured_sparsity_models/shears-mpt-7b-60-base

CUDA_VISIBLE_DEVICES=$DEVICES python run_gsm8k.py \
    --dataset_path None \
    --model_name_or_path unstructured_sparsity_models/shears-mpt-7b-60-base \
    --do_train \
    --do_test \
    --per_device_train_batch_size 8 \
    --gradient_accumulation_steps 2 \
    --num_train_epochs 5 \
    --learning_rate 3e-4 \
    --warmup_steps 100 \
    --optim adamw_torch \
    --fp16 \
    --output_dir trained_super_adapter/shears-mpt-7b-60-gsm8k-super-adapter \
    --logging_steps 20 \
    --save_strategy epoch \
    --save_total_limit 2 \
    --lora \
    --lora_r 32 \
    --lora_alpha 64 \
    --lora_dropout 0.1 \
    --target_modules q_proj,k_proj,v_proj,out_proj,up_proj,down_proj \
    --nncf_config nncf_config/nncf_shears_mpt.json