cuplv
diff --git a/‎.gitignore
+1 b/‎.gitignore
+1
diff --git a/‎eval/evaluation.py
+2-1 b/‎eval/evaluation.py
+2-1
diff --git a/‎eval/gen_predictions_chatgpt.ipynb
+140 b/‎eval/gen_predictions_chatgpt.ipynb
+140
diff --git a/‎eval/gen_predictions_hf_spaces.ipynb
+4-4 b/‎eval/gen_predictions_hf_spaces.ipynb
+4-4
diff --git a/‎eval/gen_predictions_hf_spaces2.ipynb
-104 b/‎eval/gen_predictions_hf_spaces2.ipynb
-104
@@ -3,4 +3,5 @@
 .sqlite
 eval/data/database
 .DS_Store
+.env
 models/*
@@ -616,7 +616,8 @@ def evaluate(gold, predict, db_dir, etype, kmaps, plug_value, keep_distinct, pro
                     turn_scores['exec'].append(1)
                 else:
                     turn_scores['exec'].append(0)
-                    incorrect_log_file.write(f"exec_score: {exec_score}\n")
+                    incorrect_log_file.write(f"index: {len(turn_scores['exec'])}\n")
+                    incorrect_log_file.write(f"db_id: {db_name}\n")  # write to the log file
                     incorrect_log_file.write("{} pred: {}\n".format(hardness, p_str))  # write to the log file
                     incorrect_log_file.write("{} gold: {}\n\n".format(hardness, g_str))  # write to the log file
 
 
@@ -0,0 +1,140 @@
+{
+ "cells": [
+  {
+   "attachments": {},
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "### Eval on Spider"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 3,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "Found cached dataset json (/Users/richardroberson/.cache/huggingface/datasets/richardr1126___json/richardr1126--spider-context-validation-166f6f4d7e17c532/0.0.0/8bb11242116d547c741b2e8a1f18598ffdd40a1d4f2a2872c7a28b697434bc96)\n"
+     ]
+    },
+    {
+     "data": {
+      "application/vnd.jupyter.widget-view+json": {
+       "model_id": "f6540791f36b442d8dbfe5d0c77f02f2",
+       "version_major": 2,
+       "version_minor": 0
+      },
+      "text/plain": [
+       "Generating responses:   0%|          | 0/418 [00:00<?, ?it/s]"
+      ]
+     },
+     "metadata": {},
+     "output_type": "display_data"
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Error occurred: The server is overloaded or not ready yet.\n",
+      "Waiting for 5 seconds before retrying...\n",
+      "Error occurred: The server is overloaded or not ready yet.\n",
+      "Waiting for 5 seconds before retrying...\n",
+      "Error occurred: The server is overloaded or not ready yet.\n",
+      "Waiting for 5 seconds before retrying...\n",
+      "Error occurred: The server is overloaded or not ready yet.\n",
+      "Waiting for 5 seconds before retrying...\n",
+      "Error occurred: The server is overloaded or not ready yet.\n",
+      "Waiting for 5 seconds before retrying...\n",
+      "Error occurred: The server is overloaded or not ready yet.\n",
+      "Waiting for 5 seconds before retrying...\n",
+      "Error occurred: The server is overloaded or not ready yet.\n",
+      "Waiting for 5 seconds before retrying...\n",
+      "Error occurred: The server is overloaded or not ready yet.\n",
+      "Waiting for 5 seconds before retrying...\n",
+      "Error occurred: The server is overloaded or not ready yet.\n",
+      "Waiting for 5 seconds before retrying...\n",
+      "Error occurred: The server is overloaded or not ready yet.\n",
+      "Waiting for 5 seconds before retrying...\n",
+      "Error occurred: The server is overloaded or not ready yet.\n",
+      "Waiting for 5 seconds before retrying...\n"
+     ]
+    }
+   ],
+   "source": [
+    "import openai\n",
+    "import time\n",
+    "from datasets import load_dataset\n",
+    "from tqdm.notebook import tqdm\n",
+    "import os\n",
+    "from dotenv import load_dotenv\n",
+    "\n",
+    "# Load environment variables from .env file\n",
+    "load_dotenv()\n",
+    "\n",
+    "openai.api_key = os.getenv('OPENAI_API_KEY')\n",
+    "\n",
+    "dataset = load_dataset(\"richardr1126/spider-context-validation\", split=\"validation\")\n",
+    "last_line_written = 0\n",
+    "\n",
+    "for i in tqdm(range(last_line_written, len(dataset)), total=len(dataset)-last_line_written, desc=\"Generating responses\"):\n",
+    "    example = dataset[i]\n",
+    "    prompt = example[\"prompt\"]\n",
+    "    \n",
+    "    while True:\n",
+    "        try:\n",
+    "            response = openai.ChatCompletion.create(\n",
+    "                model=\"gpt-3.5-turbo\",  # or other models available\n",
+    "                messages=[\n",
+    "                    {\n",
+    "                        \"role\": \"system\",\n",
+    "                        \"content\": \"You are a sophisticated AI assistant capable of converting natural language queries into SQL queries. You'll be given database schema information with tables and columns, followed by a natural language question from the user. Your task is to generate the equivalent SQL query to answer the user's question. Only generate the SQL query, do not add anything other text.\"\n",
+    "                    },\n",
+    "                    {\"role\": \"user\", \"content\": prompt}\n",
+    "                ],\n",
+    "            )\n",
+    "            \n",
+    "            response_text = response['choices'][0]['message']['content'].strip().replace(\"\\n\", \" \").replace(\"\\t\", \" \")\n",
+    "            if response_text[-1] == \".\":\n",
+    "                response_text = response_text[:-1]\n",
+    "                \n",
+    "            with open('predictions/chatgpt.txt', 'a') as f:\n",
+    "                f.write(response_text + \"\\n\")\n",
+    "            \n",
+    "            # If we get to this line, it means the operation was successful and we break the while loop\n",
+    "            break\n",
+    "            \n",
+    "        except Exception as e:\n",
+    "            print(f'Error occurred: {str(e)}')\n",
+    "            #traceback.print_exc()\n",
+    "            print('Waiting for 5 seconds before retrying...')\n",
+    "            time.sleep(10)  # Wait for 60 seconds before trying again\n",
+    "\n"
+   ]
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "llama",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.11.4"
+  },
+  "orig_nbformat": 4
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}
@@ -10,7 +10,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 1,
+   "execution_count": 2,
    "metadata": {},
    "outputs": [
     {
@@ -30,12 +30,12 @@
     {
      "data": {
       "application/vnd.jupyter.widget-view+json": {
-       "model_id": "7c01e3c8d04d495fae30a81b3fb11f52",
+       "model_id": "29726280a79640efaadadb9123b51436",
        "version_major": 2,
        "version_minor": 0
       },
       "text/plain": [
-       "Generating responses:   0%|          | 0/631 [00:00<?, ?it/s]"
+       "Generating responses:   0%|          | 0/87 [00:00<?, ?it/s]"
       ]
      },
      "metadata": {},
@@ -51,7 +51,7 @@
     "client = Client(\"https://richardr1126-sql-skeleton-wizardcoder-demo.hf.space/\")\n",
     "\n",
     "dataset = load_dataset(\"richardr1126/spider-context-validation\", split=\"validation\")\n",
-    "last_line_written = 403\n",
+    "last_line_written = 0\n",
     "\n",
     "\n",
     "for i in tqdm(range(last_line_written, len(dataset)), total=len(dataset)-last_line_written, desc=\"Generating responses\"):\n",