adding example 8

saransh-mehta · saransh-mehta · commit f746223ffda1 · 2020-06-13T19:09:11.000Z
diff --git a/examples/sentiment_analysis/IMDb_sentiment_analysis.ipynb b/examples/sentiment_analysis/IMDb_sentiment_analysis.ipynb
@@ -0,0 +1,186 @@
+{
+ "cells": [
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "# EXAMPLE - 8\n",
+    "\n",
+    "**Tasks :- Sentiment analysis**\n",
+    "\n",
+    "**Tasks Description**\n",
+    "\n",
+    "``sentiment`` :- This is modeled as single sentence classification task to determine where a piece of text conveys a positive or negative sentiment.\n",
+    "\n",
+    "**Conversational Utility** :- To determine whether a review is positive or negative.\n",
+    "\n",
+    "**Data** :- In this example, we are using the <a href=\"https://www.kaggle.com/lakshmi25npathi/imdb-dataset-of-50k-movie-reviews/data\">IMDB</a> data which can be downloaded after accepting the terms and saved under `imdb_data` directory. The data is having total 50k samples labeled as positive or negative.\n"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "!unzip imdb_data/134715_320111_bundle_archive.zip -d imdb_data/imdb_dataset.csv"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "!mv imdb_data/IMDB\\ Dataset.csv imdb_data/imdb_sentiment_data.csv"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "# Step - 1: Transforming data\n",
+    "The data file `imdb_dataset` is having 50k samples with two columns - review and sentiment. Sentiment is the label which can be positive or negative.\n",
+    "We already provide a sample transformation function ``imdb_sentiment_data_to_tsv`` to convert this data to required tsv format.\n",
+    "Running data transformations will save the required train and test tsv data files under ``data`` directory in root of library. For more details on the data transformation process, refer to <a href=\"https://multi-task-nlp.readthedocs.io/en/latest/data_transformations.html\">data transformations</a> in documentation.\n",
+    "\n",
+    "The transformation file should have the following details which is already created ``transform_file_imdb.yml``.\n",
+    "\n",
+    "```\n",
+    "transform1:\n",
+    "  transform_func: imdb_sentiment_data_to_tsv\n",
+    "  read_file_names:\n",
+    "  - imdb_sentiment_data.csv\n",
+    "  read_dir: imdb_data\n",
+    "  save_dir: ../../data\n",
+    "```"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "!python ../../data_transformations.py \\\n",
+    "    --transform_file 'transform_file_imdb.yml'"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "# Step -2 Data Preparation\n",
+    "\n",
+    "For more details on the data preparation process, refer to <a href=\"https://multi-task-nlp.readthedocs.io/en/latest/training.html#running-data-preparation\">data preparation</a> in documentation.\n",
+    "\n",
+    "Defining tasks file for training single model for sentiment task. The file is already created at ``tasks_file_imdb.yml``\n",
+    "\n",
+    "```\n",
+    "sentiment:\n",
+    "    model_type: BERT\n",
+    "    config_name: bert-base-uncased\n",
+    "    dropout_prob: 0.2\n",
+    "    label_map_or_file:\n",
+    "    - negative\n",
+    "    - positive\n",
+    "    class_num: 2\n",
+    "    metrics:\n",
+    "    - classification_accuracy\n",
+    "    loss_type: CrossEntropyLoss\n",
+    "    task_type: SingleSenClassification\n",
+    "    file_names:\n",
+    "    - imdb_sentiment_train.tsv\n",
+    "    - imdb_sentiment_test.tsv\n",
+    "```"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "!python ../../data_preparation.py \\\n",
+    "    --task_file 'tasks_file_imdb.yml' \\\n",
+    "    --data_dir '../../data' \\\n",
+    "    --max_seq_len 200"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "# Step - 3 Running train\n",
+    "\n",
+    "Following command will start the training for the tasks. The log file reporting the loss, metrics and the tensorboard logs will be present in a time-stamped directory.\n",
+    "\n",
+    "For knowing more details about the train process, refer to <a href= \"https://multi-task-nlp.readthedocs.io/en/latest/training.html#running-train\">running training</a> in documentation."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "!python ../../train.py \\\n",
+    "    --data_dir '../../data/bert-base-uncased_prepared_data' \\\n",
+    "    --task_file 'tasks_file_imdb.yml' \\\n",
+    "    --out_dir 'imdb_sentiment_bert_base' \\\n",
+    "    --epochs 8 \\\n",
+    "    --train_batch_size 32 \\\n",
+    "    --eval_batch_size 32 \\\n",
+    "    --max_seq_len 200 \\\n",
+    "    --grad_accumulation_steps 1 \\\n",
+    "    --log_per_updates 50 \\\n",
+    "    --eval_while_train  \\\n",
+    "    --silent"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "# Step - 4 Infering\n",
+    "\n",
+    "You can import and use the ``inferPipeline`` to get predictions for the required tasks.\n",
+    "The trained model and maximum sequence length to be used needs to be specified.\n",
+    "\n",
+    "For knowing more details about infering, refer to <a href=\"https://multi-task-nlp.readthedocs.io/en/latest/infering.html\">infer pipeline</a> in documentation."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import sys\n",
+    "sys.path.insert(1, '../../')\n",
+    "from infer_pipeline import inferPipeline"
+   ]
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "Python 3",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.7.3"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 4
+}
diff --git a/examples/sentiment_analysis/tasks_file_imdb.yml b/examples/sentiment_analysis/tasks_file_imdb.yml
@@ -0,0 +1,15 @@
+sentiment:
+    model_type: BERT
+    config_name: bert-base-uncased
+    dropout_prob: 0.2
+    label_map_or_file:
+    - negative
+    - positive
+    class_num: 2
+    metrics:
+    - classification_accuracy
+    loss_type: CrossEntropyLoss
+    task_type: SingleSenClassification
+    file_names:
+    - imdb_sentiment_train.tsv
+    - imdb_sentiment_test.tsv
diff --git a/examples/sentiment_analysis/transform_file_imdb.yml b/examples/sentiment_analysis/transform_file_imdb.yml
@@ -0,0 +1,6 @@
+transform1:
+  transform_func: imdb_sentiment_data_to_tsv
+  read_file_names:
+  - imdb_sentiment_data.csv
+  read_dir: imdb_data
+  save_dir: ../../data
diff --git a/utils/tranform_functions.py b/utils/tranform_functions.py
@@ -454,14 +454,13 @@ def msmarco_query_type_to_tsv(dataDir, readFile, wrtDir, transParamDict, isTrain
 def imdb_sentiment_data_to_tsv(dataDir, readFile, wrtDir, transParamDict, isTrainFile=False):
     
     """
-    This function transforms the IMDb moview review data available at `IMDb <http://ai.stanford.edu/~amaas/data/sentiment/aclImdb_v1.tar.gz>`_ 
+    This function transforms the IMDb moview review data available at `IMDb <https://www.kaggle.com/lakshmi25npathi/imdb-dataset-of-50k-movie-reviews/data>`_ after accepting the terms.
     
-    For sentiment analysis task, postive sentiment has label -> 1 and negative -> 0.
-    First 25k samples are positive and next 25k samples are negative as combined by the script
-    ``combine_imdb_data.sh``. Following transformed files are written at wrtDir
+    The data is having total 50k samples labeled as `positive` or `negative`. The reviews have some html tags which are cleaned
+    by this function. Following transformed files are written at wrtDir
+
 
     - IMDb train transformed tsv file for sentiment analysis task
-    - IMDb dev transformed tsv file for sentiment analysis task
     - IMDb test transformed tsv file for sentiment analysis task
     
     For using this transform function, set ``transform_func`` : **imdb_sentiment_data_to_tsv** in transform file.
@@ -471,82 +470,36 @@ def imdb_sentiment_data_to_tsv(dataDir, readFile, wrtDir, transParamDict, isTrai
         readFile (:obj:`str`) : This is the file which is currently being read and transformed by the function.
         wrtDir (:obj:`str`) : Path to the directory where to save the transformed tsv files.
         transParamDict (:obj:`dict`, defaults to :obj:`None`): Dictionary of function specific parameters. Not required for this transformation function.
-
-
+        
+            - ``train_frac`` (defaults to 0.05) : Fraction of data to consider for train/test split.
     """
+    transParamDict.setdefault("train_frac", 0.9)
+    print('Making data from file ', readFile)
+    df = pd.read_csv(os.path.join(dataDir, readFile))
     
-    # first 25k samples are positive sentiment,
-    # last 25k samples are negative sentiment
-    transParamDict.setdefault("train_size", 0.8)
+    #cleaning review text
+    tt = re.compile('\t')
+    cleanr = re.compile('<.*?>|&([a-z0-9]+|#[0-9]{1,6}|#x[0-9a-f]{1,6});')
     
-    f = open(os.path.join(dataDir, readFile), 'r')
-    puncsToReplace = re.compile("\t")
-    tagsToReplace = re.compile(r'<[^<>]+>')
+    df['review'] = [re.sub(tt, ' ', review) for review in df['review'] ]
+    df['review'] = [re.sub(cleanr, ' ', review) for review in df['review'] ]
     
-    allIds = []
-    allReviews = []
-    allLabels = []
-    allLens = []
+    df['uid'] = [str(i) for i in range(len(df))]
+    df = df[['uid', 'sentiment', 'review']]
+    # train test 
+    dfTrain, dfTest = train_test_split(df, shuffle=False, test_size=1-float(transParamDict["train_frac"]),
+                                      random_state=SEED)
     
-    print("Making data from file {} ...".format(readFile))
-    for i, line in enumerate(f):
-        if i%5000 == 0:
-            print("Processing {} rows...".format(i))
-        
-        #cleaning review
-        review = line.strip()
-        review = puncsToReplace.sub(" ", review)
-        review = tagsToReplace.sub(" ", review)
-        allLens.append(len(review.split()))
-        allReviews.append(review)
-        
-        #adding label, 1 -> positive, 0 -> negative
-        label = int(i < 25000)
-        allLabels.append(label)
-        
-        #adding into id
-        allIds.append(i)
-        
-    # creating train, dev and test set data
-    reviewsTrain, reviewsTest, labelsTrain, labelsTest, idsTrain, idsTest = train_test_split(allReviews,
-                                                                                            allLabels,
-                                                                                            allIds,
-                                                                                            shuffle=True,
-                                                                                            random_state=SEED,
-                                                                                            test_size= 1-float(transParamDict["train_size"]) )
-    
-    reviewsDev, reviewsTest, labelsDev, labelsTest, idsDev, idsTest = train_test_split(reviewsTest,
-                                                                                      labelsTest,
-                                                                                      idsTest,
-                                                                                      shuffle=True,
-                                                                                      random_state=SEED,
-                                                                                      test_size=0.5)
+    print('Number of samples in train: ', len(dfTrain))
+    print('Number of samples in test: ', len(dfTest))
     
     #writing train file
-    trainW = open(os.path.join(wrtDir, 'imdb_train.tsv'), 'w')
-    for uid, label, review in zip(idsTrain, labelsTrain, reviewsTrain):
-        trainW.write("{}\t{}\t{}\n".format(uid, label, review))
-    trainW.close()
-    print("Train File Written at {}".format(os.path.join(wrtDir, 'imdb_train.tsv')))
-    
-    #writing dev file
-    devW = open(os.path.join(wrtDir, 'imdb_dev.tsv'), 'w')
-    for uid, label, review in zip(idsDev, labelsDev, reviewsDev):
-        devW.write("{}\t{}\t{}\n".format(uid, label, review))
-    devW.close()
-    print("Dev File Written at {}".format(os.path.join(wrtDir, 'imdb_dev.tsv')))
+    dfTrain.to_csv(os.path.join(wrtDir, 'imdb_sentiment_train.tsv'), sep='\t',index=False,header=False)
+    print('Train file written at: ', os.path.join(wrtDir, 'imdb_sentiment_train.tsv'))
     
     #writing test file
-    testW = open(os.path.join(wrtDir, 'imdb_test.tsv'), 'w')
-    for uid, label, review in zip(idsTest, labelsTest, reviewsTest):
-        testW.write("{}\t{}\t{}\n".format(uid, label, review))
-    testW.close()
-                       
-    print("Test File Written at {}".format(os.path.join(wrtDir, 'imdb_test.tsv')))
-    
-    print('Max len of sentence: ', max(allLens))
-    print('Mean len of sentences: ', sum(allLens) / len(allLens))
-    print('Median len of sentences: ', median(allLens))
+    dfTest.to_csv(os.path.join(wrtDir, 'imdb_sentiment_test.tsv'), sep='\t',index=False,header=False)
+    print('Test file written at: ', os.path.join(wrtDir, 'imdb_sentiment_test.tsv'))
     
 def qqp_query_similarity_to_tsv(dataDir, readFile, wrtDir, transParamDict, isTrainFile=False):