PaddlePaddle
diff --git a/‎application/neural_search/recall/domain_adaptive_pretraining/data_tools/process_data.py‎
Lines changed: 0 additions & 30 deletions b/‎application/neural_search/recall/domain_adaptive_pretraining/data_tools/process_data.py‎
Lines changed: 0 additions & 30 deletions
diff --git a/‎application/neural_search/README.md‎ renamed to ‎applications/neural_search/README.md‎
Lines changed: 14 additions & 14 deletions b/‎application/neural_search/README.md‎ renamed to ‎applications/neural_search/README.md‎
Lines changed: 14 additions & 14 deletions
diff --git a/‎application/neural_search/img/mem.png‎ renamed to ‎applications/neural_search/img/mem.png‎ b/‎application/neural_search/img/mem.png‎ renamed to ‎applications/neural_search/img/mem.png‎
diff --git a/‎application/neural_search/img/system_pipeline.png‎ renamed to ‎applications/neural_search/img/system_pipeline.png‎ b/‎application/neural_search/img/system_pipeline.png‎ renamed to ‎applications/neural_search/img/system_pipeline.png‎
diff --git a/‎application/neural_search/ranking/ernie_matching/README.md‎ renamed to ‎applications/neural_search/ranking/ernie_matching/README.md‎
Lines changed: 4 additions & 4 deletions b/‎application/neural_search/ranking/ernie_matching/README.md‎ renamed to ‎applications/neural_search/ranking/ernie_matching/README.md‎
Lines changed: 4 additions & 4 deletions
diff --git a/‎application/neural_search/ranking/ernie_matching/data.py‎ renamed to ‎applications/neural_search/ranking/ernie_matching/data.py‎ b/‎application/neural_search/ranking/ernie_matching/data.py‎ renamed to ‎applications/neural_search/ranking/ernie_matching/data.py‎
diff --git a/‎application/neural_search/ranking/ernie_matching/deploy/python/deploy.sh‎ renamed to ‎applications/neural_search/ranking/ernie_matching/deploy/python/deploy.sh‎ b/‎application/neural_search/ranking/ernie_matching/deploy/python/deploy.sh‎ renamed to ‎applications/neural_search/ranking/ernie_matching/deploy/python/deploy.sh‎
diff --git a/‎application/neural_search/ranking/ernie_matching/deploy/python/predict.py‎ renamed to ‎applications/neural_search/ranking/ernie_matching/deploy/python/predict.py‎
Lines changed: 4 additions & 2 deletions b/‎application/neural_search/ranking/ernie_matching/deploy/python/predict.py‎ renamed to ‎applications/neural_search/ranking/ernie_matching/deploy/python/predict.py‎
Lines changed: 4 additions & 2 deletions
diff --git a/‎application/neural_search/ranking/ernie_matching/evaluate.py‎ renamed to ‎applications/neural_search/ranking/ernie_matching/evaluate.py‎
Lines changed: 14 additions & 17 deletions b/‎application/neural_search/ranking/ernie_matching/evaluate.py‎ renamed to ‎applications/neural_search/ranking/ernie_matching/evaluate.py‎
Lines changed: 14 additions & 17 deletions
diff --git a/‎application/neural_search/ranking/ernie_matching/export_model.py‎ renamed to ‎applications/neural_search/ranking/ernie_matching/export_model.py‎ b/‎application/neural_search/ranking/ernie_matching/export_model.py‎ renamed to ‎applications/neural_search/ranking/ernie_matching/export_model.py‎
@@ -1,12 +1,12 @@
-# 手把手搭建一个语义检索系统 
+# 手把手搭建一个语义检索系统
 
 ## 1. 场景概述
 
 检索系统存在于我们日常使用的很多产品中，比如商品搜索系统、学术文献检索系等等，本方案提供了检索系统完整实现。限定场景是用户通过输入检索词 Query，快速在海量数据中查找相似文档。
 
 所谓语义检索（也称基于向量的检索），是指检索系统不再拘泥于用户 Query 字面本身，而是能精准捕捉到用户 Query 后面的真正意图并以此来搜索，从而更准确地向用户返回最符合的结果。通过使用最先进的语义索引模型找到文本的向量表示，在高维向量空间中对它们进行索引，并度量查询向量与索引文档的相似程度，从而解决了关键词索引带来的缺陷。
 
-例如下面两组文本 Pair，如果基于关键词去计算相似度，两组的相似度是相同的。而从实际语义上看，第一组相似度高于第二组。    
+例如下面两组文本 Pair，如果基于关键词去计算相似度，两组的相似度是相同的。而从实际语义上看，第一组相似度高于第二组。  
 
 ```
 车头如何放置车牌    前牌照怎么装
@@ -20,7 +20,7 @@
 通常检索业务的数据都比较庞大，都会分为召回（索引）、排序两个环节。召回阶段主要是从至少千万级别的候选集合里面，筛选出相关的文档，这样候选集合的数目就会大大降低，在之后的排序阶段就可以使用一些复杂的模型做精细化或者个性化的排序。一般采用多路召回策略（例如关键词召回、热点召回、语义召回结合等），多路召回结果聚合后，经过统一的打分以后选出最优的 TopK 的结果。
 
 ### 2.1 系统特色
-    
+
 + 低门槛
     + 手把手搭建起检索系统
     + 无需标注数据也能构建检索系统
@@ -31,7 +31,7 @@
         + 仅有无监督数据: SimCSE
         + 仅有有监督数据: InBatchNegative
         + 兼具无监督数据 和 有监督数据：融合模型
-    + 进一步优化方案: 面向领域的预训练 Domain-adaptive Pretraining 
+    + 进一步优化方案: 面向领域的预训练 Domain-adaptive Pretraining
 + 性能快
     + 基于 Paddle Inference 快速抽取向量
     + 基于 Milvus 快速查询和高性能建库
@@ -55,8 +55,8 @@
 我们针对不同的数据情况推出三种语义索引方案，如下图所示，您可以参照此方案，快速建立语义索引：
 
 |  ⭐️ 无监督数据 |  ⭐️ 有监督数据 | **召回方案** |
-| ------------ | ------------ | ------------ | 
-|  多 |  无 | SimCSE | 
+| ------------ | ------------ | ------------ |
+|  多 |  无 | SimCSE |
 |  无 |  多 | In-batch Negatives|
 |  有 | 有  | SimCSE+ In-batch Negatives |
 
@@ -84,7 +84,7 @@
 
 #### 3.1.2 评估指标
 
-**模型效果指标**   
+**模型效果指标**  
 * 在语义索引召回阶段使用的指标是 Recall@K，表示的是预测的前topK（从最后的按得分排序的召回列表中返回前K个结果）结果和语料库中真实的前 K 个相关结果的重叠率，衡量的是检索系统的查全率。
 
 * 在排序阶段使用的指标为AUC，AUC反映的是分类器对样本的排序能力，如果完全随机得对样本分类，那么AUC应该接近0.5。分类器越可能把真正的正样本排在前面，AUC越大，分类性能越好。
@@ -121,7 +121,7 @@
 ├── milvus # milvus建库数据集
     ├── milvus_data.csv.  # 构建召回库的数据（模拟实际业务线上的语料库，实际语料库远大于这里的规模），用于直观演示相关文献召回效果
 ├── recall  # 召回阶段数据集
-    ├── train_unsupervised.csv # 无监督训练集，用于训练 SimCSE 
+    ├── train_unsupervised.csv # 无监督训练集，用于训练 SimCSE
     ├── train.csv  # 有监督训练集，用于训练 In-batch Negative
     ├── dev.csv  # 召回阶段验证集，用于评估召回模型的效果，SimCSE 和 In-batch Negative 共用
     ├── corpus.csv # 构建召回库的数据（模拟实际业务线上的语料库，实际语料库远大于这里的规模），用于评估召回阶段模型效果，SimCSE 和 In-batch Negative 共用
@@ -143,10 +143,10 @@ a. 软件环境：
 
 
 - python >= 3.6
-- paddlenlp >= 2.2.1        
+- paddlenlp >= 2.2.1  
 - paddlepaddle-gpu >=2.2
 - CUDA Version: 10.2
-- NVIDIA Driver Version: 440.64.00 
+- NVIDIA Driver Version: 440.64.00
 - Ubuntu 16.04.6 LTS (Docker)
 
 
@@ -179,7 +179,7 @@ pip install -r requirements.txt
 
 第二步：无监督训练 SimCSE
 
-训练用时 16hour53min，可参考：[SimCSE](./recall/simcse/)   
+训练用时 16hour53min，可参考：[SimCSE](./recall/simcse/)  
 
 第三步：有监督训练
 
@@ -201,7 +201,7 @@ pip install -r requirements.txt
 
 **召回系统搭建**
 
-召回系统使用索引引擎 Milvus，可参考 [milvus_system](./recall/milvus/)。   
+召回系统使用索引引擎 Milvus，可参考 [milvus_system](./recall/milvus/)。  
 我们展示一下系统的效果，输入的文本如下：
 
 ```
@@ -243,8 +243,8 @@ pip install -r requirements.txt
 
 |  模型 |  AUC |
 | ------------ | ------------ |
-|  Baseline: In-batch Negatives |  0.582 | 
-|  ERNIE-Gram |  0.801 | 
+|  Baseline: In-batch Negatives |  0.582 |
+|  ERNIE-Gram |  0.801 |
 
 同样输入文本：
 
 
@@ -21,7 +21,7 @@
 
 <a name="ERNIE-Gram"></a>
 
-# ERNIE-Gram 
+# ERNIE-Gram
 
 <a name="技术方案"></a>
 
@@ -40,7 +40,7 @@
 
 |  模型 |  AUC |
 | ------------ | ------------ |
-|  ERNIE-Gram |  0.801 | 
+|  ERNIE-Gram |  0.801 |
 
 <a name="环境依赖"></a>
 
@@ -113,7 +113,7 @@ ernie_matching/
     ├── test_pairwise.csv   # 排序测试集
     ├── dev_pairwise.csv    # 排序验证集
     └── train_pairwise.csv  # 排序训练集
-    
+
 ```
 
 <a name="模型训练"></a>
@@ -131,7 +131,7 @@ ernie_matching/
 ### 训练环境说明
 
 
-- NVIDIA Driver Version: 440.64.00 
+- NVIDIA Driver Version: 440.64.00
 - Ubuntu 16.04.6 LTS (Docker)
 - Intel(R) Xeon(R) Gold 6148 CPU @ 2.40GHz
 
 
@@ -60,6 +60,7 @@
 args = parser.parse_args()
 # yapf: enable
 
+
 def read_text_pair(data_path):
     """Reads data."""
     with open(data_path, 'r', encoding='utf-8') as f:
@@ -212,6 +213,7 @@ def predict(self, data, tokenizer):
 
         return sim_score
 
+
 if __name__ == "__main__":
     # Define predictor to do prediction.
     predictor = Predictor(args.model_dir, args.device, args.max_seq_length,
@@ -222,9 +224,9 @@ def predict(self, data, tokenizer):
         'ernie-gram-zh')
 
     # test_ds = load_dataset("lcqmc", splits=["test"])
-    input_file='sort/test_pairwise.csv'
+    input_file = 'sort/test_pairwise.csv'
 
-    test_ds = load_dataset(read_text_pair,data_path=input_file, lazy=False)
+    test_ds = load_dataset(read_text_pair, data_path=input_file, lazy=False)
 
     data = [{'query': d['query'], 'title': d['title']} for d in test_ds]
 
 
@@ -31,7 +31,7 @@
 from data import convert_pairwise_example as convert_example
 from model import PairwiseMatching
 import pandas as pd
-from tqdm import tqdm 
+from tqdm import tqdm
 
 # yapf: disable
 parser = argparse.ArgumentParser()
@@ -89,22 +89,24 @@ def evaluate(model, metric, data_loader, phase="dev"):
     metric.reset()
     model.train()
 
+
 # 构建读取函数，读取原始数据
 def read(src_path, is_predict=False):
-    data=pd.read_csv(src_path,sep='\t')
+    data = pd.read_csv(src_path, sep='\t')
     for index, row in tqdm(data.iterrows()):
-        query=row['query']
-        title=row['title']
-        neg_title=row['neg_title']
-        yield {'query':query, 'title':title,'neg_title':neg_title}
+        query = row['query']
+        title = row['title']
+        neg_title = row['neg_title']
+        yield {'query': query, 'title': title, 'neg_title': neg_title}
+
 
 def read_test(src_path, is_predict=False):
-    data=pd.read_csv(src_path,sep='\t')
+    data = pd.read_csv(src_path, sep='\t')
     for index, row in tqdm(data.iterrows()):
-        query=row['query']
-        title=row['title']
-        label=row['label']
-        yield {'query':query, 'title':title,'label':label}
+        query = row['query']
+        title = row['title']
+        label = row['label']
+        yield {'query': query, 'title': title, 'label': label}
 
 
 def do_train():
@@ -115,30 +117,26 @@ def do_train():
 
     set_seed(args.seed)
 
-
-    dev_ds=load_dataset(read_test,src_path=args.test_file,lazy=False)
+    dev_ds = load_dataset(read_test, src_path=args.test_file, lazy=False)
     print(dev_ds[0])
 
     pretrained_model = ppnlp.transformers.ErnieGramModel.from_pretrained(
         'ernie-gram-zh')
     tokenizer = ppnlp.transformers.ErnieGramTokenizer.from_pretrained(
         'ernie-gram-zh')
 
-
     trans_func_eval = partial(
         convert_example,
         tokenizer=tokenizer,
         max_seq_length=args.max_seq_length,
         phase="eval")
 
-
     batchify_fn_eval = lambda samples, fn=Tuple(
         Pad(axis=0, pad_val=tokenizer.pad_token_id),  # pair_input
         Pad(axis=0, pad_val=tokenizer.pad_token_type_id),  # pair_segment
         Stack(dtype="int64")  # label
     ): [data for data in fn(samples)]
 
-
     dev_data_loader = create_dataloader(
         dev_ds,
         mode='dev',
@@ -155,7 +153,6 @@ def do_train():
     metric = paddle.metric.Auc()
     evaluate(model, metric, dev_data_loader, "dev")
 
-    
 
 if __name__ == "__main__":
     do_train()