PaddlePaddle
diff --git a/‎applications/text_classification/hierarchical/retrieval_based/README.md‎
Lines changed: 3 additions & 3 deletions b/‎applications/text_classification/hierarchical/retrieval_based/README.md‎
Lines changed: 3 additions & 3 deletions
diff --git a/‎applications/text_classification/hierarchical/retrieval_based/deploy/python/predict.py‎
Lines changed: 9 additions & 6 deletions b/‎applications/text_classification/hierarchical/retrieval_based/deploy/python/predict.py‎
Lines changed: 9 additions & 6 deletions
diff --git a/‎applications/text_classification/hierarchical/retrieval_based/deploy/python/web_service.py‎
Lines changed: 4 additions & 2 deletions b/‎applications/text_classification/hierarchical/retrieval_based/deploy/python/web_service.py‎
Lines changed: 4 additions & 2 deletions
diff --git a/‎applications/text_classification/hierarchical/retrieval_based/predict.py‎
Lines changed: 8 additions & 4 deletions b/‎applications/text_classification/hierarchical/retrieval_based/predict.py‎
Lines changed: 8 additions & 4 deletions
diff --git a/‎applications/text_classification/hierarchical/retrieval_based/scripts/train.sh‎
Lines changed: 1 addition & 1 deletion b/‎applications/text_classification/hierarchical/retrieval_based/scripts/train.sh‎
Lines changed: 1 addition & 1 deletion
@@ -15,9 +15,9 @@
 
 # 1.基于语义索引的分类任务介绍
 
-以前的分类任务中，标签信息作为无实际意义，独立存在的one-hot编码形式存在，这种做法会潜在的丢失标签的语义信息，本方案把文本分类任务中的标签信息转换成含有语义信息的语义向量，将文本分类任务转换成向量检索和匹配的任务。这样做的好处是对于一些类别标签不是很固定的场景，或者需要经常有一些新增类别的需求的情况非常合适。另外，对于一些新的相关的分类任务，这种方法也不需要模型重新学习或者设计一种新的模型结构来适应新的任务。总的来说，这种基于检索的文本分类方法能够有很好的拓展性，能够利用标签里面包含的语义信息，不需要重新进行学习。
+以前的分类任务中，标签信息作为无实际意义，独立存在的one-hot编码形式存在，这种做法会潜在的丢失标签的语义信息，本方案把文本分类任务中的标签信息转换成含有语义信息的语义向量，将文本分类任务转换成向量检索和匹配的任务。这样做的好处是对于一些类别标签不是很固定的场景，或者需要经常有一些新增类别的需求的情况非常合适。另外，对于一些新的相关的分类任务，这种方法也不需要模型重新学习或者设计一种新的模型结构来适应新的任务。总的来说，这种基于检索的文本分类方法能够有很好的拓展性，能够利用标签里面包含的语义信息，不需要重新进行学习。这种方法可以应用到相似标签推荐，文本标签标注，金融风险事件分类，政务信访分类等领域。
 
-本方案是基于语义索引模型的分类，语义索引模型的目标是：给定输入文本，模型可以从海量候选召回库中**快速、准确**地召回一批语义相关文本。如果召回的文本带有类别标签，则可以把召回文本的类别标签作为给定输入文本的类别。本方案使用双塔模型，训练阶段引入In-batch Negatives  策略，使用hnswlib建立索引库，进行召回测试。最后利用召回的结果使用 Accuracy 指标来评估语义索引模型的分类的效果。
+本方案是基于语义索引模型的分类，语义索引模型的目标是：给定输入文本，模型可以从海量候选召回库中**快速、准确**地召回一批语义相关文本。基于语义索引的分类方法有两种，第一种方法是直接把标签变成召回库，即把输入文本和标签的文本进行匹配，第二种是利用召回的文本带有类别标签，把召回文本的类别标签作为给定输入文本的类别。本方案使用双塔模型，训练阶段引入In-batch Negatives  策略，使用hnswlib建立索引库，并把标签作为召回库，进行召回测试。最后利用召回的结果使用 Accuracy 指标来评估语义索引模型的分类的效果。
 
 
 **效果评估**
@@ -351,7 +351,7 @@ CUDA_VISIBLE_DEVICES=0 python utils/feature_extract.py \
 
 ```
 python utils/vector_insert.py \
-                    --vector_path ./data/corpus_embedding.npy
+                    --vector_path ./data/label_embedding.npy
 ```
 也可以直接运行：
 
 
@@ -200,8 +200,9 @@ def extract_embedding(self, data, tokenizer):
             examples.append((input_ids, segment_ids))
 
         batchify_fn = lambda samples, fn=Tuple(
-            Pad(axis=0, pad_val=tokenizer.pad_token_id),  # input
-            Pad(axis=0, pad_val=tokenizer.pad_token_id),  # segment
+            Pad(axis=0, pad_val=tokenizer.pad_token_id, dtype="int64"),  # input
+            Pad(axis=0, pad_val=tokenizer.pad_token_id, dtype="int64"
+                ),  # segment
         ): fn(samples)
 
         input_ids, segment_ids = batchify_fn(examples)
@@ -233,10 +234,12 @@ def predict(self, data, tokenizer):
                 (input_ids, segment_ids, title_ids, title_segment_ids))
 
         batchify_fn = lambda samples, fn=Tuple(
-            Pad(axis=0, pad_val=tokenizer.pad_token_id),  # input
-            Pad(axis=0, pad_val=tokenizer.pad_token_type_id),  # segment
-            Pad(axis=0, pad_val=tokenizer.pad_token_id),  # input
-            Pad(axis=0, pad_val=tokenizer.pad_token_type_id),  # segment
+            Pad(axis=0, pad_val=tokenizer.pad_token_id, dtype="int64"),  # input
+            Pad(axis=0, pad_val=tokenizer.pad_token_type_id, dtype="int64"
+                ),  # segment
+            Pad(axis=0, pad_val=tokenizer.pad_token_id, dtype="int64"),  # input
+            Pad(axis=0, pad_val=tokenizer.pad_token_type_id, dtype="int64"
+                ),  # segment
         ): fn(samples)
 
         query_ids, query_segment_ids, title_ids, title_segment_ids = batchify_fn(
 
@@ -51,8 +51,10 @@ def preprocess(self, input_dicts, data_id, log_id):
             input_ids, segment_ids = convert_example([example], self.tokenizer)
             examples.append((input_ids, segment_ids))
         batchify_fn = lambda samples, fn=Tuple(
-            Pad(axis=0, pad_val=self.tokenizer.pad_token_id),  # input
-            Pad(axis=0, pad_val=self.tokenizer.pad_token_id),  # segment
+            Pad(axis=0, pad_val=self.tokenizer.pad_token_id, dtype="int64"
+                ),  # input
+            Pad(axis=0, pad_val=self.tokenizer.pad_token_type_id, dtype="int64"
+                ),  # segment
         ): fn(samples)
         input_ids, segment_ids = batchify_fn(examples)
         feed_dict = {}
 
@@ -84,10 +84,14 @@ def predict(model, data_loader):
                          max_seq_length=args.max_seq_length,
                          pad_to_max_seq_len=args.pad_to_max_seq_len)
     batchify_fn = lambda samples, fn=Tuple(
-        Pad(axis=0, pad_val=tokenizer.pad_token_id),  # query_input
-        Pad(axis=0, pad_val=tokenizer.pad_token_type_id),  # query_segment
-        Pad(axis=0, pad_val=tokenizer.pad_token_id),  # title_input
-        Pad(axis=0, pad_val=tokenizer.pad_token_type_id),  # tilte_segment
+        Pad(axis=0, pad_val=tokenizer.pad_token_id, dtype="int64"
+            ),  # query_input
+        Pad(axis=0, pad_val=tokenizer.pad_token_type_id, dtype="int64"
+            ),  # query_segment
+        Pad(axis=0, pad_val=tokenizer.pad_token_id, dtype="int64"
+            ),  # title_input
+        Pad(axis=0, pad_val=tokenizer.pad_token_type_id, dtype="int64"
+            ),  # tilte_segment
     ): [data for data in fn(samples)]
     valid_ds = load_dataset(read_text_pair,
                             data_path=args.text_pair_file,
 
@@ -1,7 +1,7 @@
 # GPU training
 root_path=inbatch
 data_path=data
-python -u -m paddle.distributed.launch --gpus "1,2,3,4" \
+python -u -m paddle.distributed.launch --gpus "0,1,2,3" \
     train.py \
     --device gpu \
     --save_dir ./checkpoints/${root_path} \