Word2Vec 负样本 id 没有做到单词的映射


[word2vec_reader.py 第 116 行左右](https://github.com/PaddlePaddle/PaddleRec/blob/master/models/recall/word2vec/word2vec_reader.py#L116)

```
  for i in range(self.neg_num):
      tmp.append(random.random())
  neg_array = self.cs.searchsorted(tmp)

  output.append(
      np.array([int(i)
                for i in neg_array]).astype('int64'))

  yield output
```
负采样得到的 id 用的是采样 list (self.cs) 的 index 值，并且直接作为了输出，没有映射到单词的 word_id，这可能导致模型的负采样逻辑完全出错。

另外，在取 context 词的时候为什么要[对 window_size 的大小做随机](https://github.com/PaddlePaddle/PaddleRec/blob/master/models/recall/word2vec/word2vec_reader.py#L61)呢，是为了 demo 能快速运行吗？


Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Word2Vec 负样本 id 没有做到单词的映射 #982

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Word2Vec 负样本 id 没有做到单词的映射 #982

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions