基于 TensorFlow 的 Word2vec / Thing2Vec 的Python package.
- 基于
TensorFlow实现: 高效 可靠 - 应用领域灵活,将
Word2Vec扩展至无限可能 - 全面功能的
Dashboard(感谢TensorBoard) - 支持海量数据: 支持规模达到T级别的数据
global_step/sec/learning_rate/loss/training_epoch

如下将通过Google官方的text8数据集来演示 Entity2Embedding的使用
下载text8数据集, 执行下面的命令
curl http://mattmahoney.net/dc/text8.zip > text8.zip
unzip text8.zip你想得到text8这个数据文件
执行下面的命令:
python -m entity2embedding.shortcuts.preprocessor -p project -f text8这个脚本将使用默认的设定来构建项目, -f text8指定了数据来源于text8, -p project指定了项目文件存放的位置project目录
执行下面的命令:
python -m entity2embedding.shortcuts.train -p project这个脚本将使用默认的设定来训练模型, -p project指定了项目的位置在project目录中.
tensorboard --logdir project/log打开浏览器,输入服务器的地址和端口6006即可查看模型训练情况.如果是本机训练和查看,请直接点击: http://localhost:6006
执行下面的命令:
python -m entity2embedding.shortcuts.export -p project模型数据将会以兼容gensim包的格式导出纯文本模型,模型文件gensim_compatible_word2vec.txt位于project目录中





