Entity2Embedding

基于 TensorFlow 的 Word2vec / Thing2Vec 的Python package.

特性

基于 TensorFlow 实现: 高效可靠
应用领域灵活,将 Word2Vec 扩展至无限可能
全面功能的 Dashboard (感谢 TensorBoard)
支持海量数据: 支持规模达到T级别的数据

演示

训练监控

标量监控

global_step/sec/learning_rate/loss/training_epoch

计算图

分布图

柱形图

效果评估

PCA降维

T-SNE

距离查询

教程

如下将通过Google官方的text8数据集来演示 Entity2Embedding的使用

下载数据

下载text8数据集, 执行下面的命令

curl http://mattmahoney.net/dc/text8.zip > text8.zip
unzip text8.zip

你想得到text8这个数据文件

构建项目

执行下面的命令:

python -m entity2embedding.shortcuts.preprocessor -p project -f text8

这个脚本将使用默认的设定来构建项目, -f text8指定了数据来源于text8, -p project指定了项目文件存放的位置project目录

训练模型

执行下面的命令:

python -m entity2embedding.shortcuts.train -p project

这个脚本将使用默认的设定来训练模型, -p project指定了项目的位置在project目录中.

可视化监控

启动服务器

tensorboard --logdir project/log

启动浏览器

打开浏览器,输入服务器的地址和端口6006即可查看模型训练情况.如果是本机训练和查看,请直接点击: http://localhost:6006

导出模型

执行下面的命令:

python -m entity2embedding.shortcuts.export -p project

模型数据将会以兼容gensim包的格式导出纯文本模型,模型文件gensim_compatible_word2vec.txt位于project目录中

Name		Name	Last commit message	Last commit date
Latest commit History 12 Commits
.images		.images
docs/tutorial/code		docs/tutorial/code
entity2embedding		entity2embedding
.gitignore		.gitignore
README.md		README.md
requirements.txt		requirements.txt
setup.py		setup.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Entity2Embedding

特性

演示

训练监控

标量监控

计算图

分布图

柱形图

效果评估

PCA降维

T-SNE

距离查询

教程

下载数据

构建项目

训练模型

可视化监控

启动服务器

启动浏览器

导出模型

About

Uh oh!

Releases

Packages

Languages

howl-anderson/entity2embedding

Folders and files

Latest commit

History

Repository files navigation

Entity2Embedding

特性

演示

训练监控

标量监控

计算图

分布图

柱形图

效果评估

PCA降维

T-SNE

距离查询

教程

下载数据

构建项目

训练模型

可视化监控

启动服务器

启动浏览器

导出模型

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages