Tokenizer and Embedding Project

Overview

This project focuses on transforming raw text into numerical representations and learning word embeddings to capture semantic relationships between words. It consists of two main components:

Text Encoding (Encode_text class)
- Handles text preprocessing, tokenization, and one-hot encoding.
- Key functions: fit_tokenizer (builds vocabulary), tokenizer (converts sentences to tokens and indices), one_hot_encoding (generates one-hot vectors).
Word Embedding (Embedding class)
- Implements a CBOW (Continuous Bag of Words) model to learn word embeddings.
- Key functions: Embedding_text (trains embeddings), generate_context_target (creates context-target pairs), Forward/update_weight (forward pass and gradient updates), display_embedding_space (visualizes learned embeddings in 1D, 2D, or 3D).

Purpose

Convert raw text into numerical form suitable for machine learning.
Learn meaningful vector representations for words.
Enable visualization of relationships between words in an embedding space.

Example Workflow

Fit the tokenizer on a text corpus: encoder.fit_tokenizer(corpus)
Tokenize a sentence: encoder.tokenizer("Example sentence")
Train embeddings: embedding.Embedding_text(text, len_context=5)
Visualize the learned embedding space: embedding.display_embedding_space(Embedding_dim=2)

Embedding representation

All the images below show the same embedding space, represented in different dimensions.

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
classes		classes
data		data
visual		visual
Embedding_methods.pdf		Embedding_methods.pdf
README.md		README.md
test_project.py		test_project.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Tokenizer and Embedding Project

Overview

Purpose

Example Workflow

Embedding representation

1D Embedding Space

2D Embedding Space

3D Embedding Space

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Tokenizer and Embedding Project

Overview

Purpose

Example Workflow

Embedding representation

1D Embedding Space

2D Embedding Space

3D Embedding Space

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages