Extremely large codebook size 2^56

<img width="424" height="580" alt="Image" src="https://github.com/user-attachments/assets/f0c8a200-8ede-4b44-9474-e889fb250e30" />
I really appreciate your research work. I have some questions regarding Table 1. It seems that UniTok needs to expand the codebook size or vocabulary size to 2^56 to achieve an rFID of 0.33. In this case, how can the GPT model be trained? Won’t the complexity be too high?

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Extremely large codebook size 2^56 #24

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Extremely large codebook size 2^56 #24

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions