Roberta Tokenizer

Hi

I want to use Roberta Tokenizer. In the following, there is an example that shows how we can do this.

`from transformers import AutoTokenizer`
`model_name = "HooshvareLab/roberta-fa-zwnj-base"`
`tokenizer = AutoTokenizer.from_pretrained(model_name)`
`string = "این یک سند است"`
`tokenized_string = tokenizer.tokenize(string)`
`print(tokenized_string)`

The result of the above code is as follows:
`['Ø§ÛĮÙĨ', 'ĠÛĮÚ©', 'ĠØ³ÙĨØ¯', 'ĠØ§Ø³Øª']`
However, it should be:
`["این", "یک", "سند" , "است"]`
What is your idea to solve this issue?

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Roberta Tokenizer #2

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Roberta Tokenizer #2

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions