Hybrid chunking using OpenAI Tokenizer

The [documentation](https://docling-project.github.io/docling/examples/hybrid_chunking/#basic-usage) explains how to configure and use OpenAI Tokenizer with hybrid chunker in python. 

```
       import tiktoken

        from docling_core.transforms.chunker.tokenizer.openai import OpenAITokenizer

        tokenizer = OpenAITokenizer(
                   tokenizer=tiktoken.encoding_for_model("gpt-4o"),
                   max_tokens=128 * 1024,  # context window length required for OpenAI tokenizers
        )
        
        chunker = HybridChunker(
                tokenizer=tokenizer,
                merge_peers=True,  # optional, defaults to True
        )
        chunk_iter = chunker.chunk(dl_doc=doc)
        chunks = list(chunk_iter)
```
How to do the same operation using docling-java ?
The `HybridChunkerOptions.builder().tokenizer() `seems support only HuggingFace models.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Hybrid chunking using OpenAI Tokenizer #260

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Hybrid chunking using OpenAI Tokenizer #260

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions