feat: support native embedding generation #106

nabinchha · 2025-12-08T22:57:37Z

Major changes:

Broke out InferenceParameters into generation type specific ones. Changes include renaming existing InferenceParameters -> ChatCompletionInferenceParams with backwards compatibility + deprecation warning.
Broke out docs for inference parameters into concepts/models/inference-parameters.md
Updated CLI for a better UX around display and CRUD of generation type specific inference parameters

Minor changes:

TokenUsageStats.prompt_tokens -> TokenUsageStats.input_tokens
TokenUsageStats.completion_tokens -> TokenUsageStats.output_tokens
Added nvidia-embedding and openai-embedding to default model configs .

Here's an example of what the workflow looks like for embeddings

import json
import pandas as pd
from data_designer.essentials import (
    DataDesigner,
    DataDesignerConfigBuilder,
    EmbeddingColumnConfig,
    EmbeddingInferenceParameters,
    ExpressionColumnConfig,
    ModelConfig,
)

model_configs = [
    ModelConfig(
        alias="nvidia-embedder",
        model="nvdev/nvidia/llama-3.2-nv-embedqa-1b-v2",
        provider="nvidia",
        inference_parameters=EmbeddingInferenceParameters(
            extra_body={"input_type": "query"},
        ),
    ),
    ModelConfig(
        alias="openai-embedder",
        model="text-embedding-3-small",
        provider="openai",
        inference_parameters=EmbeddingInferenceParameters(
            dimensions=768,
            encoding_format="float"
        )
    )
]

config_builder = DataDesignerConfigBuilder(model_configs=model_configs)

with open("dummy_generated_data.json", "r") as f:
    full_generation_data = json.load(f)

config_builder.with_seed_dataset(
    dataset_reference=DataDesigner.make_seed_reference_from_dataframe(
        pd.DataFrame(full_generation_data),
        "tmp_dedup.json"
    ),
    sampling_strategy="ordered"
)

config_builder.add_column(
    ExpressionColumnConfig(
        name="questions",
        expr='[{% for pair in qa_generation.pairs %}"{{ pair.question }}",{% endfor %}]'
    )
)

config_builder.add_column(
    EmbeddingColumnConfig(
        name="embedding_nvidia",
        model_alias="nvidia-embedder",
        target_column="questions",
        chunk_pattern=f"\n+"
    )
)

config_builder.add_column(
    EmbeddingColumnConfig(
        name="embedding_openai",
        model_alias="openai-embedder",
        target_column="questions",
        chunk_pattern=f"\n+"
    )
)

data_designer = DataDesigner()
result = data_designer.preview(config_builder)
result.display_sample_record()

Pending:

Update docs
Add/Update unit tests
Update CLI for inference parameter specification

closes #110, #40, and #89

…eInferenceParameters, EmbeddingInferenceParameters

…th BaseInferenceParameters

…lved based on the type of InferenceParameters

… -> output tokens in column statistics for consistency

docs/concepts/columns.md

src/data_designer/config/utils/constants.py

src/data_designer/engine/column_generators/generators/embedding.py

andreatgretel

🚀

docs/concepts/models/inference-parameters.md

nabinchha added 21 commits November 25, 2025 12:16

Add generation type to ModelConfig

dc041f7

pass tests

0d6b830

added generate_text_embeddings

254fd8a

tests

1126ea1

remove sensitive=True old artifact no longer needed

744bc8f

Slight refactor

b913f8d

slight refactor

052db7a

Added embedding generator

5504c8d

chunk_separator -> chunk_pattern

4b6f877

update tests

04fc0f3

rename for consistency

26d6da1

Restructure InferenceParameters -> CompletionInferenceParameters, Bas…

6facbd2

…eInferenceParameters, EmbeddingInferenceParameters

Remove purpose from consolidated kwargs

2c1b267

WithModelConfiguration.inference_parameters should should be typed wi…

4b1492b

…th BaseInferenceParameters

Type as WithModelGeneration

c445caf

Add image generation modality

4b8aa2b

update return type for generate_kwargs

2c5933f

make generation_type a field of ModelConfig as opposed to a prop reso…

c6c29d4

…lved based on the type of InferenceParameters

remove regex based chunking from embedding generator

06a724b

Merge branch 'main' into nmulepati/feat/support-embedding-generation

bbb6a83

Remove image generation for now

b9455d4

nabinchha requested review from andreatgretel, eric-tramel and johnnygreco December 8, 2025 22:57

nabinchha mentioned this pull request Dec 8, 2025

feat: support embedding and image generation (DRAFT) #85

Closed

nabinchha changed the title ~~Nmulepati/feat/support embedding generation~~ feat: support native embedding generation Dec 8, 2025

nabinchha linked an issue Dec 9, 2025 that may be closed by this pull request

Add native embedding generation support #110

Closed

nabinchha added 3 commits December 9, 2025 12:06

more tests and updates

e5c0b7a

column_type_is_llm_generated -> column_type_is_model_generated

6460c6b

change set to list: fix flaky tests

e294b40

This was referenced Dec 11, 2025

docs: add initial plugin documentation #107

Merged

docs: add documentation on how to configure custom model settings #124

Merged

nabinchha added 5 commits December 11, 2025 13:53

Merge branch 'main' into nmulepati/feat/support-embedding-generation

0d61587

Merge branch 'main' into nmulepati/feat/support-embedding-generation

8e91e95

Update nomenclature. prompt tokens -> input tokens, completion tokens…

51dcffa

… -> output tokens in column statistics for consistency

Add nvidia-embedding and openai-embedding to default model configs

7253898

Merge branch 'main' into nmulepati/feat/support-embedding-generation

0f21576

eric-tramel requested changes Dec 12, 2025

View reviewed changes

docs/concepts/columns.md Outdated Show resolved Hide resolved

src/data_designer/config/utils/constants.py Show resolved Hide resolved

src/data_designer/engine/column_generators/generators/embedding.py Show resolved Hide resolved

nabinchha added 2 commits December 12, 2025 17:10

Fix typo in docs

9acf600

Merge branch 'main' into nmulepati/feat/support-embedding-generation

954d4d0

nabinchha requested a review from eric-tramel December 13, 2025 00:10

Make generate collab notebooks

c7176b9

andreatgretel reviewed Dec 15, 2025

View reviewed changes

andreatgretel previously approved these changes Dec 15, 2025

View reviewed changes

nabinchha mentioned this pull request Dec 15, 2025

chore: Update nvidia text default model alias to nano v3 #133

Merged

Merge branch 'main' into nmulepati/feat/support-embedding-generation

b47495c

nabinchha dismissed andreatgretel’s stale review via b47495c December 15, 2025 17:26

nabinchha requested a review from andreatgretel December 15, 2025 17:29

eric-tramel previously approved these changes Dec 15, 2025

View reviewed changes

Merge branch 'main' into nmulepati/feat/support-embedding-generation

a68beb2

nabinchha dismissed eric-tramel’s stale review via a68beb2 December 15, 2025 17:50

johnnygreco previously approved these changes Dec 15, 2025

View reviewed changes

docs/concepts/models/inference-parameters.md Outdated Show resolved Hide resolved

fine-tune -> adjust

bed085f

nabinchha dismissed johnnygreco’s stale review via bed085f December 15, 2025 18:00

nabinchha requested review from eric-tramel and johnnygreco December 15, 2025 18:01

johnnygreco approved these changes Dec 15, 2025

View reviewed changes

nabinchha merged commit 8370e4a into main Dec 15, 2025
28 checks passed

nabinchha deleted the nmulepati/feat/support-embedding-generation branch December 15, 2025 18:03

nabinchha mentioned this pull request Dec 16, 2025

Handle different inference params in config builder info display #140

Closed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

feat: support native embedding generation #106

feat: support native embedding generation #106

Uh oh!

nabinchha commented Dec 8, 2025 •

edited

Loading

Uh oh!

Uh oh!

Uh oh!

Uh oh!

andreatgretel left a comment

Uh oh!

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

5 participants

feat: support native embedding generation #106

feat: support native embedding generation #106

Uh oh!

Conversation

nabinchha commented Dec 8, 2025 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

andreatgretel left a comment

Choose a reason for hiding this comment

Uh oh!

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

5 participants

nabinchha commented Dec 8, 2025 •

edited

Loading