Skip to content

关于 ShizhenGPT-7B-Omni 中「闻」和「切」模态波形信号输入格式的疑问 #11

@DovikN-913

Description

@DovikN-913

各位老师好,感谢开源 ShizhenGPT-7B-Omni 以及相关工作。
我目前在尝试按照文章中提到的“望、闻、问、切”四诊流程,对模型进行一个完整的测试和验证。但在实际对接时,对 「闻」和「切」这两类模态的输入数据格式 有一些不太明确的地方,想向团队请教。
从当前开源代码和示例中可以看到:
「问」(文本)可以直接通过 tokenizer 输入;
「望」(图像)已有比较清晰的 vision encoder 使用示例;
音频相关的输入也有部分示例代码。
但对于文章中提到的:
「闻」(如声音特征等)
「切」(如脉象/生理波形信号)
目前还不太清楚在工程上应如何构造和传入这类数据,具体想请教以下几个问题:
「闻」和「切」模态期望的原始输入数据格式是什么?
例如是否统一为 .wav 波形文件,还是 numpy array,或是已经计算好的特征(如 mel spectrogram)?
在预处理层面是否有固定要求?
比如采样率(是否与音频一致,如 16kHz)、时长、归一化方式等。
「闻」和「切」在模型内部是否共用同一个信号编码器?
还是分别有不同的 encoder / 处理分支?
是否有最小可用示例或伪代码,可以说明脉象/波形信号在推理时应如何传入模型?
目前公开的示例主要集中在文本、图像和音频模态,这使得在本地构造「切」(脉象波形)相关的测试数据时有一定困难。

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions