-
Notifications
You must be signed in to change notification settings - Fork 10
关于 ShizhenGPT-7B-Omni 中「闻」和「切」模态波形信号输入格式的疑问 #11
Copy link
Copy link
Open
Description
各位老师好,感谢开源 ShizhenGPT-7B-Omni 以及相关工作。
我目前在尝试按照文章中提到的“望、闻、问、切”四诊流程,对模型进行一个完整的测试和验证。但在实际对接时,对 「闻」和「切」这两类模态的输入数据格式 有一些不太明确的地方,想向团队请教。
从当前开源代码和示例中可以看到:
「问」(文本)可以直接通过 tokenizer 输入;
「望」(图像)已有比较清晰的 vision encoder 使用示例;
音频相关的输入也有部分示例代码。
但对于文章中提到的:
「闻」(如声音特征等)
「切」(如脉象/生理波形信号)
目前还不太清楚在工程上应如何构造和传入这类数据,具体想请教以下几个问题:
「闻」和「切」模态期望的原始输入数据格式是什么?
例如是否统一为 .wav 波形文件,还是 numpy array,或是已经计算好的特征(如 mel spectrogram)?
在预处理层面是否有固定要求?
比如采样率(是否与音频一致,如 16kHz)、时长、归一化方式等。
「闻」和「切」在模型内部是否共用同一个信号编码器?
还是分别有不同的 encoder / 处理分支?
是否有最小可用示例或伪代码,可以说明脉象/波形信号在推理时应如何传入模型?
目前公开的示例主要集中在文本、图像和音频模态,这使得在本地构造「切」(脉象波形)相关的测试数据时有一定困难。
Reactions are currently unavailable
Metadata
Metadata
Assignees
Labels
No labels