关于 ShizhenGPT-7B-Omni 中「闻」和「切」模态波形信号输入格式的疑问

各位老师好，感谢开源 ShizhenGPT-7B-Omni 以及相关工作。
我目前在尝试按照文章中提到的“望、闻、问、切”四诊流程，对模型进行一个完整的测试和验证。但在实际对接时，对 「闻」和「切」这两类模态的输入数据格式 有一些不太明确的地方，想向团队请教。
从当前开源代码和示例中可以看到：
「问」（文本）可以直接通过 tokenizer 输入；
「望」（图像）已有比较清晰的 vision encoder 使用示例；
音频相关的输入也有部分示例代码。
但对于文章中提到的：
「闻」（如声音特征等）
「切」（如脉象/生理波形信号）
目前还不太清楚在工程上应如何构造和传入这类数据，具体想请教以下几个问题：
「闻」和「切」模态期望的原始输入数据格式是什么？
例如是否统一为 .wav 波形文件，还是 numpy array，或是已经计算好的特征（如 mel spectrogram）？
在预处理层面是否有固定要求？
比如采样率（是否与音频一致，如 16kHz）、时长、归一化方式等。
「闻」和「切」在模型内部是否共用同一个信号编码器？
还是分别有不同的 encoder / 处理分支？
是否有最小可用示例或伪代码，可以说明脉象/波形信号在推理时应如何传入模型？
目前公开的示例主要集中在文本、图像和音频模态，这使得在本地构造「切」（脉象波形）相关的测试数据时有一定困难。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

关于 ShizhenGPT-7B-Omni 中「闻」和「切」模态波形信号输入格式的疑问 #11

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

关于 ShizhenGPT-7B-Omni 中「闻」和「切」模态波形信号输入格式的疑问 #11

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions