本项目旨在将
Dora-rs生态与OpenLoong SDK进行深度融合
本项目基于青龙机器人平台,构建了一个多模态(RGB-D摄像头、语音输入、视觉语言模型)的机器人系统,旨在开发智能机器人帮助物流和服务业务。系统包括:
-
感知层
- 采用Intel RealSense D435 RGB-D 相机和微fon数字麦克风阵列捕捉图像和声音流数据。
-
处理层
- 图像分割、语音识别和视觉语言处理。我们使用
SAM2、Distil-Whisper-Large和QwenVL-3模型分别完成了对图像分割、语音识别和决策任务的实现。
- 图像分割、语音识别和视觉语言处理。我们使用
-
控制层
- 利用状态机机制管理机器人的动作和状态,根据环境的情况和语音命令决定机器人采取何种动作。
-
输出层
- 执行器控制部分通过双臂机械手实现系统对环境的操作,通过
rerun显示当前机器人的状态及执行流程的实时图形界面。
- 执行器控制部分通过双臂机械手实现系统对环境的操作,通过
- 需要安装
rust环境 (在rust-toolchain.toml中进行描述) - 推荐使用
uv工具来管理python项目及包管理,详情见 astral-uv - 需要安装
dora-cli工具,详情见 dora-ai(推荐使用 2 中的uv进行安装) - 需要安装
sdk/openloong_sim_sdk_release项目所需的所有依赖 - 首次运行需要从
Hugging Face中缓存Whisper语音模型至本地,从Model Space中缓存Qwen3-VL模型至本地,需要较长的初始化时间,并且需要确保特殊网络环境访问 Hugging Face - 为确保运行成功率,也可提前缓存模型至本地,并配置节点
dora-distil-whisper和dora-qwen2-5-vl中的环境变量DEFAULT_PATH为模型本地路径
git clone https://github.com/XiaoPengYouCode/dora-openloong
cd dora-openloong
dora build example/loong/pick-place.yml
dora run example/loong/pick-place.yml点击图片跳转至 youtube 查看

