缝缝补补

NeoZng · NeoZng · commit a9a474d429f4 · 2023-10-17T02:24:11.000+08:00
diff --git a/了解CV和RoboMaster视觉组.md b/了解CV和RoboMaster视觉组.md
@@ -6083,9 +6083,19 @@ life-long SLAM则要求算法可以适应变化的地图，如场景中的物体
 
 最简单的决策方法是rule-based策略，这是专家工程的一种，需要我们手动设计机器人的行为以及触发这些行为的条件。比如，当哨兵机器人观察到相机视野中存在对方英雄机器人，就去追击它；当前哨站告破，就自动返回巡逻区等。
 
-既然hand-craft策略不好确定，而且设计起来又很复杂，自然而然的想法是使用数据驱动的学习方法。
+既然hand-craft策略不好确定，而且设计起来又很复杂，自然而然的想法是使用数据驱动的学习方法。若给定当前的环境信息需要采取的动作则可以使用监督学习，比如决策树、分类器（类别就是要采取的行动）。也可以采用聚类的方式，前提是当需要合理地为环境信息提取特征，提取的可能方法是降维，如自编码器、PCA，得到聚类中心后为每一个类别设计合适的行动。
 
+ML的方法虽好，但也存在一定局限性，比如结构化信息较难建模、收集数据以及标定需要耗费大量人力物力。强化学习的方法对于机器人和环境的互动是一个很好的选择。给定不同行动以及行动结果（通过传感器收集）给予行为一定的奖励，从而让机器人学习到能使奖励最大化的策略。关于强化学习的入门介绍，推荐李宏毅教授2022学期的RL部分。
 
+最后就是大一统框架下的优化方法。首先人为或通过数据驱动的方法得到一些准则，在准则的前提下（准则可以是优化的约束，也可以是代价和误差的定义方式）求解优化问题，得到特定意义下的最优策略。不过优化的方法相对RL方法较为“短视”，而且前者常需要建立模型，而RL可以是无模型的。
+
+对于比赛中的应用，较好的方法是封装一些基础的动作集合使得机器人最终的行动的粒度合适，这个目标再交由下层的路径规划执行。如果小到每个电机的输出是多少，这已经不太能算是决策。可以类比人的决策，在你想去餐桌上拿茶杯的时候，你并不会“告诉”每一块肌肉应该在合适的时候输出特定大小的力，而是在较高层级上给运动中枢发送指令。
+
+对于信息的采集，也需要提取出有意义的语义信息，如30°方向2m处有一台对方的步兵机器人、正后方有一台我方的工程机器人、本机的速度是vx=2m/s，vy=0.3m/s等，而不是直接输入图像、激光雷达等的信息。
+
+> 当然有所谓的end2end方法，但也许并不是正确的解决方式。在比赛中也没有这么大的数据量能够喂饱大参数的模型。
+
+云台手目前仍然可以给哨兵机器人发送指令（虽然频率有限制），因此一般只需要简单的rule-based策略配合即可。