请问是否可以使用OS-Map中的benchmark评估具体的agent系统，例如Openhands？

您好，我希望使用OS-Map中的程序评估具体的agent系统性能，例如Openhands，这个想法是否可行；如果可行的话我应该在代码中做哪些必要的修改呢？感谢！
Openhands：https://github.com/All-Hands-AI/OpenHands