Average reward after learning a strategy

Hello I used BasicPOMCP to find optimal strategy in quite large game. I used example to calculate 10000 tree queries, but even tho i see the tree, I am mostly interested in average reward. I know there is function simulate, however i feel like results from this method vary more than i expect (but maybe taking n simulations and then do some kind of average is a good solution).
Simply put is it possible to get average reward immediately after solver solves a game? 

Thank you for response

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Average reward after learning a strategy #15

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Average reward after learning a strategy #15

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions