PPO代码存在critic loss无限增长的问题

使用此处的PPO代码，训练时总是发现critic loss不断增长，甚至会增长到1e18的数量级；
经比较其他地方的PPO代码，怀疑是此处的PPO代码在计算target_value时使用了当前的critic网络来计算batch中state的value，
因此导致值估计越推越高；
将代码改为在replay buffer中存入记录的同时存入state的值估计，而不是在计算target_value时计算state的值估计，
critic loss无限增长的问题得到解决。