Skip to content

PPO代码存在critic loss无限增长的问题 #10

@BroOfBallSis

Description

@BroOfBallSis

使用此处的PPO代码,训练时总是发现critic loss不断增长,甚至会增长到1e18的数量级;
经比较其他地方的PPO代码,怀疑是此处的PPO代码在计算target_value时使用了当前的critic网络来计算batch中state的value,
因此导致值估计越推越高;
将代码改为在replay buffer中存入记录的同时存入state的值估计,而不是在计算target_value时计算state的值估计,
critic loss无限增长的问题得到解决。

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions