### 练习11.10.4 尝试构造一个使用Adam算法会发散而Yogi会收敛的例子。 现在的解答的实验中,adam发散而yogi收敛的原因是:adam的实验中学习率设置为0.1,而yogi的实验中设置为0.01 我重新实验发现: 学习率统一为0.01,二者都收敛 学习率统一为0.1,二者都发散 个人认为当前解答说服力不够