ch 11 练习11.10.4 没有控制变量

### 练习11.10.4
尝试构造一个使用Adam算法会发散而Yogi会收敛的例子。

现在的解答的实验中，adam发散而yogi收敛的原因是：adam的实验中学习率设置为0.1，而yogi的实验中设置为0.01
我重新实验发现：
学习率统一为0.01，二者都收敛
学习率统一为0.1，二者都发散

个人认为当前解答说服力不够