Fork me on GitHub

吴恩达深度学习4-梯度下降

吴恩达深度学习6-梯度下降

下面是梯度下降的公式:

$$J(w, b)=\frac{1}{m} \sum_{i=1}^m \mathcal{L}\left(\hat{y}^{(i)}, y^{(i)}\right)=-\frac{1}{m} \sum_{i=1}^m y^{(i)} \log \hat{y}{(i)}+\left(1-y{(i)}\right) \log \left(1-\hat{y}^{(i)}\right)$$

成本函数就是m分支一 乘以损失函数。

如何确定w和b?

如何找到合适的w和b,使其对应的成本函数J最小?

上图中的成本函数J是一个凸函数convex function;

先初始化w和b:一般选择0值初始化。通过多次迭代能够到达全局最优最优解

图解梯度下降

$$w := w - \alpha \frac{dJ(w)}{d(w)}$$

$\alpha$表示的就是学习率(重要的超参数):空值每次的迭代方向,或者梯度下降法中的步长

梯度:表示的成本函数导数的斜率,朝着下降最快的方向走。

两个参数的实时更新:

本文标题:吴恩达深度学习4-梯度下降

发布时间:2022年10月23日 - 21:10

原始链接:http://www.renpeter.cn/2022/10/23/%E5%90%B4%E6%81%A9%E8%BE%BE%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A04-%E6%A2%AF%E5%BA%A6%E4%B8%8B%E9%99%8D.html

许可协议: 署名-非商业性使用-禁止演绎 4.0 国际 转载请保留原文链接及作者。

Coffee or Tea