吴恩达深度学习6-梯度下降
下面是梯度下降的公式:
$$J(w, b)=\frac{1}{m} \sum_{i=1}^m \mathcal{L}\left(\hat{y}^{(i)}, y^{(i)}\right)=-\frac{1}{m} \sum_{i=1}^m y^{(i)} \log \hat{y}{(i)}+\left(1-y{(i)}\right) \log \left(1-\hat{y}^{(i)}\right)$$
成本函数就是m分支一 乘以损失函数。
如何确定w和b?
如何找到合适的w和b,使其对应的成本函数J最小?
上图中的成本函数J是一个凸函数convex function;
先初始化w和b:一般选择0值初始化。通过多次迭代能够到达全局最优最优解
图解梯度下降
$$w := w - \alpha \frac{dJ(w)}{d(w)}$$
$\alpha$表示的就是学习率(重要的超参数):空值每次的迭代方向,或者梯度下降法中的步长
梯度:表示的成本函数导数的斜率,朝着下降最快的方向走。
两个参数的实时更新: