@catscarf 2018-04-07T08:46:49.000000Z 字数 2470 阅读 1517

神经网络和深度学习笔记第二章神经网络基础

点击查看目录与导航
DeepLearning.ai 系列课程第一部分
https://mooc.study.163.com/course/2001281002
@Catpub

2.1 二分分类

样本矩阵
$X = \begin{bmatrix}|&|&&| \\ | & | & & |\\ x^{(1)} & x^{(2)} & ... & x^{(m)} \\ | & | & & |\\ |&|&&| \end{bmatrix}$
$Y=\begin{bmatrix}y^{(1)} & y^{(2)}&...&y^{(m)}\end{bmatrix}$

2.2 logistic回归

已知： $x\in R^{n\times 1}$ ，求 $\hat{y}=p(y=1|x)$
预测函数：
- 其中： $\sigma(z)=\frac{1}{1+e^{-z}}$
- 其中两个参数： $\omega\in R^{n\times 1}，\quad b\in R$
- 该函数很好的适用于二分类问题

2.3 logistic回归的损失函数

符号表示： $x^{(i)},\quad y^{(i)},\quad z^{(i)}$ 表示与样本 $i$ 有关的数据
损失函数(loss function)：
- 当 $y$ 接近 $1$ 时，损失函数会让 $\hat{y}$ 尽可能的接近 $1$ ，反之会让 $\hat{y}$ 尽可能地接近 $0$ ，此性质可以一定程度上说明我们为什么选择这个函数作为损失函数
- 损失函数衡量了模型在单个样本上的表现
成本函数(cost function)：
- 成本函数衡量了模型在全部样本上的表现

2.4 梯度下降法

logistic回归中使用的成本函数是凸函数(convex function)，这避免了我们到达局部最优解
以一维梯度下降为例
- $w:=w-\alpha\frac{dJ(w)}{dw}$
- $w$ 是 $2.2$ 中提到的预测函数的参数值（令 $b=0$ ，则 $w$ 是我们唯一需要解出的预测函数的参数）， $\alpha$ 是学习速率
- $:=$ 意为逐渐更新，直到到达最优解

2.5 导数

2.6 更多导数的例子

2.7 计算图(Computation Graph)

计算 $J(a,b,c)=3(a+bc)$ 可以按照以下流程

$u=bc,\quad v=a+u,\quad J=3v$

graph LR
subgraph 1
    a1((a = 5))
    a2((b = 3))
    a3((c = 2))
end
subgraph 2
    b1[u = bc]
end
subgraph 3
    c1[v = a + u]
end
subgraph 4
    d1[J = 3v]
end
    a1-->c1
    a2-->b1
    a3-->b1
    b1-->c1
    c1-->d1

这是一个从左向右的过程，类似于神经网络的前向传播

2.8 计算图的导数计算

反向传播
- 如上一小节的计算图，计算 $\frac{dJ}{da}$ 可以使用 $\frac{dJ}{dv}\cdot\frac{dv}{da}$ （链式法则），这是一种反向传播
- 我们约定，在代码中，函数对"我们需要优化的参数"的偏导数使用d[var]来表示

2.9 logistic回归中的梯度下降法

$z=w_1x_1+w_2x_2+b \rightarrow\quad a=\sigma(z)\rightarrow\quad L(a,y)$
$\frac{dL}{dw_1}=\frac{dz}{dw_1}\cdot\frac{da}{dz}\cdot\frac{dL}{da}=x_1a(1-a)$

2.10 m个样本的梯度下降

向量化(Vectorization)
- 避免 for 循环二期 32.11 向量化(Vectorization)

import numpy as np
a = np.random.rand(1000000)
b = np.random.rand(1000000)
c = np.dot(a,b) //该方法中，两个一维向量运算结果为点积，两个矩阵运算结果为矩阵积
print(c)

向量化远远快于使用循环语句，CPU和GPU执行SIMD都不慢

2.12 向量化的更多例子

2.13 向量化logistic回归

- Z = np.dot(w.T,x) + b
- Z 包括了所有的样本，是一个 $1\times m$ 的矩阵

2.14 向量化logistic回归的梯度输出

使用 for 循环

dw1 = 0, dw2 = 0, db = 0
for i = 1 in range(m):
  z[i] = w.T * x[i] + b //w, b的初始值已知，得到一个值
  a[i] = sigma(Z[i]) //求得logist回归的函数值
  dz[i] = a[i] - y[i] //由2.9章的链式法则得到的dJ/dz，y是标签
  dw1 += x1[i]dz[i] //由链式法则得到dJ/dw1
  dw2 += x2[i]dz[i] //由链式法则得到dJ/dw2
  db += dz[i] //由链式法则得到dJ/db
dw1 /= m
dw2 /= m
db /= m
w1 -= alpha * dw1
w2 -= alpha * dw2
b -= alpha * db //完成一次梯度下降

向量化

Z = np.dot(W.T,X) + b
A = sigma(Z)
dZ = A - Y
dw = X * DZ.T / m
db = np.sum(dZ)
w -= alpha * dw
b -= alpha * db

当然进行梯度下降的迭代仍然需要使用 for 循环

2.15 Python中的广播

可以简便的对矩阵进行运算，如四则运算
- (m,n) [+-*/] (1,n) --> (m,n) [+-*/] (m,n)

2.16 关于Python/Numpy向量的说明

即使是一维的也尽量使用矩阵
- 如使用 np.random.randn(5,1) 而不是 np.random.randn(5)
如果不确定的话使用
- assert(a.shape == (5,1))
不要害怕调用 reshape()

神经网络和深度学习笔记第二章神经网络基础

2.1 二分分类

2.2 logistic回归

2.3 logistic回归的损失函数

2.4 梯度下降法

2.5 导数

2.6 更多导数的例子

2.7 计算图(Computation Graph)

2.8 计算图的导数计算

2.9 logistic回归中的梯度下降法

2.10 m个样本的梯度下降

2.12 向量化的更多例子

2.13 向量化logistic回归

2.14 向量化logistic回归的梯度输出

2.15 Python中的广播

2.16 关于Python/Numpy向量的说明

2.17 Jupyter/Ipython的快速指南

2.18 logistic损失函数的解释

神经网络和深度学习笔记 第二章 神经网络基础

2.1 二分分类

2.2 logistic回归

2.3 logistic回归的损失函数

2.4 梯度下降法

2.5 导数

2.6 更多导数的例子

2.7 计算图(Computation Graph)

2.8 计算图的导数计算

2.9 logistic回归中的梯度下降法

2.10 m个样本的梯度下降

2.12 向量化的更多例子

2.13 向量化logistic回归

2.14 向量化logistic回归的梯度输出

2.15 Python中的广播

2.16 关于Python/Numpy向量的说明

2.17 Jupyter/Ipython的快速指南

2.18 logistic损失函数的解释

内容目录

选择主题

神经网络和深度学习笔记第二章神经网络基础