核心内容摘要
深入解析Gitlab Runner的Shell执行器:为什么你的Job failed并报exit status 1?
误差反向传播法的实现通过像组装乐高积木一样组装上一节中实现的层可以构建神经网络。
本节我们将通过组装已经实现的层来构建神经网络。
神经网络学习的全貌图在进行具体的实现之前我们再来确认一下神经网络学习的全貌图。
神经网络学习的步骤如下所示。
前提神经网络中有合适的权重和偏置调整权重和偏置以便拟合训练数据的过程称为学习。
神经网络的学习分为下面4 个步骤。
步骤1mini-batch从训练数据中随机选择一部分数据。
步骤2计算梯度计算损失函数关于各个权重参数的梯度。
步骤3更新参数将权重参数沿梯度方向进行微小的更新。
之前介绍的误差反向传播法会在步骤2 中出现。
上一章中我们利用数值微分求得了这个梯度。
数值微分虽然实现简单但是计算要耗费较多的时间。
和需要花费较多时间的数值微分不同误差反向传播法可以快速高效地计算梯度。
现在来进行神经网络的实现。
这里我们要把2层神经网络实现为TwoLayerNet。
首先将这个类的实例变量和方法整理成表
和表
。
这个类的实现稍微有一点长但是内容和
5 节的学习算法的实现有很多共通的部分不同点主要在于这里使用了层。
通过使用层获得识别结果的处理predict()和计算梯度的处理gradient()只需通过层之间的传递就能完成。
下面是TwoLayerNet的代码实现。
import sys, os sys.path.append(os.pardir) import numpy as np from common.layers import * from common.gradient import numerical_gradient from collections import OrderedDict class TwoLayerNet: def __init__(self, input_size, hidden_size, output_size, weight_init_std
0.
: # 初始化权重 self.params {} self.params[W1] weight_init_std * \ np.random.randn(input_size, hidden_size) self.params[b1] np.zeros(hidden_size) self.params[W2] weight_init_std * \ np.random.randn(hidden_size, output_size) self.params[b2] np.zeros(output_size) # 生成层 self.layers OrderedDict() self.layers[Affine1] \ Affine(self.params[W1], self.params[b1]) self.layers[Relu1] Relu() self.layers[Affine2] \ Affine(self.params[W2], self.params[b2]) self.lastLayer SoftmaxWithLoss() def predict(self, x): for layer in self.layers.values(): x layer.forward(x) return x # x:输入数据, t:监督数据 def loss(self, x, t): y self.predict(x) return self.lastLayer.forward(y, t) def accuracy(self, x, t): y self.predict(x) y np.argmax(y, axis
if t.ndim ! 1 : t np.argmax(t, axis
accuracy np.sum(y t) / float(x.shape[0]) return accuracy # x:输入数据, t:监督数据 def numerical_gradient(self, x, t): loss_W lambda W: self.loss(x, t) grads {} grads[W1] numerical_gradient(loss_W, self.params[W1]) grads[b1] numerical_gradient(loss_W, self.params[b1]) grads[W2] numerical_gradient(loss_W, self.params[W2]) grads[b2] numerical_gradient(loss_W, self.params[b2]) return grads def gradient(self, x, t): # forward self.loss(x, t) # backward dout 1 dout self.lastLayer.backward(dout) layers list(self.layers.values()) layers.reverse() for layer in layers: dout layer.backward(dout) # 设定 grads {} grads[W1] self.layers[Affine1].dW grads[b1] self.layers[Affine1].db grads[W2] self.layers[Affine2].dW grads[b2] self.layers[Affine2].db return grads请注意这个实现中的粗体字代码部分尤其是将神经网络的层保存为OrderedDict这一点非常重要。
OrderedDict是有序字典“有序”是指它可以记住向字典里添加元素的顺序。
因此神经网络的正向传播只需按照添加元素的顺序调用各层的forward()方法就可以完成处理而反向传播只需要按照相反的顺序调用各层即可。
因为Affine层和ReLU层的内部会正确处理正向传播和反向传播所以这里要做的事情仅仅是以正确的顺序连接各层再按顺序或者逆序调用各层。
像这样通过将神经网络的组成元素以层的方式实现可以轻松地构建神经网络。
这个用层进行模块化的实现具有很大优点。
因为想另外构建一个神经网络比如5 层、10 层、20 层……的大的神经网络时只需像组装乐高积木那样添加必要的层就可以了。
之后通过各个层内部实现的正向传播和反向传播就可以正确计算进行识别处理或学习所需的梯度。
误差反向传播法的梯度确认到目前为止我们介绍了两种求梯度的方法。
一种是基于数值微分的方法另一种是解析性地求解数学式的方法。
后一种方法通过使用误差反向传播法即使存在大量的参数也可以高效地计算梯度。
因此后文将不再使用耗费时间的数值微分而是使用误差反向传播法求梯度。
数值微分的计算很耗费时间而且如果有误差反向传播法的正确的实现的话就没有必要使用数值微分的实现了。
那么数值微分有什么用呢实际上在确认误差反向传播法的实现是否正确时是需要用到数值微分的。
数值微分的优点是实现简单因此一般情况下不太容易出错。
而误差反向传播法的实现很复杂容易出错。
所以经常会比较数值微分的结果和误差反向传播法的结果以确认误差反向传播法的实现是否正确。
确认数值微分求出的梯度结果和误差反向传播法求出的结果是否一致严格地讲是非常相近的操作称为梯度确认gradient check。
梯度确认的代码实现如下所示源代码在ch05/gradient_check.py中。
importsys,os sys.path.append(os.pardir)importnumpyasnpfromdataset.mnistimportload_mnistfromtwo_layer_netimportTwoLayerNet# 读入数据(x_train,t_train),(x_test,t_test)\ load_mnist(normalizeTrue,one_ hot_labelTrue)networkTwoLayerNet(input_size784,hidden_size50,output_size
x_batchx_train[:3]t_batcht_train[:3]grad_numericalnetwork.numerical_gradient(x_batch,t_batch)grad_backpropnetwork.gradient(x_batch,t_batch)# 求各个权重的绝对误差的平均值forkeyingrad_numerical.keys():diffnp.average(np.abs(grad_backprop[key]-grad_numerical[key]))print(key:str(diff))和以前一样读入MNIST数据集。
然后使用训练数据的一部分确认数值微分求出的梯度和误差反向传播法求出的梯度的误差。
这里误差的计算方法是求各个权重参数中对应元素的差的绝对值并计算其平均值。
运行上面的代码后会输出如下结果。
b1:
70418809871e-13 W2:
41139039497e-13 b2:
1945999745e-10 W1:
2232446644e-13从这个结果可以看出通过数值微分和误差反向传播法求出的梯度的差非常小。
比如第1 层的偏置的误差是
7 e − 13
00000000000097
7e-
130.
0
7e−
1
00000000000097。
这样一来我们就知道了通过误差反向传播法求出的梯度是正确的误差反向传播法的实现没有错误。
数值微分和误差反向传播法的计算结果之间的误差为0 是很少见的。
这是因为计算机的计算精度有限比如32 位浮点数。
受到数值精度的限制刚才的误差一般不会为0但是如果实现正确的话可以期待这个误差是一个接近0 的很小的值。
如果这个值很大就说明误差反向传播法的实现存在错误。
使用误差反向传播法的学习最后我们来看一下使用了误差反向传播法的神经网络的学习的实现。
和之前的实现相比不同之处仅在于通过误差反向传播法求梯度这一点。
这里只列出了代码省略了说明源代码在ch05/train_neuralnet.py中。
importsys,os sys.path.append(os.pardir)importnumpyasnpfromdataset.mnistimportload_mnistfromtwo_layer_netimportTwoLayerNet# 读入数据(x_train,t_train),(x_test,t_test)\ load_mnist(normalizeTrue,one_hot_labelTrue)networkTwoLayerNet(input_size784,hidden_size50,output_size