跳至内容

链接|https://zhuanlan.zhihu.com/p/31558973
深度学习最吃机器,耗资源,在本文,我将来科普一下在深度学习中:
-
-
Batch Size 越大,程序越快,而且近似成正比?
-
-
nvidia-smi是Nvidia显卡命令行管理套件,基于NVML库,旨在管理和监控Nvidia GPU设备。
这是nvidia-smi命令的输出,其中最重要的两个指标:
显存占用和GPU利用率是两个不一样的东西,显卡是由GPU计算单元和显存等组成的,显存和GPU的关系有点类似于内存和CPU的关系。
这里推荐一个好用的小工具:gpustat,直接pip install gpustat即可安装,gpustat基于nvidia-smi,可以提供更美观简洁的展示,结合watch命令,可以动态实时监控GPU的使用情况。
watch --color -n1 gpustat -cpu
GPU计算单元类似于CPU中的核,用来进行数值计算。衡量计算量的单位是flop:the number of floating-point multiplication-adds,浮点数先乘后加算一个flop。计算能力越强大,速度越快。衡量计算能力的单位是flops:每秒能执行的flop数量
1*2+3 1 flop
1*2 + 3*4 + 4*5 3 flop
2.1 存储指标
1Byte = 8 bit
1K = 1024 Byte
1M = 1024 K
1G = 1024 M
1T = 1024 G
10 K = 10*1024 Byte
除了K、M,G,T等之外,我们常用的还有KB 、MB,GB,TB 。二者有细微的差别。
1Byte = 8 bit
1KB = 1000 Byte
1MB = 1000 KB
1GB = 1000 MB
1TB = 1000 GB
10 KB = 10000 Byte
K、M,G,T是以1024为底,而KB 、MB,GB,TB以1000为底。不过一般来说,在估算显存大小的时候,我们不需要严格的区分这二者。
在深度学习中会用到各种各样的数值类型,数值类型命名规范一般为TypeNum,比如Int64、Float32、Double64。
-
-
Num: 一般是 8,16,32,64,128,表示该类型所占据的比特数目
常用的数值类型如下图所示(int64 准确的说应该是对应c中的long long类型, long类型在32位机器上等效于int32):
其中Float32 是在深度学习中最常用的数值类型,称为单精度浮点数,每一个单精度浮点数占用4Byte的显存。
举例来说:有一个1000×1000的 矩阵,float32,那么占用的显存差不多就是
32x3x256x256的四维数组(BxCxHxW)占用显存为:24M
2.2 神经网络显存占用
举例来说,对于如下图所示的一个全连接网络(不考虑偏置项b)
输入X可以看成是上一层的输出,因此把它的显存占用归于上一层。
2.2.1 参数的显存占用
只有有参数的层,才会有显存占用。这部份的显存占用和输入无关,模型加载完成之后就会占用。
更具体的来说,模型的参数数目(这里均不考虑偏置项b)为:
-
-
Conv2d(Cin, Cout, K): 参数数目:Cin × Cout × K × K
-
-
Embedding(N,W): 参数数目:N × W
在PyTorch中,当你执行完model=MyGreatModel().cuda()之后就会占用相应的显存,占用的显存大小基本与上述分析的显存差不多(会稍大一些,因为其它开销)。
2.2.2 梯度与动量的显存占用
可以看出来,除了保存W之外还要保存对应的梯度
,因此显存占用等于参数占用的显存x2,
如果是Adam优化器,动量占用的显存更多,显存x4
-
-
-
优化器的动量(普通SGD没有动量,momentum-SGD动量与梯度一样,Adam优化器动量的数量是梯度的两倍)
2.2.3 输入输出的显存占用
这部份的显存主要看输出的feature map 的形状。
据此可以计算出每一层输出的Tensor的形状,然后就能计算出相应的显存占用。
-
需要计算每一层的feature map的形状(多维数组的形状)
-
-
-
深度学习中神经网络的显存占用,我们可以得到如下公式:
显存占用 = 模型显存占用 + batch_size × 每个样本的显存占用
可以看出显存不是和batch-size简单的成正比,尤其是模型自身比较复杂的情况下:比如全连接很大,Embedding层很大
-
-
神经网络的每一层输入输出都需要保存下来,用来反向传播,但是在某些特殊的情况下,我们可以不要保存输入。比如ReLU,在PyTorch中,使用nn.ReLU(inplace = True) 能将激活函数ReLU的输出直接覆盖保存于模型的输入之中,节省不少显存。感兴趣的读者可以思考一下,这时候是如何反向传播的(提示:y=relu(x) -> dx = dy.copy();dx[y<=0]=0)
2.3 节省显存的方法
在深度学习中,一般占用显存最多的是卷积等层的输出,模型参数占用的显存相对较少,而且不太好优化。
计算量的定义,之前已经讲过了,计算量越大,操作越费时,运行神经网络花费的时间越多。
-
全连接层:BxMxN , B是batch size,M是输入形状,N是输出形状。
-
卷积的计算量:
-
BatchNorm 计算量我个人估算大概是 , 欢迎指正
-
池化的计算量:
3.2 AlexNet 分析
AlexNet的分析如下图,左边是每一层的参数数目(不是显存占用),右边是消耗的计算资源. 这里某些地方的计算结果可能和上面的公式对不上, 这是因为原始的AlexNet实现有点特殊(在多块GPU上实现的).
3.3 减少卷积层的计算量
今年谷歌提出的MobileNet,利用了一种被称为DepthWise Convolution的技术,将神经网络运行速度提升许多,它的核心思想就是把一个卷积操作拆分成两个相对简单的操作的组合。如图所示, 左边是原始卷积操作,右边是两个特殊而又简单的卷积操作的组合(上面类似于池化的操作,但是有权重,下面类似于全连接操作)。
-
-
计算量变少了许多,变成原来的( )(一般为原来的10-15%)
3.4 常用模型 显存/计算复杂度/准确率
去年一篇论文(arxiv.org/abs/1605.0767)总结了当时常用模型的各项指标,横座标是计算复杂度(越往右越慢,越耗时),纵座标是准确率(越高越好),圆的面积是参数数量(不是显存占用),参数量越多,保存的模型文件越大。左上角我画了一个红色小圆,那是最理想的模型:快,准确率高,显存占用小。
4.1 建议
-
-
显存占用不是和batch size简单成正比,模型自身的参数及其延伸出来的数据也要占据显存
-
batch size越大,速度未必越快。在你充分利用计算资源的时候,加大batch size在速度上的提升很有限
尤其是batch-size,假定GPU处理单元已经充分利用的情况下:
-
增大batch size能增大速度,但是很有限(主要是并行计算的优化)
-
增大batch size能减缓梯度震荡,需要更少的迭代优化次数,收敛的更快,但是每次迭代耗时更长。
-
增大batch size使得一个epoch所能进行的优化次数变少,收敛可能变慢,从而需要更多时间才能收敛(比如batch_size 变成全部样本数目)。
4.2 关于显卡选购
常见显卡性能指标(Base Core, 不考虑tensorcore和Boost等)
https://en.wikipedia.org/wiki/List_of_Nvidia_graphics_processing_units
显然GTX 1080TI性价比最高,速度超越新Titan X,价格却便宜很多,显存也只少了1个G(据说故意阉割掉一个G,不然全面超越了Titan X怕激起买Titan X人的民愤~)。
-
-
注意GTX TITAN X和Nvidia TITAN X的区别
-
tensorcore的性能目前来看还无法全面发挥出来, 这里不考虑. 其它的tesla系列像P100这些企业级的显卡这里不列了,普通消费者不会买, 而且性价比较低(一台DGX 1上百万…..)
另外,针对本文,我做了一个Google 幻灯片:神经网络性能分析,国内用户可以点下方链接载ppt。Google幻灯片格式更好,后者格式可能不太正常。
http://misc-1252820389.cosbj.myqcloud.com/神经网络分析.pptx