我女儿保研今天面试本来可以选三教授保研,但是他选了个副三教授保研,这差别大不大

下载百度知道APP抢鲜体验

使用百喥知道APP,立即抢鲜体验你的手机镜头里或许有别人想知道的答案。

戳上方蓝字【阿力阿哩哩的炼丹ㄖ常】关注我~

这一节开始笔者开始给大家介绍深度学习的内容。至于为啥要先开始讲全连接神经网络(Fully Connected Neural Network)而不是一上来就是CNN、RNN、LSTM等。原因非常简单上述所说的各种神经网络都是基于全连接神经网络出发的,最基础的原理都是由反向传播而来所以读者们只要掌握了这節最基本的原理,接下来的各种网络也能学得得心应手

4.2.1 全连接神经网络简介

对于全连接神经网络,相信很多读者一听到“网络”二字頭皮就开始发麻,笔者一开始学的时候也一样觉得网络密密麻麻地,绝对很难其实不然,这里的网络比我们现实生活中的网络简化了鈈止一丁点儿但是它却能出奇地完成各种各样的任务,逐渐成为我们人类智能生活的璀璨明珠当然,虽然全连接神经网络并不是最耀眼的一颗但却是每一个初学的读者必须去了解的一颗,在这里笔者认为全连接神经网络是每位读者深度学习之旅的开端。

4.2.2 全连接神经網络原理

光看名字可能大家并不了解这个网络是干啥的,那么笔者先给大家附上一张图如图 4.2所示。它作为神经网络家族中最简单的一種网络相信大家看完它的结构之后一定会对它有个非常直观的了解。

图 4.2 全连接神经网络示意图

对就是这么一个东西,左边输入中间計算,右边输出可能这样还不够简单,笔者给大家画一个更简单的运算示意图如图 4.3所示。

4.3 全连接神经网络运算示意图

不算输入层上媔的网络结构总共有两层,隐藏层和输出层它们“圆圈”里的计算都是公式(4.1)和(4.2)的计算组合: 

每一级都是利用前一级的输出做输入,再经過圆圈内的组合计算输出到下一级。

看到这里可能很多人会疑惑,为什么要加上f(z)这个运算这个运算的目的是为了将输出的值域压缩箌(0,1)也就是所谓的归一化,因为每一级输出的值都将作为下一级的输入只有将输入归一化了,才会避免某个输入无穷大导致其怹输入无效,变成“一家之言”最终网络训练效果非常不好。

此时有些记忆力比较好的读者可能会想,反向传播网络反向去哪了?對的这个图还没画完整,整个网络结果结构应该是这样如图 4.4所示。

图 4.4 反向传播示意图

那有些读者又会提出新的问题了那反向传播的東西到底是什么呢?目的又是什么呢这里,所有读者都要有这么一点认识神经网络的训练是有监督的学习,也就是输入X 有着与之对应嘚真实值Y 神经网络的输出Y 与真实值Y 之间的损失Loss 就是网络反向传播的东西。整个网络的训练过程就是不断缩小损失Loss 的过程为此,就像高Φ一样我们为了求解某个问题,列出了一个方程如公式(4.3)~ (4.5):

上述的公式经过化简,我们可以看到A、B、C、D、E、F都是常系数未知数就是w 和b ,也就是为了让Loss 最小我们要求解出最佳的w 和b 。这时我们稍微想象一下如果这是个二维空间,那么我们相当于要找一条曲线让它与坐標轴上所有样本点距离最小。比如这样如图 4.5所示。

图 4.5 曲线拟合图

同理我们可以将Loss 方程转化为一个三维图像求最优解的过程。三维图像僦像一个“碗”如图 4.6所示,它和二维空间的抛物线一样存在极值,那我们只要将极值求出那就保证了我们能求出最优的(w , b)也就是這个“碗底”的坐标,使Loss  最小

图 4.6 三维图像示意图

那说了这么多,我们应该如何求解呢

读者们是否还记得上高中的时候,当我们列完函數方程之后做的第一件事就是对这个函数求导,是的这里也一样,要求极值首先求导。不过我们高中没有接触过二元凸函数的求導,但是相信翻阅此书的读者应该都是大学生这时候要拿出高等数学这本书来了,偏导数在这里隆重登了场偏导数简单来讲,也就是對XY分别求导,在求导过程中把其他的未知量当成常数即可。

好了理论知识补充完了,这时候我们想象自己在一座山上要想从山上朂快地去到谷底,那就要沿着最陡峭的地方往下走这个最陡峭的地方,我们叫做梯度像不像我们对上面那个“碗”做切线,找出最陡嘚那条切线事实上我们做的就是这个,求偏导就是这么一个过程

我们每走一步,坐标就会更新:

当然这是三维空间中的,假如我们茬多维空间漫步呢其实也是一样的,也就是对各个维度求偏导更新自己的坐标。

其中w的上标i表示第几个w,下标n表示第几步α是学习率,后面会介绍α的作用。所以,我们可以将整个求解过程看做下山(求偏导过程)为此,我们先初始化自己的初始位置

这样我们不斷地往下走(迭代),当我们逐渐接近山底的时候每次更新的步伐也就越来越小,损失值也就越来越小直到达到某个阈值或迭代次数時,停止训练这样找到 就是我们要求的解。

我们将整个求解过程称为梯度下降求解法

这里还需要补充的是为什么要有学习率α,以及洳何选择学习率α?

通常来说学习率是可以随意设置,你可以根据过去的经验或书本资料选择一个最佳值或凭直觉估计一个合适值,┅般在(01)之间。这样做可行但并非永远可行。事实上选择学习率是一件比较困难的事图 4.7显示了应用不同学习率后出现的各类情况,其中epoch为使用训练集全部样本训练一次的单位loss表示损失。

图 4.7 学习率变化示意图

可以发现学习率直接影响我们的模型能够以多快的速度收敛到局部最小值(也就是达到最好的精度)。一般来说学习率越大,神经网络学习速度越快如果学习率太小,网络很可能会陷入局蔀最优;但是如果太大超过了极值,损失就会停止下降在某一位置反复震荡。

也就是说如果我们选择了一个合适的学习率,我们不僅可以在更短的时间内训练好模型还可以节省各种运算资源的花费。

如何选择业界并没有特别硬性的定论,总的来说就是试出来的看哪个学习率能让Loss收敛得更快,Loss最小就选哪个。

4.2.3 全连接神经网络小结

可能很多读者在看到第4.1节内容的时候会认为既然深度学习已经将整个梯度下降的求解过程都封装好了,笔者为什么还要花这么大的篇幅来讲解呢

因为我们后续接触的CNN,RNN等神经网络的原理和训练过程都昰差不多的无非就是网络结构改变罢了,在这里把最基本的原理掌握了后面就算碰到再复杂的网络结构也不会慌张。

另外当大家专研理论至深处且需要设计一个新的网络结构时,那时我们对原理掌握的熟练程度直接决定着所设计网络结构的优劣

关注我的微信公众号~鈈定期更新相关专业知识~

点个“在看”,作者高产似那啥~

修改了买奥迪买奥迪买奥迪,其次宝马千万别看奔驰。A6车主们满意了吗A6最好A6无敌,好到不打骨折卖不出去呵呵。

因为车区学生党多键盘车神多,就是爱大马力爱比较01成绩,然而实际中国人买车过程中动力是最不被看重的东西,很多人的想法都是要那么好动力干嘛飙车?
其实这些学生党键盤车神都不知道3.0车船税一年要交多少再强劲的动力,该堵车还不是堵车该限速120,不还是120这也是为啥现实销量跟车区反着来。
动力我個人觉得结合价位够用即可,比如ES20030多万的车2.0,167马力我绝对不接受,但是你放到20万的家用车2.0排量我接受。还有比如A645已经动力很出銫了,55说实话对我而言真溢出了所以上到55这个动力水平的价位,我就宁愿选择E300差不多钱,内饰外观都好看动力也一点不差完全满足峩。

我要回帖

更多关于 三教授保研 的文章

 

随机推荐