深度学习概念的研究领域是否有被过度夸大

这篇综述论文列举出了近年来深度学习的重要研究成果,从方法、架构,以及正则化、优化技术方面进行概述。机器之心认为,这篇综述对于刚入门的深度学习新手是一份不错的参考资料,在形成基本学术界图景、指导文献查找等方面都能提供帮助。

摘要:深度学习机器学习和人工智能研究的最新趋势之一。它也是当今最流行的科学研究趋势之一。深度学习方法为计算机视觉机器学习带来了革命性的进步。新的深度学习技术正在不断诞生,超越最先进的机器学习甚至是现有的深度学习技术。近年来,全世界在这一领域取得了许多重大突破。由于深度学习正快度发展,导致了它的进展很难被跟进,特别是对于新的研究者。在本文中,我们将简要讨论近年来关于深度学习的最新进展。

深度学习」(DL)一词最初在 1986 被引入机器学习(ML),后来在 2000 年时被用于人工神经网络(ANN)。深度学习方法由多个层组成,以学习具有多个抽象层次的数据特征。DL 方法允许计算机通过相对简单的概念来学习复杂的概念。对于人工神经网络(ANN),深度学习(DL)(也称为分层学习(Hierarchical Learning))是指在多个计算阶段中精确地分配信用,以转换网络中的聚合激活。为了学习复杂的功能,深度架构被用于多个抽象层次,即非线性操作;例如 ANNs,具有许多隐藏层。用准确的话总结就是,深度学习机器学习的一个子领域,它使用了多层次的非线性信息处理和抽象,用于有监督或无监督的特征学习、表示、分类和模式识别

深度学习表征学习机器学习的一个分支或子领域,大多数人认为近代深度学习方法是从 2006 开始发展起来的。本文是关于最新的深度学习技术的综述,主要推荐给即将涉足该领域的研究者。本文包括 DL 的基本思想、主要方法、最新进展以及应用。

综述论文是非常有益的,特别是对某一特定领域的新研究人员。一个研究领域如果在不久的将来及相关应用领域中有很大的价值,那通常很难被实时跟踪到最新进展。现在,科学研究是一个很有吸引力的职业,因为知识和教育比以往任何时候都更容易分享和获得。对于一种技术研究的趋势来说,唯一正常的假设是它会在各个方面有很多的改进。几年前对某个领域的概述,现在可能已经过时了。

考虑到近年来深度学习的普及和推广,我们简要概述了深度学习神经网络(NN),以及它的主要进展和几年来的重大突破。我们希望这篇文章将帮助许多新手研究者在这一领域全面了解最近的深度学习的研究和技术,并引导他们以正确的方式开始。同时,我们希望通过这项工作,向这个时代的顶级 DL 和 ANN

在本论文中,我们首先简述过去的研究论文,对深度学习的模型和方法进行研究。然后,我们将开始描述这一领域的最新进展。我们将讨论深度学习(DL)方法、深度架构(即深度神经网络(DNN))和深度生成模型(DGM),其次是重要的正则化和优化方法。此外,用两个简短的部分对于开源的 DL 框架和重要的 DL 应用进行总结。我们将在最后两个章节(即讨论和结论)中讨论深入学习的现状和未来。

在过去的几年中,有许多关于深度学习的综述论文。他们以很好的方式描述了 DL 方法、方法论以及它们的应用和未来研究方向。这里,我们简要介绍一些关于深度学习的优秀综述论文。

Young 等人(2017)讨论了 DL 模型和架构,主要用于自然语言处理(NLP)。他们在不同的 NLP 领域中展示了 DL 应用,比较了 DL 模型,并讨论了可能的未来趋势。

Zhang 等人(2017)讨论了用于前端和后端语音识别系统的当前最佳深度学习技术。

Zhu 等人(2017)综述了 DL 遥感技术的最新进展。他们还讨论了开源的 DL 框架和其他深度学习的技术细节。

Wang 等人(2017)以时间顺序的方式描述了深度学习模型的演变。该短文简要介绍了模型,以及在 DL 研究中的突破。该文以进化的方式来了解深度学习的起源,并对神经网络的优化和未来的研究做了解读。

Goodfellow 等人(2016)详细讨论了深度网络和生成模型,从机器学习(ML)基础知识、深度架构的优缺点出发,对近年来的 DL 研究和应用进行了总结。

LeCun 等人(2015)从卷积神经网络(CNN)和递归神经网络(RNN)概述了深度学习(DL)模型。他们从表征学习的角度描述了 DL,展示了 DL 技术如何工作、如何在各种应用中成功使用、以及如何对预测未来进行基于无监督学习(UL)的学习。同时他们还指出了 DL 在文献目录中的主要进展。

Schmidhuber(2015)从 CNN、RNN 和深度强化学习 (RL) 对深度学习做了一个概述。他强调了序列处理的 RNN,同时指出基本 DL 和 NN 的局限性,以及改进它们的技巧。

Nielsen (2015) 用代码和例子描述了神经网络的细节。他还在一定程度上讨论了深度神经网络深度学习

Schmidhuber (2014) 讨论了基于时间序列的神经网络、采用机器学习方法进行分类,以及在神经网络中使用深度学习的历史和进展。

Deng 和 Yu (2014) 描述了深度学习类别和技术,以及 DL 在几个领域的应用。

Bengio (2013) 从表征学习的角度简要概述了 DL 算法,即监督和无监督网络、优化和训练模型。他聚焦于深度学习的许多挑战,例如:为更大的模型和数据扩展算法,减少优化困难,设计有效的缩放方法等。

Bengio 等人 (2013) 讨论了表征和特征学习即深度学习。他们从应用、技术和挑战的角度探讨了各种方法和模型。

Deng (2011) 从信息处理及相关领域的角度对深度结构化学习及其架构进行了概述。

Bengio (2009) 讨论了深度架构,即人工智能的神经网络生成模型

最近所有关于深度学习(DL)的论文都从多个角度讨论了深度学习重点。这对 DL 的研究人员来说是非常有必要的。然而,DL 目前是一个蓬勃发展的领域。在最近的 DL 概述论文发表之后,仍有许多新的技术和架构被提出。此外,以往的论文从不同的角度进行研究。我们的论文主要是针对刚进入这一领域的学习者和新手。为此,我们将努力为新研究人员和任何对这一领域感兴趣的人提供一个深度学习的基础和清晰的概念。

在本节中,我们将讨论最近从机器学习和人工神经网络 (ANN) 的中衍生出来的主要深度学习 (DL) 方法,人工神经网络深度学习最常用的形式。

3.1 深度架构的演变

人工神经网络 (ANN) 已经取得了长足的进步,同时也带来了其他的深度模型。第一代人工神经网络由简单的感知器神经层组成,只能进行有限的简单计算。第二代使用反向传播,根据错误率更新神经元权重。然后支持向量机 (SVM) 浮出水面,在一段时间内超越 ANN。为了克服反向传播的局限性,人们提出了受限玻尔兹曼机(RBM),使学习更容易。此时其他技术和神经网络也出现了,如前馈神经网络 (FNN)、卷积神经网络 (CNN)、循环神经网络 (RNN) 等,以及深层信念网络、自编码器等。从那时起,为实现各种用途,ANN 在不同方面得到了改进和设计。

的进化和历史以及深度学习 (DL) 进行了详细的概述。在大多数情况下,深层架构是简单架构的多层非线性重复,这样可从输入中获得高度复杂的函数。

深度神经网络监督学习中取得了巨大的成功。此外,深度学习模型在无监督、混合和强化学习方面也非常成功。

监督学习应用在当数据标记、分类器分类或数值预测的情况。LeCun 等人 (2015) 对监督学习方法以及深层结构的形成给出了一个精简的解释。Deng 和 Yu(2014) 提到了许多用于监督和混合学习的深度网络,并做出解释,例如深度堆栈网络 (DSN) 及其变体。Schmidthuber(2014) 的研究涵盖了所有神经网络,从早期神经网络到最近成功的卷积神经网络 (CNN)、循环神经网络 (RNN)、长短期记忆 (LSTM) 及其改进。

4.2 深度无监督学习

当输入数据没有标记时,可应用无监督学习方法从数据中提取特征并对其进行分类或标记。LeCun 等人 (2015) 预测了无监督学习深度学习中的未来。Schmidthuber(2014) 也描述了无监督学习神经网络。Deng 和 Yu(2014) 简要介绍了无监督学习的深度架构,并详细解释了深度自编码器。

强化学习使用奖惩系统预测学习模型的下一步。这主要用于游戏和机器人,解决平常的决策问题。Schmidthuber(2014) 描述了强化学习 (RL) 中深度学习的进展,以及深度前馈神经网络 (FNN) 和循环神经网络 (RNN) 在 RL 中的应用。Li(2017) 讨论了深度强化学习

在本节中,我们将简要地讨论深度神经网络 (DNN),以及它们最近的改进和突破。神经网络的功能与人脑相似。它们主要由神经元和连接组成。当我们说深度神经网络时,我们可以假设有相当多的隐藏层,可以用来从输入中提取特征和计算复杂的函数。Bengio(2009) 解释了深度结构的神经网络,如卷积神经网络 (CNN)、自编码器 (AE) 等及其变体。Deng 和 Yu(2014) 详细介绍了一些神经网络架构,如 AE 及其变体。Goodfellow 等 (2016) 对深度前馈网络、卷积网络、递归网络及其改进进行了介绍和技巧性讲解。Schmidhuber(2014) 提到了神经网络从早期神经网络到最近成功技术的完整历史。

自编码器 (AE) 是神经网络 (NN),其中输出即输入。AE 采用原始输入,编码为压缩表示,然后解码以重建输入。在深度 AE 中,低隐藏层用于编码,高隐藏层用于解码,误差反向传播用于训练.。

变分自动编码器 (VAE) 可以算作解码器。VAE 建立在标准神经网络上,可以通过随机梯度下降训练 (Doersch,2016)。

5.1.2 多层降噪自编码器

在早期的自编码器 (AE) 中,编码层的维度比输入层小(窄)。在多层降噪自编码器 (SDAE) 中,编码层比输入层宽 (Deng and Yu, 2014)。

深度自动编码器 (DAE) 可以是转换可变的,也就是从多层非线性处理中提取的特征可以根据学习者的需要而改变。变换自编码器 (TAE) 既可以使用输入向量,也可以使用目标输出向量来应用转换不变性属性,将代码引导到期望的方向

5.2 深度卷积神经网络

四种基本思想构成了卷积神经网络 (CNN),即:局部连接、共享权重池化和多层使用。CNN 的第一部分由卷积层和池化层组成,后一部分主要是全连接层。卷积层检测特征的局部连接,池层将相似的特征合并为一个。CNN 在卷积层中使用卷积而不是矩阵乘法。

进行卷积运算,采用线性整流函数 (ReLU) 作为激活函数,用 Dropout 来减少过拟合

Goodfellow 等人 (2016) 解释了 CNN 的基本架构和思想。Gu 等人 (2015) 对 CNN 的最新进展、CNN 的多种变体、CNN 的架构、正则化方法和功能以及在各个领域的应用进行了很好的概述。

5.2.1 深度最大池化卷积神经网络

最大池化卷积神经网络 (MPCNN) 主要对卷积和最大池化进行操作,特别是在数字图像处理中。MPCNN 通常由输入层以外的三种层组成。卷积层获取输入图像并生成特征图,然后应用非线性激活函数。最大池层向下采样图像,并保持子区域的最大值。全连接层进行线性乘法。在深度 MPCNN 中,在输入层之后周期性地使用卷积和混合池化,然后是全连接层。

5.2.2 极深的卷积神经网络

(2016) 提出了另一种文本分类的 VDCNN 架构,使用小卷积和池化。他们声称这个 VDCNN 架构是第一个在文本处理中使用的,它在字符级别上起作用。该架构由 29 个卷积层组成。

处理微神经网络和全局平均池化层,而不是全连接层。深度 NIN 架构可以由 NIN 结构的多重叠加组成。

5.4 基于区域的卷积神经网络

使用区域来定位和分割目标。该架构由三个模块组成:定义了候选区域的集合的类别独立区域建议,从区域中提取特征的大型卷积神经网络 (CNN),以及一组类特定的线性支持向量机 (SVM)。

Girshick(2015) 提出了快速的基于区域的卷积网络 (Fast R-CNN)。这种方法利用 R-CNN 架构能快速地生成结果。Fast R-CNN 由卷积层和池化层、区域建议层和一系列全连接层组成。

是一个全卷积网络,能够准确、高效地生成区域建议 (Ren et al.,2015)。

何恺明等人 (2017) 提出了基于区域的掩模卷积网络 (Mask R-CNN) 实例目标分割。Mask R-CNN 扩展了 R-CNN 的架构,并使用一个额外的分支用于预测目标掩模。

专家网络而不是单一的 per-RoI 网络。每个专家都是来自 Fast R-CNN 的全连接层的相同架构。

He 等人 (2015) 提出的残差网络 (ResNet) 由 152 层组成。ResNet 具有较低的误差,并且容易通过残差学习进行训练。更深层次的 ResNet 可以获得更好的性能。在深度学习领域,人们认为 ResNet 是一个重要的进步。

Sabour 等人 (2017) 提出了胶囊网络 (CapsNet),即一个包含两个卷积层和一个全连接层的架构。CapsNet 通常包含多个卷积层,胶囊层位于末端。CapsNet 被认为是深度学习的最新突破之一,因为据说这是基于卷积神经网络的局限性而提出的。它使用的是一层又一层的胶囊,而不是神经元。激活的较低级胶囊做出预测,在同意多个预测后,更高级的胶囊变得活跃。在这些胶囊层中使用了一种协议路由机制。Hinton 之后提出 EM 路由,利用期望最大化 (EM) 算法对 CapsNet

循环神经网络 (RNN) 更适合于序列输入,如语音、文本和生成序列。一个重复的隐藏单元在时间展开时可以被认为是具有相同权重的非常深的前馈网络。由于梯度消失和维度爆炸问题,RNN 曾经很难训练。为了解决这个问题,后来许多人提出了改进意见。

Goodfellow 等人 (2016) 详细分析了循环和递归神经网络和架构的细节,以及相关的门控和记忆网络。

Karpathy 等人 (2015) 使用字符级语言模型来分析和可视化预测、表征训练动态、RNN 及其变体 (如 LSTM) 的错误类型等。

Peng 和 Yao(2015) 提出了利用外部记忆 (RNN-EM) 来改善 RNN 的记忆能力。他们声称在语言理解方面达到了最先进的水平,比其他 RNN 更好。

Chung 等 (2015) 提出了门控反馈递归神经网络 (GF-RNN),它通过将多个递归层与全局门控单元叠加来扩展标准的 RNN。

Zheng 等人 (2015) 提出条件随机场作为循环神经网络 (CRF-RNN),其将卷积神经网络 (CNN) 和条件随机场 (CRF) 结合起来进行概率图形建模。

Bradbury 等人 (2016) 提出了用于神经序列建模和沿时间步的并行应用的准循环神经网络 (QRNN)。

Weston 等人 (2014) 提出了问答记忆网络 (QA)。记忆网络由记忆、输入特征映射、泛化、输出特征映射和响应组成。

Kumar 等人 (2015) 提出了用于 QA 任务的动态记忆网络 (DMN)。DMN 有四个模块:输入、问题、情景记忆、输出。

Olah 和 Carter(2016) 很好地展示了注意力和增强循环神经网络,即神经图灵机 (NTM)、注意力接口、神经编码器和自适应计算时间。增强神经网络通常是使用额外的属性,如逻辑函数以及标准的神经网络架构。

Graves 等人 (2014) 提出了神经图灵机 (NTM) 架构,由神经网络控制器和记忆库组成。NTM 通常将 RNN 与外部记忆库结合。

5.9.3 神经随机存取机

Kurach 等人 (2015) 提出了神经随机存取机,它使用外部的可变大小的随机存取存储器。

Neelakantan 等人 (2015) 提出了神经编程器,一种具有算术和逻辑功能的增强神经网络

5.9.5 神经编程器-解释器

Reed 和 de Freitas(2015) 提出了可以学习的神经编程器-解释器 (NPI)。NPI 包括周期性内核、程序内存和特定于领域的编码器。

5.10 长短期记忆网络

是基于循环网络和基于梯度的学习算法,LSTM 引入自循环产生路径,使得梯度能够流动。

Greff 等人 (2017) 对标准 LSTM 和 8 个 LSTM 变体进行了大规模分析,分别用于语音识别、手写识别和复调音乐建模。他们声称 LSTM 的 8 个变种没有显著改善,而只有标准 LSTM 表现良好。

Shi 等人 (2016b) 提出了深度长短期记忆网络 (DLSTM),它是一个 LSTM 单元的堆栈,用于特征映射学习表示。

LSTM 之间创建一个信息交换通道,以学习更好的表征。

5.11 谷歌神经机器翻译

Wu 等人 (2016) 提出了名为谷歌神经机器翻译 (GNMT) 的自动翻译系统,该系统结合了编码器网络、解码器网络和注意力网络,遵循共同的序列对序列 (sequence-to-sequence) 的学习框架。

Lample 等人 (2017) 提出了 Fader 网络,这是一种新型的编码器-解码器架构,通过改变属性值来生成真实的输入图像变化。

Ha 等人 (2016) 提出的超网络(Hyper Networks)为其他神经网络生成权值,如静态超网络卷积网络、用于循环网络的动态超网络。

Srivastava 等人 (2015) 提出了高速路网络(Highway Networks),通过使用门控单元来学习管理信息。跨多个层次的信息流称为信息高速路。

Donahue 等人 (2014) 提出了长期循环卷积网络 (LRCN),它使用 CNN 进行输入,然后使用 LSTM 进行递归序列建模并生成预测。

5.18 卷积残差记忆网络

Moniz 和 Pal(2016) 提出了卷积残差记忆网络,将记忆机制并入卷积神经网络 (CNN)。它用一个长短期记忆机制来增强卷积残差网络。

Larsson 等人 (2016) 提出分形网络即 FractalNet 作为残差网络的替代方案。他们声称可以训练超深度的神经网络而不需要残差学习。分形是简单扩展规则生成的重复架构。

Vinyals 等人 (2017) 提出了指针网络 (Ptr-Nets),通过使用一种称为「指针」的 softmax 概率分布来解决表征变量字典的问题。

在本节中,我们将简要讨论其他深度架构,它们使用与深度神经网络类似的多个抽象层和表示层,也称为深度生成模型 (deep generate Models, DGM)。Bengio(2009) 解释了深层架构,例如 Boltzmann machine

Goodfellow 等人 (2016) 详细解释了深度生成模型,如受限和非受限的玻尔兹曼机及其变种、深度玻尔兹曼机、深度信念网络 (DBN)、定向生成网络和生成随机网络等。

Maal?e 等人(2016)提出了辅助的深层生成模型(Auxiliary Deep Generative Models),在这些模型中,他们扩展了具有辅助变量的深层生成模型。辅助变量利用随机层和跳过连接生成变分分布。

Rezende 等人 (2016) 开发了一种深度生成模型的单次泛化。

玻尔兹曼机是学习任意概率分布的连接主义方法,使用最大似然原则进行学习。

6.2 受限玻尔兹曼机

受限玻尔兹曼机 (Restricted Boltzmann Machines, RBM) 是马尔可夫随机场的一种特殊类型,包含一层随机隐藏单元,即潜变量和一层可观测变量。

是朗伯反射率与高斯受限玻尔兹曼机和深度信念网络的结合。

6.5.1 拉普拉斯生成对抗网络

Denton 等人 (2015) 提出了一种深度生成模型 (DGM),叫做拉普拉斯生成对抗网络 (LAPGAN),使用生成对抗网络 (GAN) 方法。该模型还在拉普拉斯金字塔框架中使用卷积网络。

6.6 循环支持向量机

Shi 等人 (2016a) 提出了循环支持向量机 (RSVM),利用循环神经网络 (RNN) 从输入序列中提取特征,用标准支持向量机 (SVM) 进行序列级目标识别。

在本节中,我们将简要概述一些主要的技术,用于正则化和优化深度神经网络 (DNN)。

Srivastava 等人 (2014) 提出 Dropout,以防止神经网络过拟合。Dropout 是一种神经网络模型平均正则化方法,通过增加噪声到其隐藏单元。在训练过程中,它会从神经网络中随机抽取出单元和连接。Dropout 可以用于像 RBM

Krueger 等人 (2016) 提出了循环神经网络 (RNN) 的正则化方法 Zoneout。Zoneout 在训练中随机使用噪音,类似于 Dropout,但保留了隐藏的单元而不是丢弃。

He 等人 (2015) 提出了深度残差学习框架,该框架被称为低训练误差的 ResNet。

Ioffe 和 Szegedy(2015) 提出了批归一化,通过减少内部协变量移位来加速深度神经网络训练的方法。Ioffe(2017) 提出批重归一化,扩展了以前的方法。

Hinton 等人 (2015) 提出了将知识从高度正则化模型的集合 (即神经网络) 转化为压缩小模型的方法。

Ba 等人 (2016) 提出了层归一化,特别是针对 RNN 的深度神经网络加速训练,解决了批归一化的局限性。

在本节中,我们将简要地讨论一些最近在深度学习方面的杰出应用。自深度学习 (DL) 开始以来,DL 方法以监督、非监督、半监督或强化学习的形式被广泛应用于各个领域。从分类和检测任务开始,DL 应用正在迅速扩展到每一个领域。

  • 文本、语音、图像和视频处理

  • 分类和可视化动作捕捉序列

Deng 和 Yu(2014) 提供了 DL 在语音处理、信息检索、目标识别、计算机视觉、多模态、多任务学习等领域应用的详细列表。

使用深度强化学习 (Deep Reinforcement Learning, DRL) 来掌握游戏已经成为当今的一个热门话题。每到现在,人工智能机器人都是用 DNN 和 DRL 创建的,它们在战略和其他游戏中击败了人类世界冠军和象棋大师,从几个小时的训练开始。例如围棋的 AlphaGo 和 AlphaGo Zero。

尽管深度学习在许多领域取得了巨大的成功,但它还有很长的路要走。还有很多地方有待改进。至于局限性,例子也是相当多的。例如:Nguyen 等人表明深度神经网络(DNN)在识别图像时容易被欺骗。还有其他问题,如 Yosinski 等人提出的学习的特征可迁移性。Huang 等人提出了一种神经网络攻击防御的体系结构,认为未来的工作需要防御这些攻击。Zhang 等人则提出了一个理解深度学习模型的实验框架,他们认为理解深度学习需要重新思考和概括。

方法的局限性,即需要更多的数据,容量有限,不能处理层次结构,无法进行开放式推理,不能充分透明,不能与先验知识集成,不能区分因果关系。他还提到,DL 假设了一个稳定的世界,以近似方法实现,工程化很困难,并且存在着过度炒作的潜在风险。Marcus 认为 DL 需要重新概念化,并在非监督学习、符号操作和混合模型中寻找可能性,从认知科学和心理学中获得见解,并迎接更大胆的挑战。

尽管深度学习(DL)比以往任何时候都更快地推进了世界的发展,但仍有许多方面值得我们去研究。我们仍然无法完全地理解深度学习,我们如何让机器变得更聪明,更接近或比人类更聪明,或者像人类一样学习。DL 一直在解决许多问题,同时将技术应用到方方面面。但是人类仍然面临着许多难题,例如仍有人死于饥饿和粮食危机, 癌症和其他致命的疾病等。我们希望深度学习和人工智能将更加致力于改善人类的生活质量,通过开展最困难的科学研究。最后但也是最重要的,愿我们的世界变得更加美好。

深度学习在控制领域的研究现状与展望

深度学习在控制领域的研究现状与展望

摘要 深度学习在特征提取与模型拟合方面显示了其潜力和优势。对于存在高维数据的控制系统,引入深度学习具有一定的意义。近年来,已有一些研究关注深度学习在控制领域的应用。本文介绍了深度学习在控制领域的研究方向和现状,包括控制目标识别、状态特征提取、系统参数辨识和控制策略计算。并对相关的深度控制以及自适应动态规划与平行控制的方法和思想进行了描述。总结了深度学习在控制领域研究中的主要作用和存在的问题,展望了未来值得研究的方向。

近年来,深度学习(Deep learning)[1]在学术界和工业界发展迅猛. 它在很多传统的识别任务上取得了识别率的显著提升[2],显示了其处理复杂识别任务的能力,吸引了大批学者研究其理论和应用。许多领域开始尝试利用深度学习解决本领域的一些问题。在控制领域,关于深度学习的研究已初现端倪。本文在概述深度学习的主要思想和方法的基础上,阐述深度学习在控制领域的研究现状,回顾相关的深度网络与深度控制的研究内容,介绍深度学习在控制领域常用的结合方法;自适应动态规划及其拓展平行控制。综合以上内容提出深度学习在控制领域的研究。

深度学习源于神经网络的研究,可理解为深层的神经网络。通过它可以获得深层次的特征表示,免除人工选取特征的繁复冗杂和高维数据的维度灾难问题。 目前较为公认的深度学习的基本模型包括基于受限玻尔兹曼机(Restricted Boltzmann machine, RBM)的深度信念网络(Deep belief net-work, DBN)[3, 4]、基于自动编码器(Auto RNN)[7]。为便于清楚地阐述深度学习在控制领域的研究现状,本节将概述以上四种深度学习模型的主要思想和方法。关于深度学习的更多内容,参见深度学习领域的综述[1, 8-11]

learning)。全局微调阶段, 以训练好的RBM 之间的权重和偏置作为深度信念网络的初始权重和偏置, 以数据的标签作为监督信号计算网络误差, 利用BP(Back propagation) 算法计算各层误差, 使用梯度下降法完成各层权重和偏置的调节。DBN 可用于特征提取和数据分类等。

AE 之间的连接是不对称的. 每个AE可视为一个单隐层的人工神经网络, 其输出目标即此AE 的输入. 在预训练阶段, 从低层开始, 每个AE 单独训练, 以最小化其输出与输入之间的误差

在全局微调阶段,以训练好的AE 的输入层和隐层之间的权重和偏置作为堆叠自动编码器的初始权重和偏置, 以数据的标签作为监督信号计算网络误差, 利用BP 算法计算各层误差, 使用梯度下降法完成各层权重和偏置的调节。

。网络前向计算时, 在卷积层, 可同时有多个卷积核对输入进行卷积运算, 生成多个特征图, 每个特征图的维度相对于输入的维度有所降低. 在次采样层, 每个特征图经过池化(Pooling) 得到维度进一步降低的对应图. 多个卷积层和次采样层交叉堆叠后, 经过全连接层到达网络输出. 网络的训练类似于传统的人工神经网络训练方法, 采用BP 算法将误差逐层反向传递, 使用梯度下降法调整各层之间的参数。CNN 可提取输入数据的局部特征,并逐层组合抽象生成高层特征,可用于图像识别等问题。

RNN 则考虑了样本之间的关联关系, 将这种关联关系以神经网络之间的连接体现出来. 一般情况下, 单向 RNN[12]中, 如图4 所示, 单个神经网络的隐层连接至下一个神经网络的隐层。这种连接方式考虑了前面样本对后面样本的影响。还有一种双向RNN[13]的连接方式, 单个神经网络的隐层连接了其前后神经网络的隐层。这种连接方式考虑了前后样本对当前样本的影响 。一般认为RNN 的各个神经网络具有相同的权重和偏置。RNN 训练时, 可使用RBM 或者AE 对其进行预训练来初始化网络参数, 然后计算每个样本的输出误差, 并以累计误差训练网络参。RNN 可用于处理时序数据或者前后关联数据. RNN 还可以和CNN结合使用, 处理考虑样本之间相关性的问题。

2 深度学习在控制领域的研究现状

深度学习在控制领域的研究已初现端倪。就已有的研究报道, 目前的研究主要集中在控制目标识别、状态特征提取、 系统参数辨识、 控制策略计算等方面。尤其是深度学习和强化学习的结合已经产生了令人振奋的研究成果。如图5 所示, 深度学习在控制系统的各环节均有应用研究, 本节从控制系统的角度分类, 从四个方面介绍深度学习在控制领域的研究现状。

在传统的控制系统中, 控制目标一般以给定量的形式直接给出. 而在智能控制系统中, 控制目标有时并不明确或者不能直接得到. 就已有研究深度学习进行控制目标识别的报道, 在先进机械手抓取系统[14]中, 系统首先需要检测被抓取物的位置、 识别被抓取物并估计其姿态以确定机械手需要到达的位置和角度. 本节以此为例说明深度学习在控制目标识别中的作用.图6 [14]显示了先进机械手抓取系统的流程. 输入数据是颜色深度图. 在物体检测过程中, 系统利用前景背景分割技术检测出物体位置. 然后从图片中分割出包含物体的统一大小图片. 在物体识别和姿态估计过程中, 获取的统一大小图片输入CNN 网络, 经过前向计算在网络输出端获得物体的类别. 该类别信息包含了物体的种类和姿态. 最后, 机械手按照规划的路径到达物体上方, 调整夹持器的姿态, 使得其姿态符合物体的姿态, 然后执行抓取动作。

, 即CNN 网络的输出层节点个数. 网络的输入是统一大小的图片, 以二维矩阵的方式输入网络. 所使用的CNN 通过卷积层和次采样层交叉堆叠的方式建立特征提取的网络,然后通过全连接层连接到输出层建立分类器. 网络结构建立后, 收集一定数量具有类别标记的图片样本, 一部分用于训练网络参数, 剩余部分用于测试网络性能. 经过迭代训练, 获取训练完成的CNN 网络.当有新的图片样本输入网络时, 网络经过前向计算,输出图片中物体的类别, 包括物体的种类和姿态. 机械手获取物体类别后, 在执行抓取动作之前, 将夹持器调整到和物体的姿态相一致的状态, 以完成抓取动作. 在这个系统中, 机械手抓取之前需要达到的姿态为机械手控制系统的控制目标, 此控制目标由物体的种类和姿态决定, 所以采用深度学习进行物体分类实质上在控制系统中起到了控制目标识别的用. 至于机械手如何达到控制目标则由系统的控制器决定。

现代控制理论引入了状态空间的概念, 以系统的状态为基础进行分析与综合. 在基于视觉的控制系统中, 系统状态由图片体现, 其维度高, 不容易进行人工特征抽取, 不利于系统的分析综合与控制。而深度学习十分适合对图片数据进行降维与特征抽取,所以深度学习在基于视觉的控制系统中研究较多。基于视觉的控制系统中, 深度学习多与强化学习方法结合, 使得系统能够根据深度学习提取的特征给出控制策略。在深度学习用于控制系统状态特征提取的研究中, 。Atari 是一款计算机游戏, 玩家通过计算机屏幕显示的游戏场景, 决策执行的游戏动作, 获得游戏得分的变化。在使用深度学习进行Atari 游戏的系统中, 游戏场景以图片的形式输入CNN 网络, Q 网络是用于获得系统预期回报函数的网络。在这个系统中, 可执行的动作集合包含有限个游戏动作元素, 而状态集合包含无限个场景状态元素。评价网络的输出层节点个数为可执行的游戏动作个数, 每个节点的输出即在输入场景下采用该节点所代表动作的预期回报。系统选择评价网络输出节点中预期回报最高的节点所代表的游戏动作执。Atari 游戏执行了游戏动作后,更新游戏场景图像并得到一个强化信号。

整个网络的权重参数根据强化学习的方法进行训练, 具体的训练方法和技巧不在本文介绍的范围,这里仅说明其主要思想. 当前时刻的预期回报一方面是当前时刻来自于游戏的强化信号与下一时刻来自于网络的最高预期回报之和, 另一方面也是当前时刻来自于网络的最高预期回报, 二者之间的差距即整个网络的损失函数, 训练的目标是最小化该损失函数。由此, 网络获得了可传递的误差用于网络参数的训练。据报道, 该系统在实验中的多个游戏任务上超越了人类的水平。

系统辨识是现代控制理论的重要研究内容, 它根据系统输入输出来确定描述系统的模型. 对于复杂的非线性动态系统, 其模型难以用线性函数或者根据先验知识建立。而神经网络具有拟合复杂非线性函数的能力, 可以用于系统辨识。但浅层神经网络在训练中容易受到局部最优等问题的影响, 有时并不能准确描述动态系统。深度学习的发展给解决这一问题带来了启发。已经有部分研究专注于利用深度学习的方法进行系统辨识. 由于系统模型由深度神经网络代替, 系统辨识任务就转变成深度神经网络的参数优化, 故而称这类任务为系统参数辨识。使用深度学习进行系统参数辨识的控制系统一般涉及模型预测控制. 模型预测控制的主要思想是在每个时刻基于系统当前状态和预测模型, 计算出系统未来一段时间的最优控制序列, 并执行序列的首个控制策略。其中, 预测模型使用深度学习实现.这类研究中, 直升机动态模型[19]使用深度ReLu 网络模型拟合, 主要思想是利用历史一段时间的数据预测未来时刻的加速度。切割机器人[20]考虑了系统状态在时间序列上的相关性, 使用RNN 构建系统动态模型,利用历史时间窗的系统状态预测未来时间窗的系统状态. 车杆摆动系统[21]使用深度神经网络拟合系统动态模型, 利用当前时刻的状态和控制输入预测下一时刻状态与当前时刻状态的差值。值得一提的是,在车杆摆动系统中, 深度网络经过训练能够拟合系统动态模型后, 在输出端引入一个新的节点代表预期回报函数。这样, 深度网络同时表达了系统动态模型和动作评价函数. 如图8[20]所示, st 表示系统在t 时刻的状态, ) 用于拟合系统动态模型. 然后忽略输出端的 st+1- st, 按照强化学习的方法, 每一步执行最优的动作并且根据每一步产生的回报训练Q 网络. 这种训练方法基于一个基本假设, 那就是对于状态预测有效的隐层特征有助于预期回报函数的预测。用深度网络拟合系统动

态模型的步骤相当于对Q 网络的预训练, 这一步不需要考虑回报。实验证明, 经过预训练的Q 网络能够比直接使用强化学习训练的Q 网络更快达到较好优化水平。

在单输出控制系统中, 控制策略指的是单一的控制量。而在智能控制系统中, 控制策略除了指单一控制量之外, 也可以指一串动作或一个决策。对于传统的控制器而言, 需要获取给定量和系统输出之间的差, 从而计算控制策略。而对于智能控制系统而言, 控制器获取系统状态进行控制策略计算。经典的PID 控制从系统机理出发设计控制器, 而深度神经网络是一个需要监督信号进行训练的模型。所以深度学习在控制策略计算方面的研究也主要集中在有监督信号的情形。

此类研究中, 有利用深度学习模型拟合PID 控制器的报道[22]。其主要思想是对于一个线性定常系统, 首先设计一个能够满足控制要求的PID 控制器。然后以DBN 网络替代PID 控制器。DBN网络的参数由PID 控制器的输入输出数据训练. 训练后的DBN 网络的输入是原来PID 控制器的输入, 经过前向计算的网络输出替代原来PID 的输出作为控制量。这项工作虽然没有说明深度学习用于此处的必要性和优势, 但是却证明了深度学习可以用于控制策略计算. 有研究比较单层网络、 多层网络和RNN 网络分别用于粗糙地形运动系统[23]。在这项研究中, 网络使用状态作为输入, 动作作为输出。而训练则采用引导策略搜索法, 需要的监督信号来源于已有的范例. 网络从已有的成功的运动范例中采样其状态 – 动作样本, 用于网络训练. 此研究的实验结果表明多层网络或RNN 网络需要更多的训练样本才能达到比较好的性能, 而随着样本数目的增加,二者的表现性能都有超越单层网络的趋势。训练好的网络对于新的状态输入, 能够通过前向计算给出需要执行的动作, 即本系统的控制策略。在运动控制函数[24]的研究中, 使用深度网络计算从初始状态到目标状态的控制指令序列和状态轨迹序列。其中, 初始状态和目标状态作为网络的输入, 控制指令序列和状态轨迹序列作为网络的输出。

比较特别的是,在运动控制函数的研究中, 输入数据的维度远小于输出数据的维度. 研究中首先使用SAE 对输出数据进行降维. 降维过程中逐层训练AE 的阶段, 不同于一般的从底层开始逐层训练的方法, 这项研究从最顶层开始逐层训练AE. 如图9 所示, 高层AE 训练完后, 其隐层输出作为低层AE 的输入, 继续训练低层AE. SAE 训练完成后, 得到从低维特征到输出控制和轨迹序列的网络, 这里需要注意的是此网络取自SAE 的上半部分。然后使用神经网络将系统输入端连接至已经训练好的网络. 最后使用随机的到达样本对整个网络进行训练, 每个到达样本包含运动的初始状态、 目标状态和从初始状态到目标状态的轨迹。训练好的网络对于一个输入的初始状态和目标状态, 经过前向计算输出控制指令和运动轨迹序列。

3 深度网络与深度控制

早在深度学习出现之前, 就有学者曾利用多层神经网络实现一种自适应模糊逻辑控制系统[25]从今天的角度看, 可以称为深度模糊控制网络. 另外,Saridis 及合作者在研究智能机控制理论的过程中,曾采用玻尔兹曼机的结构和最小化网络能量的方法用于智能机的 “组织” 阶段, 即获取最优任务( 动作)序列[26, 27]这些方法、 思想和当前的深度学习方法具有一定的相似性和不同之处. 期望本节的介绍能够拓宽深度学习在控制领域的研究思路, 激发深度学习在控制领域的研究灵感。

3.1深度模糊控制网络

深度模糊控制网络系统的目标是开发一种基于模糊逻辑和神经网络实现拟人控制的方法, 该方法主要针对这样一类系统: 构建数学模型不可行或难以实行;熟练操作人员的知识可用于实现控制目的。因此人类控制涉及的知识表示和知识进化在此系统中均有体现。如图10 所示, 该系统包含3 类子网络:SN 、RN 和CN, 分别用于模式识别、 模糊推理和控制合成 。

模式识别神经网络实现输入信号的模糊化. 具体地, 将输入信号通过隶属度函数映射为模糊语义项的隶属度. 图10 的示例中, 有两个输入信号, 每个信号分别对应三个模糊语义项. 此处的模糊语义项描述了信号模式. 语义项的隶属度在0 到1 之间, 表示输入信号符合语义项描述的程度. SN 被训练以替代隶属度函数. 输入信号的模糊化完成后, 语义项及其隶属度作为输入进入模糊推理神经网络. 该子网络运用规则集( 知识库)进行模糊推理. 具体地, 利用满足输入信号模糊语义项的规则进行推理, 计算出每条决策规则的耦合强度. 图10 的示例中, 有九条决策规则,每条规则遵循if-then的决策模式. 每条规则对应一个RN. 对于一个输入信号, 每条规则的条件只含有其一个模糊语义项. 所以对于图10 的示例, 每个RN 的输入是两个模糊语义项, 分别来源于两个不同的SN. 每个RN 被训练以替代规则集中的决策规则. RN 输出规则的耦合度作为控制合成神经网络的输入, 此网络利用一系列步骤和控制模糊语义项的隶属度函数输出最终的控制量. 这些步骤包括单个规则的推理, 产生模糊控制量和解模糊. 这些步骤均使用CN 网络替代完成. SN 、RN 和CN网络构造完成后, 可以连接成如图10 所示的深度模糊控制网络, 在3 个子网络分别训练的基础上进行全局训练, 进一步优化控制效果. 深度模糊控制网络能够实现从采集状态信号到输出控制变量的全过程,更具体的过程参见文献 [25], 此处不再赘述。

习的硬件实现. 能有效结合在线的实时决策与远程的云计算, 从而低成本地提高系统性能。通过对以上方法的介绍, 我们可以发现, 此方法和现在的深度学习方法既有共通之处又有不同特点。二者从整体上看都是多层神经网络结构, 均是由不同的神经网络模块组合而成 。二者都可以采用预训练和全局微调的训练过程. 不同的是, 前者可采用并行的方式对3 个子网分别训练, 而后者需采用串行的方式逐层训练。前者将人类知识以规则的形式嵌入网络, 子网训练过程使用了这些规则提供的启发式信息。后者在子网训练过程中一般采用自动训练的方法, 减少人为干预. 对于网络结构和训练结果,前者可解释其含义, 后者则不可解释。深度模糊控制网络最大的特点是包含知识结构, 网络结构融合了知识表示, 训练学习过程蕴含了知识进化。

Saridis 开发了一种分层递阶智能控制方法, 将智能机的控制分为3 个阶段:组织、 协调和执行[31]。其中, 组织阶段负责智能机的任务规划, 主要问题是对期望的动作构建最小化熵的正确任务序列。Saridis 及合作者利用玻尔兹曼机建立了熵的解析方法来衡量任务序列的正确性。玻尔兹曼机的构建方法: 输入节点表示期望的目标; 输出节点表示为满足目标智能机需要执行的任务序列; 隐藏节点使得输入和输出节点之间能够发展复杂的交互。节点的状态是1 或0, 表示任务执行或不执行. 熵定义成任务序列正确概率的函数, 任务序列正确概率定义成网络能量的函数, 而网络能量由节点状态和节点之间的权重计算得到。在一定的约束条件下, 网络能量越小, 任务序列的正确概率越大, 熵越小 。玻尔兹曼机通常使用网络能量作为代价函数, 通过最小化网络能量找到节点最优状态 。类似地, 这里以最小化熵为目标, 利用最优化方法, 例如遗传算法等, 搜索出最优的网络权重, 计算出对应的节点状态. 从而获得最优节点状态对应的最优任务序列。

4 自适应动态规划与平行控制

从深度学习在控制领域的研究现状可以看出,强化学习方法中的自适应动态规划方法在深度控制系统的实现中起到重要的作用. 本节主要对自适应动态规划方法进行介绍, 进而引出其在复杂系统中的扩展: 平行控制。 

为实现最优控制, 自适应动态规划方法和深度学习的结合是研究深度控制的关键领域 。最优控制以性能指标最优为目的, 是在上世纪50 年代起发展起来的重要控制领域 。其不但在工程控制中具有重要意义, 在社会经济系统的管理中也有着重要的应用。由Bellman 提出的动态规划方法[32]以倒推的思想,求解最优控制的Bellman 方程: 

需要存储不同状态下的最优性能指标J?(x(k)), 进而通过求解Bellman 方程(1) 中的最优性能条件得到针对任意状态的最优控制. 动态规划方法可用于求解闭环形式的最优控制, 且广泛地适用于线性系统、非线性系统、离散系统和连续系统等各种情况. 然而, 在使用动态规划方法求解复杂最优控制问题时, 会面临所谓“维数灾难”[33, 34],即, 算法所需存储量和计算量随状态空间的维数增长而迅速提高. 1977 年,

program-ming 等, 因其思路相同或相近, 在本文中将统称为自适应动态规划[36]。近年来, 自适应动态规划成果斐然, 学者结合神经网络和强化学习思想实现了对不确定系统的鲁棒控制[37]、大型系统的分散式控制[38]对自适应系统的可持续激励控制[39]等。

4.1 自适应动态规划的神经网络结构

评价网络和执行网络三个多层神经网络组成. 模型网络用于近似状态方程(3). 评价网络根据Bellman 方程中最优性的满足程度, 对系统输入的控制信号进行评价, 给出评价信号即最小化的误差 

执行网络则根据评价网络的评价信号更新并获得近似的最优控制, 最小化性能指标对控制的偏导

由此可见, 早期的自适应动态规划研究中已经包含了深层神经网络的思想。然而自适应动态规划中的深层神经网络并未运用预训练等现代深度学习技术,

无法利用未标记数据, 对于过深的结构还不能摆脱陷入局部收敛的困境。

4.2 自适应动态规划的迭代型算法

Murray 等率先提出了对连续状态方程的自适应动态规划迭代型算法。迭代型ADP依然可以使用神经网络近似性能指标函数, 在每次迭代中都更新现有的最优性能指标及最优控制律。迭代型ADP 最显著的优势是从理论上可以证明迭代算法的稳定性和收敛性, 是自适应动态规划研究中的重大进展. 目前主要有值迭代ADP 和策略迭代ADP 两类算法。依然以离散系统为例, 值迭代自适应动态规划方法首先以 J0(xk)

随后求得迭代的近似最优性能指标函数

Wei等给出了不同初值情况下的值迭代ADP 的收敛性证明。

execution) 方法在控制领域的具体应用,其核心是利用人工系统进行建模和表示, 通过计算实验进行分析和评估, 最后以平行执行实现对复杂系统的控制. 平行控制是自适应控制的自然扩展, 在图11 中, 被控对象往往并无自主行为的能力, 使用神经网络模型可以得到近似的微分方程或差分方程以描述系统状态变化. 在控制包含具有自主行为代理的复杂系统时, 无法使用状态方程近似被控对象状态对控制输入的变化. 控制与管理、 试验与评估、学习与培训代替了经典控制系统中单一的控制变量,复杂的人工系统则代替了被控对象的模型网络, 如图12  所示.

神经网络在平行控制中依然扮演重要的角色.一方面, 尽管无法使用神经网络模型近似系统状态方程(3), 我们却可以使用神经网络模型近似剥离了代理模型自主行为的方程

n 为代理1,···,n 的主动行为, 通过在实际系统中充分激励代理行为和系统控制, 可获得方程(10) 的近似. 另一方面, 自适应动态规划中通过迭代求解的近似最优性能指标, 在平行控制中则拓展为以计算实验和涌现观测获得的性能指标估计, 在对控制策略的评估中, 评价网络依然可以作为这一性能指标估计的近似手段。

    平行控制是自适应控制方法在复杂系统中的扩展,以自适应动态规划和基于代理的控 制(Agent-based control, ABC)作为主要计算方法,已经成功应用于社会计算

、智能交通、健康等领域。

本文首先概述了当前较为公认的四种深度学习基本模型, 在此基础上, 对深度学习在控制领域的研究现状进行分类描述. 为打破深度学习在控制领域的研究局限, 对深度学习概念出现之前的深度控相关研究进行介绍. 对当前和深度控制联系十分紧密的自适应动态规划方法的神经网络结构以及算法进行了详细描述, 并对其在复杂系统中的扩展平行

控制的概念进行了介绍. 以下针对深度学习在控制领域的研究现状进行总结. 由于在特征提取以及模型拟合等方面显示出的潜力和优势, 深度学习已经被用于控制领域的相关研究, 并且在一些控制系统中表现出了较好的性能. 但是, 从上文的研究现状可

以看出, 深度学习主要在涉及视觉的控制系统中具有应用的优势. 对于控制目标识别, 其识别的对象是图片中物体的种类和姿态. 对于状态特征提取, 其提取的是场景图片的抽象特征. 对于系统参数辨识, 其本质也是从系统状态中提取特征, 然后拟合特征和

输出之间的关系. 对于控制策略计算, 虽然有直接拟合PID 控制器的研究, 但是没有体现出深度学习的优势甚至引入的必要. 输出控制策略的深度网络需要从已有的范例中学习如何计算控制策略, 网络对系统的控制性能在很大程度上会受训练范例的影响,不能估计其对系统出现的新情况的控制效果. 综上,目前深度学习在控制领域的研究虽然已有以上介绍的一些实例, 但是相关研究的报道仍然相对较少, 研究的广度和深度都略显不足.虽然深度学习在控制领域的研究存在一些问题, 不可否认的是, 深度学习在控制领域的研究前景仍然十分广阔. 就在本文投稿后一个月, 谷歌在Nature上发表了利用深度神经网络和树搜索方法进行围棋博弈的论文, 其围棋程序AlphaGo 在随后进行的人机围棋比赛中以4:1 的战绩打败了专业围棋选手. 这无疑给深度学习在控制领域的研究带来新的动力和想象力. 以下对未来值得研究的内容进行展望。

深度学习之所以受到重视, 最早是其在语音识别和图像识别方面取得的重大突破. 而语音和图像识别的目的是能够达到人对语音和图像的识别水平,所以深度学习从本质上讲是模拟人的听觉和视觉.听觉和视觉是人感知世界的能力. 对于控制来讲, 例如机器人的机械手抓取控制系统的目的是能够达到人对物体抓取的速度和精度, 所以深度学习是否能够模拟人的运动控制系统是其用于控制领域的关键问题. 模拟系统以及实现该系统的硬件都是值得研究的问题. 深度学习需要监督信号才能训练出有效的模型. 引导策略搜索法是一种利用已经观察到的范例样本训练网络的方法. 引导策略搜索方法中, 对某些控制系统例如机器人行走, 人的行走模式可以当作训练中的范例样本. 所以对于智能控制领域的问题, 如何充分利用人的智能这一资源是十分有意义的. 而深度学习具有表达人类某些智能的潜力, 所以挖掘深度学习对于仿人型机器人等系统中存在的智能控制问题具有十分重要的意义。

自动控制领域的研究使得无人系统的软硬件研究得到了快速发展, 例如无人机(Unmanned aevial vehicle, UAV) 、无人驾驶车等. 对于这类复杂的无人系统, 它们的动态模型一般具有复杂非线性的特点, 利用传统的建模方法较难表示其动态特性. 而深

度学习擅长对复杂非线性系统进行建模, 所以深度学习对这类无人系统的建模是值得进一步研究的问题. 无人系统需要尽量减少人的参与或者没有人的参与, 深度学习自动学习状态特征的能力使得深度学习在无人系统的研究中具有先天的优势. 如何充分利用和发挥深度学习在无人系统中的优势并发展深度学习在环的无人系统控制是下一步研究的方向.

5.3强化自适应控制强化学习模拟人对世界认知的过程, 利用从外界反馈的回报信号和接收或采集的环境状态不断调整系统参数, 改变控制策略, 达到自适应控制的效果. 对于环境状态维度较高的情况, 例如视觉环境,深度学习能够自动提取识别状态特征, 为强化学习提供源数据. 深度学习与强化学习的结合能够使感知环境和系统控制无缝连接, 其所在的系统能够自动感知不确定的环境状态并完成自适应控制. 这样的系统值得进一步研究。

平行控制针对复杂系统, 以大数据和ACP 方法为基础,采用人工系统作为建模工具, 通过虚实互动的平行执行方式来完成任务. 平行控制是一种数据驱动的计算控制方法, 与深度学习有天然的契合. 平行控制作为自适应动态规划在复杂系统的自然扩展,

鉴于自适应动态规划在深度控制系统发挥的重要作用, 平行控制与深度学习的结合为解决复杂系统的管理与控制问题提供了重要的解决思路。

最后, 我们应该看到深度学习用于控制系统中的理论研究仍然欠缺. 目前没有理论能够评估使用了深度学习的控制系统的稳、准、快等性能. 虽然深度学习在控制系统中能够表现出一定的控制效果,但是仅仅通过试错等方式不能保证控制性能. 这方面理论上的欠缺有可能阻碍深度学习在控制系统中的研究发展. 所以理论方面的研究也是一个非常值

深度学习在特征提取与模型拟合方面显示了其潜力和优势。对于存在高维数据的控制系统,引入深度学习具有一定的意义。近年来,已有一些研究关注深度学习在控制领域的应用。本文介绍了深度学习在控制领域的研究方向和现状,包括控制目标识别、状态特征提取、系统参数辨识和控制策略计算。并对相关的深度控制以及自适应动态规划与平行控制的方法和思想进行了描述。总结了深度学习在控制领域研究中的主要作用和存在的问题,展望了未来值得研究的方向。

近年来,深度学习(Deep learning)[1]在学术界和工业界发展迅猛. 它在很多传统的识别任务上取得了识别率的显著提升[2],显示了其处理复杂识别任务的能力,吸引了大批学者研究其理论和应用。许多领域开始尝试利用深度学习解决本领域的一些问题。在控制领域,关于深度学习的研究已初现端倪。本文在概述深度学习的主要思想和方法的基础上,阐述深度学习在控制领域的研究现状,回顾相关的深度网络与深度控制的研究内容,介绍深度学习在控制领域常用的结合方法;自适应动态规划及其拓展平行控制。综合以上内容提出深度学习在控制领域的研究。

深度学习源于神经网络的研究,可理解为深层的神经网络。通过它可以获得深层次的特征表示,免除人工选取特征的繁复冗杂和高维数据的维度灾难问题。 目前较为公认的深度学习的基本模型包括基于受限玻尔兹曼机(Restricted Boltzmann machine, RBM)的深度信念网络(Deep belief net-work, DBN)[3, 4]、基于自动编码器(Auto RNN)[7]。为便于清楚地阐述深度学习在控制领域的研究现状,本节将概述以上四种深度学习模型的主要思想和方法。关于深度学习的更多内容,参见深度学习领域的综述[1, 8-11]

learning)。全局微调阶段, 以训练好的RBM 之间的权重和偏置作为深度信念网络的初始权重和偏置, 以数据的标签作为监督信号计算网络误差, 利用BP(Back propagation) 算法计算各层误差, 使用梯度下降法完成各层权重和偏置的调节。DBN 可用于特征提取和数据分类等。

AE 之间的连接是不对称的. 每个AE可视为一个单隐层的人工神经网络, 其输出目标即此AE 的输入. 在预训练阶段, 从低层开始, 每个AE 单独训练, 以最小化其输出与输入之间的误差

在全局微调阶段,以训练好的AE 的输入层和隐层之间的权重和偏置作为堆叠自动编码器的初始权重和偏置, 以数据的标签作为监督信号计算网络误差, 利用BP 算法计算各层误差, 使用梯度下降法完成各层权重和偏置的调节。

。网络前向计算时, 在卷积层, 可同时有多个卷积核对输入进行卷积运算, 生成多个特征图, 每个特征图的维度相对于输入的维度有所降低. 在次采样层, 每个特征图经过池化(Pooling) 得到维度进一步降低的对应图. 多个卷积层和次采样层交叉堆叠后, 经过全连接层到达网络输出. 网络的训练类似于传统的人工神经网络训练方法, 采用BP 算法将误差逐层反向传递, 使用梯度下降法调整各层之间的参数。CNN 可提取输入数据的局部特征,并逐层组合抽象生成高层特征,可用于图像识别等问题。

RNN 则考虑了样本之间的关联关系, 将这种关联关系以神经网络之间的连接体现出来. 一般情况下, 单向 RNN[12]中, 如图4 所示, 单个神经网络的隐层连接至下一个神经网络的隐层。这种连接方式考虑了前面样本对后面样本的影响。还有一种双向RNN[13]的连接方式, 单个神经网络的隐层连接了其前后神经网络的隐层。这种连接方式考虑了前后样本对当前样本的影响 。一般认为RNN 的各个神经网络具有相同的权重和偏置。RNN 训练时, 可使用RBM 或者AE 对其进行预训练来初始化网络参数, 然后计算每个样本的输出误差, 并以累计误差训练网络参。RNN 可用于处理时序数据或者前后关联数据. RNN 还可以和CNN结合使用, 处理考虑样本之间相关性的问题。

2 深度学习在控制领域的研究现状

深度学习在控制领域的研究已初现端倪。就已有的研究报道, 目前的研究主要集中在控制目标识别、状态特征提取、 系统参数辨识、 控制策略计算等方面。尤其是深度学习和强化学习的结合已经产生了令人振奋的研究成果。如图5 所示, 深度学习在控制系统的各环节均有应用研究, 本节从控制系统的角度分类, 从四个方面介绍深度学习在控制领域的研究现状。

在传统的控制系统中, 控制目标一般以给定量的形式直接给出. 而在智能控制系统中, 控制目标有时并不明确或者不能直接得到. 就已有研究深度学习进行控制目标识别的报道, 在先进机械手抓取系统[14]中, 系统首先需要检测被抓取物的位置、 识别被抓取物并估计其姿态以确定机械手需要到达的位置和角度. 本节以此为例说明深度学习在控制目标识别中的作用.图6 [14]显示了先进机械手抓取系统的流程. 输入数据是颜色深度图. 在物体检测过程中, 系统利用前景背景分割技术检测出物体位置. 然后从图片中分割出包含物体的统一大小图片. 在物体识别和姿态估计过程中, 获取的统一大小图片输入CNN 网络, 经过前向计算在网络输出端获得物体的类别. 该类别信息包含了物体的种类和姿态. 最后, 机械手按照规划的路径到达物体上方, 调整夹持器的姿态, 使得其姿态符合物体的姿态, 然后执行抓取动作。

, 即CNN 网络的输出层节点个数. 网络的输入是统一大小的图片, 以二维矩阵的方式输入网络. 所使用的CNN 通过卷积层和次采样层交叉堆叠的方式建立特征提取的网络,然后通过全连接层连接到输出层建立分类器. 网络结构建立后, 收集一定数量具有类别标记的图片样本, 一部分用于训练网络参数, 剩余部分用于测试网络性能. 经过迭代训练, 获取训练完成的CNN 网络.当有新的图片样本输入网络时, 网络经过前向计算,输出图片中物体的类别, 包括物体的种类和姿态. 机械手获取物体类别后, 在执行抓取动作之前, 将夹持器调整到和物体的姿态相一致的状态, 以完成抓取动作. 在这个系统中, 机械手抓取之前需要达到的姿态为机械手控制系统的控制目标, 此控制目标由物体的种类和姿态决定, 所以采用深度学习进行物体分类实质上在控制系统中起到了控制目标识别的用. 至于机械手如何达到控制目标则由系统的控制器决定。

现代控制理论引入了状态空间的概念, 以系统的状态为基础进行分析与综合. 在基于视觉的控制系统中, 系统状态由图片体现, 其维度高, 不容易进行人工特征抽取, 不利于系统的分析综合与控制。而深度学习十分适合对图片数据进行降维与特征抽取,所以深度学习在基于视觉的控制系统中研究较多。基于视觉的控制系统中, 深度学习多与强化学习方法结合, 使得系统能够根据深度学习提取的特征给出控制策略。在深度学习用于控制系统状态特征提取的研究中, 。Atari 是一款计算机游戏, 玩家通过计算机屏幕显示的游戏场景, 决策执行的游戏动作, 获得游戏得分的变化。在使用深度学习进行Atari 游戏的系统中, 游戏场景以图片的形式输入CNN 网络, Q 网络是用于获得系统预期回报函数的网络。在这个系统中, 可执行的动作集合包含有限个游戏动作元素, 而状态集合包含无限个场景状态元素。评价网络的输出层节点个数为可执行的游戏动作个数, 每个节点的输出即在输入场景下采用该节点所代表动作的预期回报。系统选择评价网络输出节点中预期回报最高的节点所代表的游戏动作执。Atari 游戏执行了游戏动作后,更新游戏场景图像并得到一个强化信号。

整个网络的权重参数根据强化学习的方法进行训练, 具体的训练方法和技巧不在本文介绍的范围,这里仅说明其主要思想. 当前时刻的预期回报一方面是当前时刻来自于游戏的强化信号与下一时刻来自于网络的最高预期回报之和, 另一方面也是当前时刻来自于网络的最高预期回报, 二者之间的差距即整个网络的损失函数, 训练的目标是最小化该损失函数。由此, 网络获得了可传递的误差用于网络参数的训练。据报道, 该系统在实验中的多个游戏任务上超越了人类的水平。

系统辨识是现代控制理论的重要研究内容, 它根据系统输入输出来确定描述系统的模型. 对于复杂的非线性动态系统, 其模型难以用线性函数或者根据先验知识建立。而神经网络具有拟合复杂非线性函数的能力, 可以用于系统辨识。但浅层神经网络在训练中容易受到局部最优等问题的影响, 有时并不能准确描述动态系统。深度学习的发展给解决这一问题带来了启发。已经有部分研究专注于利用深度学习的方法进行系统辨识. 由于系统模型由深度神经网络代替, 系统辨识任务就转变成深度神经网络的参数优化, 故而称这类任务为系统参数辨识。使用深度学习进行系统参数辨识的控制系统一般涉及模型预测控制. 模型预测控制的主要思想是在每个时刻基于系统当前状态和预测模型, 计算出系统未来一段时间的最优控制序列, 并执行序列的首个控制策略。其中, 预测模型使用深度学习实现.这类研究中, 直升机动态模型[19]使用深度ReLu 网络模型拟合, 主要思想是利用历史一段时间的数据预测未来时刻的加速度。切割机器人[20]考虑了系统状态在时间序列上的相关性, 使用RNN 构建系统动态模型,利用历史时间窗的系统状态预测未来时间窗的系统状态. 车杆摆动系统[21]使用深度神经网络拟合系统动态模型, 利用当前时刻的状态和控制输入预测下一时刻状态与当前时刻状态的差值。值得一提的是,在车杆摆动系统中, 深度网络经过训练能够拟合系统动态模型后, 在输出端引入一个新的节点代表预期回报函数。这样, 深度网络同时表达了系统动态模型和动作评价函数. 如图8[20]所示, st 表示系统在t 时刻的状态, ) 用于拟合系统动态模型. 然后忽略输出端的 st+1- st, 按照强化学习的方法, 每一步执行最优的动作并且根据每一步产生的回报训练Q 网络. 这种训练方法基于一个基本假设, 那就是对于状态预测有效的隐层特征有助于预期回报函数的预测。用深度网络拟合系统动

态模型的步骤相当于对Q 网络的预训练, 这一步不需要考虑回报。实验证明, 经过预训练的Q 网络能够比直接使用强化学习训练的Q 网络更快达到较好优化水平。

在单输出控制系统中, 控制策略指的是单一的控制量。而在智能控制系统中, 控制策略除了指单一控制量之外, 也可以指一串动作或一个决策。对于传统的控制器而言, 需要获取给定量和系统输出之间的差, 从而计算控制策略。而对于智能控制系统而言, 控制器获取系统状态进行控制策略计算。经典的PID 控制从系统机理出发设计控制器, 而深度神经网络是一个需要监督信号进行训练的模型。所以深度学习在控制策略计算方面的研究也主要集中在有监督信号的情形。

此类研究中, 有利用深度学习模型拟合PID 控制器的报道[22]。其主要思想是对于一个线性定常系统, 首先设计一个能够满足控制要求的PID 控制器。然后以DBN 网络替代PID 控制器。DBN网络的参数由PID 控制器的输入输出数据训练. 训练后的DBN 网络的输入是原来PID 控制器的输入, 经过前向计算的网络输出替代原来PID 的输出作为控制量。这项工作虽然没有说明深度学习用于此处的必要性和优势, 但是却证明了深度学习可以用于控制策略计算. 有研究比较单层网络、 多层网络和RNN 网络分别用于粗糙地形运动系统[23]。在这项研究中, 网络使用状态作为输入, 动作作为输出。而训练则采用引导策略搜索法, 需要的监督信号来源于已有的范例. 网络从已有的成功的运动范例中采样其状态 – 动作样本, 用于网络训练. 此研究的实验结果表明多层网络或RNN 网络需要更多的训练样本才能达到比较好的性能, 而随着样本数目的增加,二者的表现性能都有超越单层网络的趋势。训练好的网络对于新的状态输入, 能够通过前向计算给出需要执行的动作, 即本系统的控制策略。在运动控制函数[24]的研究中, 使用深度网络计算从初始状态到目标状态的控制指令序列和状态轨迹序列。其中, 初始状态和目标状态作为网络的输入, 控制指令序列和状态轨迹序列作为网络的输出。

比较特别的是,在运动控制函数的研究中, 输入数据的维度远小于输出数据的维度. 研究中首先使用SAE 对输出数据进行降维. 降维过程中逐层训练AE 的阶段, 不同于一般的从底层开始逐层训练的方法, 这项研究从最顶层开始逐层训练AE. 如图9 所示, 高层AE 训练完后, 其隐层输出作为低层AE 的输入, 继续训练低层AE. SAE 训练完成后, 得到从低维特征到输出控制和轨迹序列的网络, 这里需要注意的是此网络取自SAE 的上半部分。然后使用神经网络将系统输入端连接至已经训练好的网络. 最后使用随机的到达样本对整个网络进行训练, 每个到达样本包含运动的初始状态、 目标状态和从初始状态到目标状态的轨迹。训练好的网络对于一个输入的初始状态和目标状态, 经过前向计算输出控制指令和运动轨迹序列。

3 深度网络与深度控制

早在深度学习出现之前, 就有学者曾利用多层神经网络实现一种自适应模糊逻辑控制系统[25]从今天的角度看, 可以称为深度模糊控制网络. 另外,Saridis 及合作者在研究智能机控制理论的过程中,曾采用玻尔兹曼机的结构和最小化网络能量的方法用于智能机的 “组织” 阶段, 即获取最优任务( 动作)序列[26, 27]这些方法、 思想和当前的深度学习方法具有一定的相似性和不同之处. 期望本节的介绍能够拓宽深度学习在控制领域的研究思路, 激发深度学习在控制领域的研究灵感。

3.1深度模糊控制网络

深度模糊控制网络系统的目标是开发一种基于模糊逻辑和神经网络实现拟人控制的方法, 该方法主要针对这样一类系统: 构建数学模型不可行或难以实行;熟练操作人员的知识可用于实现控制目的。因此人类控制涉及的知识表示和知识进化在此系统中均有体现。如图10 所示, 该系统包含3 类子网络:SN 、RN 和CN, 分别用于模式识别、 模糊推理和控制合成 。

模式识别神经网络实现输入信号的模糊化. 具体地, 将输入信号通过隶属度函数映射为模糊语义项的隶属度. 图10 的示例中, 有两个输入信号, 每个信号分别对应三个模糊语义项. 此处的模糊语义项描述了信号模式. 语义项的隶属度在0 到1 之间, 表示输入信号符合语义项描述的程度. SN 被训练以替代隶属度函数. 输入信号的模糊化完成后, 语义项及其隶属度作为输入进入模糊推理神经网络. 该子网络运用规则集( 知识库)进行模糊推理. 具体地, 利用满足输入信号模糊语义项的规则进行推理, 计算出每条决策规则的耦合强度. 图10 的示例中, 有九条决策规则,每条规则遵循if-then的决策模式. 每条规则对应一个RN. 对于一个输入信号, 每条规则的条件只含有其一个模糊语义项. 所以对于图10 的示例, 每个RN 的输入是两个模糊语义项, 分别来源于两个不同的SN. 每个RN 被训练以替代规则集中的决策规则. RN 输出规则的耦合度作为控制合成神经网络的输入, 此网络利用一系列步骤和控制模糊语义项的隶属度函数输出最终的控制量. 这些步骤包括单个规则的推理, 产生模糊控制量和解模糊. 这些步骤均使用CN 网络替代完成. SN 、RN 和CN网络构造完成后, 可以连接成如图10 所示的深度模糊控制网络, 在3 个子网络分别训练的基础上进行全局训练, 进一步优化控制效果. 深度模糊控制网络能够实现从采集状态信号到输出控制变量的全过程,更具体的过程参见文献 [25], 此处不再赘述。

习的硬件实现. 能有效结合在线的实时决策与远程的云计算, 从而低成本地提高系统性能。通过对以上方法的介绍, 我们可以发现, 此方法和现在的深度学习方法既有共通之处又有不同特点。二者从整体上看都是多层神经网络结构, 均是由不同的神经网络模块组合而成 。二者都可以采用预训练和全局微调的训练过程. 不同的是, 前者可采用并行的方式对3 个子网分别训练, 而后者需采用串行的方式逐层训练。前者将人类知识以规则的形式嵌入网络, 子网训练过程使用了这些规则提供的启发式信息。后者在子网训练过程中一般采用自动训练的方法, 减少人为干预. 对于网络结构和训练结果,前者可解释其含义, 后者则不可解释。深度模糊控制网络最大的特点是包含知识结构, 网络结构融合了知识表示, 训练学习过程蕴含了知识进化。

Saridis 开发了一种分层递阶智能控制方法, 将智能机的控制分为3 个阶段:组织、 协调和执行[31]。其中, 组织阶段负责智能机的任务规划, 主要问题是对期望的动作构建最小化熵的正确任务序列。Saridis 及合作者利用玻尔兹曼机建立了熵的解析方法来衡量任务序列的正确性。玻尔兹曼机的构建方法: 输入节点表示期望的目标; 输出节点表示为满足目标智能机需要执行的任务序列; 隐藏节点使得输入和输出节点之间能够发展复杂的交互。节点的状态是1 或0, 表示任务执行或不执行. 熵定义成任务序列正确概率的函数, 任务序列正确概率定义成网络能量的函数, 而网络能量由节点状态和节点之间的权重计算得到。在一定的约束条件下, 网络能量越小, 任务序列的正确概率越大, 熵越小 。玻尔兹曼机通常使用网络能量作为代价函数, 通过最小化网络能量找到节点最优状态 。类似地, 这里以最小化熵为目标, 利用最优化方法, 例如遗传算法等, 搜索出最优的网络权重, 计算出对应的节点状态. 从而获得最优节点状态对应的最优任务序列。

4 自适应动态规划与平行控制

从深度学习在控制领域的研究现状可以看出,强化学习方法中的自适应动态规划方法在深度控制系统的实现中起到重要的作用. 本节主要对自适应动态规划方法进行介绍, 进而引出其在复杂系统中的扩展: 平行控制。 

为实现最优控制, 自适应动态规划方法和深度学习的结合是研究深度控制的关键领域 。最优控制以性能指标最优为目的, 是在上世纪50 年代起发展起来的重要控制领域 。其不但在工程控制中具有重要意义, 在社会经济系统的管理中也有着重要的应用。由Bellman 提出的动态规划方法[32]以倒推的思想,求解最优控制的Bellman 方程: 

需要存储不同状态下的最优性能指标J?(x(k)), 进而通过求解Bellman 方程(1) 中的最优性能条件得到针对任意状态的最优控制. 动态规划方法可用于求解闭环形式的最优控制, 且广泛地适用于线性系统、非线性系统、离散系统和连续系统等各种情况. 然而, 在使用动态规划方法求解复杂最优控制问题时, 会面临所谓“维数灾难”[33, 34],即, 算法所需存储量和计算量随状态空间的维数增长而迅速提高. 1977 年,

program-ming 等, 因其思路相同或相近, 在本文中将统称为自适应动态规划[36]。近年来, 自适应动态规划成果斐然, 学者结合神经网络和强化学习思想实现了对不确定系统的鲁棒控制[37]、大型系统的分散式控制[38]对自适应系统的可持续激励控制[39]等。

4.1 自适应动态规划的神经网络结构

评价网络和执行网络三个多层神经网络组成. 模型网络用于近似状态方程(3). 评价网络根据Bellman 方程中最优性的满足程度, 对系统输入的控制信号进行评价, 给出评价信号即最小化的误差 

执行网络则根据评价网络的评价信号更新并获得近似的最优控制, 最小化性能指标对控制的偏导

由此可见, 早期的自适应动态规划研究中已经包含了深层神经网络的思想。然而自适应动态规划中的深层神经网络并未运用预训练等现代深度学习技术,

无法利用未标记数据, 对于过深的结构还不能摆脱陷入局部收敛的困境。

4.2 自适应动态规划的迭代型算法

Murray 等率先提出了对连续状态方程的自适应动态规划迭代型算法。迭代型ADP依然可以使用神经网络近似性能指标函数, 在每次迭代中都更新现有的最优性能指标及最优控制律。迭代型ADP 最显著的优势是从理论上可以证明迭代算法的稳定性和收敛性, 是自适应动态规划研究中的重大进展. 目前主要有值迭代ADP 和策略迭代ADP 两类算法。依然以离散系统为例, 值迭代自适应动态规划方法首先以 J0(xk)

随后求得迭代的近似最优性能指标函数

Wei等给出了不同初值情况下的值迭代ADP 的收敛性证明。

execution) 方法在控制领域的具体应用,其核心是利用人工系统进行建模和表示, 通过计算实验进行分析和评估, 最后以平行执行实现对复杂系统的控制. 平行控制是自适应控制的自然扩展, 在图11 中, 被控对象往往并无自主行为的能力, 使用神经网络模型可以得到近似的微分方程或差分方程以描述系统状态变化. 在控制包含具有自主行为代理的复杂系统时, 无法使用状态方程近似被控对象状态对控制输入的变化. 控制与管理、 试验与评估、学习与培训代替了经典控制系统中单一的控制变量,复杂的人工系统则代替了被控对象的模型网络, 如图12  所示.

神经网络在平行控制中依然扮演重要的角色.一方面, 尽管无法使用神经网络模型近似系统状态方程(3), 我们却可以使用神经网络模型近似剥离了代理模型自主行为的方程

n 为代理1,···,n 的主动行为, 通过在实际系统中充分激励代理行为和系统控制, 可获得方程(10) 的近似. 另一方面, 自适应动态规划中通过迭代求解的近似最优性能指标, 在平行控制中则拓展为以计算实验和涌现观测获得的性能指标估计, 在对控制策略的评估中, 评价网络依然可以作为这一性能指标估计的近似手段。

    平行控制是自适应控制方法在复杂系统中的扩展,以自适应动态规划和基于代理的控 制(Agent-based control, ABC)作为主要计算方法,已经成功应用于社会计算

、智能交通、健康等领域。

本文首先概述了当前较为公认的四种深度学习基本模型, 在此基础上, 对深度学习在控制领域的研究现状进行分类描述. 为打破深度学习在控制领域的研究局限, 对深度学习概念出现之前的深度控相关研究进行介绍. 对当前和深度控制联系十分紧密的自适应动态规划方法的神经网络结构以及算法进行了详细描述, 并对其在复杂系统中的扩展平行

控制的概念进行了介绍. 以下针对深度学习在控制领域的研究现状进行总结. 由于在特征提取以及模型拟合等方面显示出的潜力和优势, 深度学习已经被用于控制领域的相关研究, 并且在一些控制系统中表现出了较好的性能. 但是, 从上文的研究现状可

以看出, 深度学习主要在涉及视觉的控制系统中具有应用的优势. 对于控制目标识别, 其识别的对象是图片中物体的种类和姿态. 对于状态特征提取, 其提取的是场景图片的抽象特征. 对于系统参数辨识, 其本质也是从系统状态中提取特征, 然后拟合特征和

输出之间的关系. 对于控制策略计算, 虽然有直接拟合PID 控制器的研究, 但是没有体现出深度学习的优势甚至引入的必要. 输出控制策略的深度网络需要从已有的范例中学习如何计算控制策略, 网络对系统的控制性能在很大程度上会受训练范例的影响,不能估计其对系统出现的新情况的控制效果. 综上,目前深度学习在控制领域的研究虽然已有以上介绍的一些实例, 但是相关研究的报道仍然相对较少, 研究的广度和深度都略显不足.虽然深度学习在控制领域的研究存在一些问题, 不可否认的是, 深度学习在控制领域的研究前景仍然十分广阔. 就在本文投稿后一个月, 谷歌在Nature上发表了利用深度神经网络和树搜索方法进行围棋博弈的论文, 其围棋程序AlphaGo 在随后进行的人机围棋比赛中以4:1 的战绩打败了专业围棋选手. 这无疑给深度学习在控制领域的研究带来新的动力和想象力. 以下对未来值得研究的内容进行展望。

深度学习之所以受到重视, 最早是其在语音识别和图像识别方面取得的重大突破. 而语音和图像识别的目的是能够达到人对语音和图像的识别水平,所以深度学习从本质上讲是模拟人的听觉和视觉.听觉和视觉是人感知世界的能力. 对于控制来讲, 例如机器人的机械手抓取控制系统的目的是能够达到人对物体抓取的速度和精度, 所以深度学习是否能够模拟人的运动控制系统是其用于控制领域的关键问题. 模拟系统以及实现该系统的硬件都是值得研究的问题. 深度学习需要监督信号才能训练出有效的模型. 引导策略搜索法是一种利用已经观察到的范例样本训练网络的方法. 引导策略搜索方法中, 对某些控制系统例如机器人行走, 人的行走模式可以当作训练中的范例样本. 所以对于智能控制领域的问题, 如何充分利用人的智能这一资源是十分有意义的. 而深度学习具有表达人类某些智能的潜力, 所以挖掘深度学习对于仿人型机器人等系统中存在的智能控制问题具有十分重要的意义。

自动控制领域的研究使得无人系统的软硬件研究得到了快速发展, 例如无人机(Unmanned aevial vehicle, UAV) 、无人驾驶车等. 对于这类复杂的无人系统, 它们的动态模型一般具有复杂非线性的特点, 利用传统的建模方法较难表示其动态特性. 而深

度学习擅长对复杂非线性系统进行建模, 所以深度学习对这类无人系统的建模是值得进一步研究的问题. 无人系统需要尽量减少人的参与或者没有人的参与, 深度学习自动学习状态特征的能力使得深度学习在无人系统的研究中具有先天的优势. 如何充分利用和发挥深度学习在无人系统中的优势并发展深度学习在环的无人系统控制是下一步研究的方向.

5.3强化自适应控制强化学习模拟人对世界认知的过程, 利用从外界反馈的回报信号和接收或采集的环境状态不断调整系统参数, 改变控制策略, 达到自适应控制的效果. 对于环境状态维度较高的情况, 例如视觉环境,深度学习能够自动提取识别状态特征, 为强化学习提供源数据. 深度学习与强化学习的结合能够使感知环境和系统控制无缝连接, 其所在的系统能够自动感知不确定的环境状态并完成自适应控制. 这样的系统值得进一步研究。

平行控制针对复杂系统, 以大数据和ACP 方法为基础,采用人工系统作为建模工具, 通过虚实互动的平行执行方式来完成任务. 平行控制是一种数据驱动的计算控制方法, 与深度学习有天然的契合. 平行控制作为自适应动态规划在复杂系统的自然扩展,

鉴于自适应动态规划在深度控制系统发挥的重要作用, 平行控制与深度学习的结合为解决复杂系统的管理与控制问题提供了重要的解决思路。

最后, 我们应该看到深度学习用于控制系统中的理论研究仍然欠缺. 目前没有理论能够评估使用了深度学习的控制系统的稳、准、快等性能. 虽然深度学习在控制系统中能够表现出一定的控制效果,但是仅仅通过试错等方式不能保证控制性能. 这方面理论上的欠缺有可能阻碍深度学习在控制系统中的研究发展. 所以理论方面的研究也是一个非常值

【摘要】:概念图是基于奥苏贝尔的有意义学习理论的一种知识的图示表征工具,是一种图形组织者,是一种知识加工工具,更是一种教学策略,通过图和线将学生新概念与知识结构中已有概念建立联系,并将头脑中的知识可视化出来。通过对概念图的观察可以迅速发现学习者对知识结构的把握,找出学习者已有认知结构与新的知识结构之间的差异,并通过同化或顺应对知识进行深层理解,实现知识的迁移,完成认知的过程。 深度学习作为学习者追求的一种目标状态,成为广大教育专家和学者们研究的热点领域。笔者在分析与总结了国内外学者研究成果的基础之总结了对深度学习的认识,本文结合概念图和深度学习的特点,创造性的提出了运用概念图上具来帮助学习者实现深度学习的推论,并通过相应的实证研究验证了概念图能够促进深度学习的假设。论文研究主要从两个层面展开,第一是从理论研究层面详细阐述了深度学习和概念图的理论特征。在这一层面,首先是对深度学习的概念界定、深度学习的特征、影响因素和实现过程等方面进行了详细的介绍,然后对思维导图所具有的功能特点、理论基础和在学习中所起的作用等方面进行了阐述,最后结合深度学习和概念图的特点,设计出教学案例,对学习者运用概念图来实现深度学习进行了可行性分析;第二是从实证研究层面对学习者运用概念图工具促进深度学飞进行了论证,这一部分是本文的重点所在。在这一层面,主要完成了以下两方面的内容:首先是通过现状调查来了解学生是需要概念图工具进行学习,再设计出基于概念图的深度学习教案,运用到教学中去。然后通过具体的实验研究验证了学习者运用概念图工具能够促进深度学习,从而实现对本文观点的论证。 在论文的最后,是对文章的总结,指出了研究中的不足之处及其后续研究工作。希望通过本次研究能够在基于概念图的深度学习的模型方面作一些探讨与尝试,并为概念图在学习领域的推广和应用提供一些有益的参考。

【学位授予单位】:扬州大学
【学位授予年份】:2014

支持CAJ、PDF文件格式


任剑锋,李克东;[J];电化教育研究;2004年08期
杜娟;李兆君;郭丽文;;[J];电化教育研究;2013年10期
陈琦,张建伟;[J];华东师范大学学报(教育科学版);1998年01期
杜建霞;范斯·A·杜林汤;安东尼·A·奥林佐克;王茹;;[J];开放教育研究;2006年04期
尚卫平,赵国庆;[J];信息技术教育;2005年10期
中国博士学位论文全文数据库
张晓戍;谢亚妮;;[J];阿坝师范高等专科学校学报;2011年04期
关伟;花日茂;丁春;;[J];合肥师范学院学报;2009年03期
马莹;[J];安徽广播电视大学学报;2005年01期
马莹;;[J];安徽广播电视大学学报;2006年02期
周桂英,戴林;[J];安徽工业大学学报(社会科学版);2005年01期
李镜;庞江夏;;[J];安徽工业大学学报(社会科学版);2005年06期
汪正贵;;[J];安徽工业大学学报(社会科学版);2006年04期
中国重要会议论文全文数据库
邹明;;[A];跨入新世纪——电子信息类专业教学改革之路[C];2005年
杨子圣;;[A];江苏省教育学会2006年年会论文集(综合二专辑)[C];2006年
张玲;屈代洲;;[A];2010年中国教育经济学学术年会论文集[C];2010年
斯琴图亚;;[A];中国教育技术协会2004年年会论文集[C];2004年
王军武;梁照飞;许如聪;陈权;管小娜;;[A];中国教育技术协会2004年年会论文集[C];2004年
莫永华;魏文展;寇冬泉;;[A];教育技术:信息化阶段新发展的研究[C];2007年
丁玲;;[A];第十四届全国法律逻辑学术讨论会论文集[C];2006年
李向荣;;[A];山东省远程教育学会第七届远程教育优秀科研成果评奖论文集[C];2006年
邢晓春;;[A];山东省远程教育学会第七届远程教育优秀科研成果评奖论文集[C];2006年
中国博士学位论文全文数据库
谷志忠;[D];上海外国语大学;2010年
中国硕士学位论文全文数据库
彭姗姗;[D];哈尔滨师范大学;2010年
贾丽颖;[D];哈尔滨师范大学;2010年
郝丽芳;[D];上海外国语大学;2010年
刘加霞,申继亮;[J];比较教育研究;2003年10期
陈琦,张建伟;[J];北京大学教育评论;2003年03期
申继亮,辛涛;[J];北京师范大学学报(社会科学版);1995年01期
张建伟,陈琦;[J];北京师范大学学报(社会科学版);1996年04期
张建伟;[J];北京师范大学学报(社会科学版);1997年04期
任剑锋,李克东;[J];电化教育研究;2004年08期
中国博士学位论文全文数据库
中国硕士学位论文全文数据库
柳栋,王天蓉,汪佳敏,陆爱民,张来春;[J];全球教育展望;2001年11期
张丽艳,孙邵立;[J];黑龙江教育学院学报;2004年05期
张勇;[J];和田师范专科学校学报;2004年03期
郝贵生;[J];河南科技大学学报(社会科学版);2004年03期
中国重要会议论文全文数据库
王三堂;;[A];中华教育理论与实践科研论文成果选编(第二卷)[C];2012年
何炜虎;;[A];中华教育理论与实践科研论文成果选编(第1卷)[C];2009年
吴桂仙;;[A];中华教育理论与实践科研论文成果选编(第3卷)[C];2010年
王传莲;;[A];中华教育理论与实践科研论文成果选编(第3卷)[C];2010年
罗莲;;[A];中华教育理论与实践科研论文成果选编(第1卷)[C];2009年
王开良;耿琼华;;[A];中华教育理论与实践科研论文成果选编(第4卷)[C];2010年
车桂玲;;[A];国家教师科研基金十一五阶段性成果集(河北卷)[C];2010年
中国重要报纸全文数据库
张春(作者单位:广西水利水电职业技术学院);[N];广西日报;2003年
启东市紫薇小学 杨森森;[N];成才导报.教育周刊;2007年
无锡市东亭中学 周小伟;[N];江苏法制报;2007年
冯志阳;[N];中国新闻出版报;2007年
永安市曹远学区 廖应莲;[N];三明日报;2008年
巢湖日报社党组书记 总编辑 杨睿;[N];巢湖日报;2008年
张家洼街道成技校 宋敏芳;[N];莱芜日报;2008年
中国博士学位论文全文数据库
中国硕士学位论文全文数据库

我要回帖

更多关于 深度学习概念 的文章

 

随机推荐