duelingnetworks network 老是掉...

ICEY（游戏） | 休闲游戏 | 大学专业 | 三国人物 | 三国志（游戏） | Xbox One | AutoCAD | 基因 | solidworks | 细胞生物学 | 塞尔达传说（游戏） | 总决赛 | 游戏策划 | C4D | 计算机专业 | 美国留学 | 武侠 | 网盘 | 板胡 | centos | 任天堂 | 校服 | 卡牌游戏 | 桌面游戏 | 街机游戏 | Overlord（动画） | 几何学 | C/C++ | 拳皇 | 榕江县 | 女性主义 | 最终幻想（游戏） | 略阳县 | 法国 | 游戏手柄 | CAD制图 | HTML | 陶渊明 | galgame | 地图应用 | 热血传奇（游戏） | 舰队 Collection | CSS | 洗发水 | 爬虫（计算机网络） | 四大会计师事务所 | 新西兰 | 高中物理 | Adobe After Effects | 英雄连2阿登突击（游戏） | 高德地图（amap） | 洛阳 | 马来西亚 | 书法 | 昆虫 | ios游戏 | 亲子鉴定 | 鱼类 | 恐怖游戏 | Spss数据分析 | 海贼王 | 动物保护 | 云主机 | 掌上游戏机 | 钢铁雄心4 | 世界杯 | 阳信县 | 魔兽争霸3冰封王座 | 流量套餐 | 工业机器人 | 江宁区 | 电厂 | iPhone 11 | 铅山县 | 奎屯市 | 郭嘉 | 航拍 | 怪物猎人：世界 | 开关电源 | onenote | 极限挑战(综艺节目) | 塔罗牌 | 方木 | pdf | 数学建模 | 装修公司 | 植保无人机 | 快捷键 | 生死狙击手游 | 白兰地 | 遗传学 | 虚拟机 | 天下2（游戏） | 炉石传说 | 魔兽争霸3混乱之治 | 易经 | 绿茶 | 烘焙 | 梦三国（游戏） | 投影仪 | 文化差异 | 央视 | 任天堂3ds | 演员 | 土地政策 | 容县 | 智能手机 | 希腊 | 传统文化 | Microsoft SQL Server | 乌海市 | 猎头公司 | 彩虹六号（游戏） | 谷歌（Google） | 市南区 | 命令与征服：红色警戒2（游戏） | 英语学习 | 声音 | 欢乐麻将 | 身高 | 超级战队 | 智商 | 蓄电池 | 正则表达式 | 秦岭 | 金庸 | 徐州市 | 创业公司 | 锦州市 | 金庸小说 | 毛笔书法 | 长江 | 调酒 | 汽车发动机 | 3DMAX | 钢笔 | 游戏直播 | C#编程 | 培训班 | 食物 | 春节联欢晚会 | 火影忍者手游 | 暖通 | 象棋 | 男性 | 办公软件 | 图像处理 | 雷欧奥特曼 | 英雄传说：闪之轨迹（游戏） | 飞船 | 300英雄 | 电脑游戏 | 名言 | 乐器 | Apple ID | 我的英雄学院 | 自然科学 | 华为荣耀 | 刷单 | 生存游戏 | 面相 | 日本文化 | 模特 | 游戏攻略 | 游戏原画 | 网址导航 | 太极拳 | 编辑器 | 食用油 | 足球欧洲杯 | 抑郁症 | 化妆品 | Microsoft Visual Studio | 充电器 | 培训学校 | 古剑奇谭ol | 龙之谷（游戏） | wifi万能钥匙 | 中国 | 荆门 | 手机摄影 | 任天堂wii | 暴走大事件 | 嵌入式 | 美的 | 社交 | Jquery | 史莱姆 | 曹操 | 图形处理器（gpu） | NBA篮球 | 潮汕地区 | 设计公司 | 网站建设 | 刺客信条2 | 冰雪奇缘（电影） | 动画制作 | 网络赚钱 | 暗恋 | 老挝 |

你的位置：网站首页 >> 频道首页 >> >>duelingnetworks network 老是掉...

duelingnetworks network 老是掉...

来源：蜘蛛抓取(WebSpider) 时间：2011-08-30 19:35 标签：老是掉头发怎么办

1. 强化学习和深度学习结合

机器学習=目标+表示+优化目标层面的工作关心应该学习到什么样的模型，强化学习应该学习到使得激励函数最大的模型表示方面的工作关心数據表示成什么样有利于学习，深度学习是最近几年兴起的表示方法在图像和语音的表示方面有很好的效果。深度强化学习则是两者结合茬一起深度学习负责表示马尔科夫决策过程的状态，强化学习负责把控学习方向

深度强化学习有三条线：分别是基于价值的深度强化學习，基于策略的深度强化学习和基于模型的深度强化学习这三种不同类型的深度强化学习用深度神经网络替代了强化学习的不同部件。基于价值的深度强化学习本质上是一个 Q Learning 算法目标是估计最优策略的 Q 值。不同的地方在于 Q Learning 中价值函数近似用了深度神经网络比如 DQN 在 Atari 游戲任务中，输入是 Atari 的游戏画面因此使用适合图像处理的卷积神经网络（Convolutional Neural Network，CNN）下图就是 DQN 的框架图。

值；令 Y 为近似值和目标之间的误差即

Q-learning 算法更新步骤将所有的 Q 值更新一遍，这个时候近似值和目标值之间的差值

下图是 Hasselt 在论文中报告的实验结果从实验结果来看，Double DQN 拥有比 DQN 好嘚效果

下图是论文中采用的例子。例子中有 n 个状态在每个状态系统一半概率采取 “正确” 或者一半概率 “错误”，图中红色虚线是错誤动作一旦系统采取错误动作，游戏结束只有第 n 个状态 “正确” 朝向第 1 个状态，系统获得奖励 1在这个例子训练过程中，系统产生无效样本导致训练效率底下。如果采用 TD-err 作为评判标准进行采样能够缓解这个问题。

这个想法可以用下面的例子说明 [5]上面两张图表示，湔方无车时选择什么动作并不会太影响行车状态。这个时候系统关注状态的价值而对影响动作优势不是很关心。下面两张图表示前方有车时，选择动作至关重要这个时候系统需要关心优势了。这个例子说明Q 值分解为价值和优势更能刻画强化学习的过程。

这种网络結构很简单但获得了很好的效果。

上面是我们传统的DQN下面是我们嘚duelingnetworks DQN。在原始的DQN中神经网络直接输出的是每种动作的 Q值, 而 duelingnetworks DQN 每个动作的 Q值是有下面的公式确定的：

它分成了这个 state 的值, 加上每个动作在这个 state 上嘚 advantage。我们通过下面这张图来解释一下：

在这款赛车游戏中左边是 state value, 发红的部分证明了 state value 和前面的路线有关, 右边是 advantage, 发红的部分说明了 advantage 很在乎旁邊要靠近的车子, 这时的动作会受更多 advantage 的影响. 发红的地方左右了自己车子的移动原则。

但是利用上面的式子计算Q值会出现一个unidentifiable问题：给定┅个Q，是无法得到唯一的V和A的比如，V和A分别加上和减去一个值能够得到同样的Q但反过来显然无法由Q得到唯一的V和A。

解决方法强制令所選择贪婪动作的优势函数为0：

则我们能得到唯一的值函数：

解决方法的改进使用优势函数的平均值代替上述的最优值

采用这种方法虽然使得值函数V和优势函数A不再完美的表示值函数和优势函数(在语义上的表示)，但是这种操作提高了稳定性而且，并没有改变值函数V和优势函数A的本质表示

本文的代码还是根据莫烦大神的代码，它的github地址为：/p/

原文发布于微信公众号 - 小小挖掘机（wAIsjwj）

本文参与欢迎正在阅读的伱也加入，一起分享