位置: IT常识 - 正文

强化学习——Q-Learning算法原理

编辑:rootadmin
强化学习——Q-Learning算法原理 一、Q-Learning :异策略时序差分控制

推荐整理分享强化学习——Q-Learning算法原理,希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

从决策方式来看,强化学习可以分为基于策略的方法(policy-based)和基于价值的方法(value-based)。基于策略的方法直接对策略进行优化,使制定的的策略能够获得最大的奖励。基于价值的强化学习方法中,智能体不需要制定显式的策略,它维护一个价值表格或价值函数,通过这个价值表格或价值函数来选取价值最大的动作。 Q-Learning 算法就是一种value-based的强化学习算法。

二、算法思想:

Q(s,a)是状态价值函数,表示在某一具体初始状态s和动作a的情况下,对未来收益的期望值。 Q-Learning算法维护一个Q-table,Q-table记录了不同状态下s(s∈S),采取不同动作a(a∈A)的所获得的Q值。

Q-tablea1a2a3…s1Q(s1,a1)Q(s1,a2)Q(s1,a3)s2Q(s2,a1)Q(s2,a2)Q(s2,a3)s3Q(s3,a1)Q(s3,a2)Q(s3,a3)…

探索环境之前,初始化Q-table,当agent与环境交互的过程中,算法利用贝尔曼方程(ballman equation)来迭代更新Q(s,a),每一轮结束后就生成了一个新的Q-table。agent不断与环境进行交互,不断更新这个表格,使其最终能收敛。最终,agent就能通过表格判断在某个转态s下采取什么动作,才能获得最大的Q值。

三、更新过程

更新方法: Q(st,at)←Q(st,at)+α[rt+1+γmax⁡aQ(st+1,a)−Q(st,at)]Q(s_t,a_t) \leftarrow Q(s_t,a_t) + \alpha [r_{t+1}+ \gamma \max_aQ(s_{t+1},a) - Q(s_t,a_t) ]Q(st​,at​)←Q(st​,at​)+α[rt+1​+γamax​Q(st+1​,a)−Q(st​,at​)]

Q(st,at){\color{Red} Q(s_t,a_t)}Q(st​,at​) 是在状态sts_tst​下采取动作ata_tat​的长期回报,是一个估计Q值

rt+1{\color{Red} r_{t+1}}rt+1​ 是在状态sts_tst​下执行动作ata_tat​得到的回报reward

强化学习——Q-Learning算法原理

max⁡aQ(st+1,a){\color{Red} \max_aQ(s_{t+1},a)}maxa​Q(st+1​,a) 指的是在状态st+1s_{t+1}st+1​下所获得的最大Q值,直接看Q-table,取它的最大化的值。γ\gammaγ是折扣因子,含义是看重近期收益,弱化远期收益,同时也保证Q函数收敛。

(rt+1+γmax⁡aQ(st+1,a){\color{Red} (r_{t+1}+ \gamma \max_aQ(s_{t+1},a)}(rt+1​+γmaxa​Q(st+1​,a) 即为目标值,就是时序差分目标,是Q(st,at)Q(s_t,a_t)Q(st​,at​) 想要逼近的目标。α\alphaα是学习率,衡量更新的幅度。

当目标值和估计值的差值趋于0的时候,Q(s,a)就不再继续变化,Q 表趋于稳定,说明得到了一个收敛的结果。这就是算法想要达到的效果。

注意:max⁡aQ(st+1,a){\color{Red} \max_aQ(s_{t+1},a)}maxa​Q(st+1​,a)所对应的动作不一定是下一步会执行的实际动作! 这里引出ε−greedy{\color{Red} \varepsilon-greedy}ε−greedy,即 ε−\varepsilon-ε−贪心算法。 在智能体探索过程中,执行的动作采用ε−greedy{\color{Red} \varepsilon-greedy}ε−greedy策略,是权衡exploitation-exploration(利用和探索)的超参数。

exploration:探索环境,通过尝试不同的动作来得到最佳策略(带来最大奖励的策略)exploitation:不去尝试新的动作,利用已知的可以带来很大奖励的动作。Q-Learning算法中,就是根据Q-table选择当前状态下能使Q值最大的动作。

在刚开始的时候,智能体不知道采取某个动作后会发生什么,所以只能通过试错去探索。利用是指直接采取已知的可以带来很好奖励的动作。这里面临一个权衡问题,即怎么通过牺牲一些短期的奖励来理解动作,从而学习到更好的策略。因此,提出ε−greedy\varepsilon-greedyε−greedy,ε\varepsilonε就是权衡这两方面的超参数。

这篇博客https://blog.csdn.net/zhm2229/article/details/99351831对这部分的理解讲的很好,在此引用一下:

做exploitation和exploration的目的是获得一种长期收益最高的策略,这个过程可能对short-term reward有损失。如果exploitation太多,那么模型比较容易陷入局部最优,但是exploration太多,模型收敛速度太慢。这就是exploitation-exploration权衡。

比如我们设ε\varepsilonε=0.9,随机化一个[0,1]的值,如果它小于ε\varepsilonε,则进行exploration,随机选择动作;如果它大于ε\varepsilonε,则进行exploitation,选择Q value最大的动作。 在训练过程中,ε\varepsilonε在刚开始的时候会被设得比较大,让agent充分探索,然后ε\varepsilonε逐步减少,agent会开始慢慢选择Q value最大的动作

三、伪代码

图源于:百度飞桨AlStudio

参考: [1] 王琦.强化学习教程[M] [2] https://blog.csdn.net/zhm2229/article/details/99351831

本文链接地址:https://www.jiuchutong.com/zhishi/299577.html 转载请保留说明!

上一篇:JSONP数据劫持漏洞(json解析漏洞)

下一篇:Vue3【Vue路由概念、项目引入路由、集成Vue路由 、编程式导航、带参数的动态路由匹配 、嵌套路由、重定向和别名、命名视图、不同的历史模式​】(十)-全面详解(学习总结---从入门到深化)(vue路由的理解)

  • 儿童类自媒体要怎么做? 00 后中小学生在关注些什么?(育儿类自媒体)

    儿童类自媒体要怎么做? 00 后中小学生在关注些什么?(育儿类自媒体)

  • realme gt neo2重量是多少(realme gt neo2手机尺寸)

    realme gt neo2重量是多少(realme gt neo2手机尺寸)

  • ps怎么羽化(ps怎么羽化选区填充颜色)

    ps怎么羽化(ps怎么羽化选区填充颜色)

  • 小米手机的热点在哪里(小米手机的热点电脑搜不到怎么办)

    小米手机的热点在哪里(小米手机的热点电脑搜不到怎么办)

  • 华为荣耀9x有指纹解锁功能吗(华为荣耀9x有指纹功能吗)

    华为荣耀9x有指纹解锁功能吗(华为荣耀9x有指纹功能吗)

  • 钉钉直播课可以看回放吗(钉钉直播课可以投屏到电视上吗)

    钉钉直播课可以看回放吗(钉钉直播课可以投屏到电视上吗)

  • 华为手环怎么换表带(华为手环怎么换自定义表盘)

    华为手环怎么换表带(华为手环怎么换自定义表盘)

  • 好友互动标识关闭了对方看得到吗(好友互动标识关闭后在开开就没了)

    好友互动标识关闭了对方看得到吗(好友互动标识关闭后在开开就没了)

  • 拍照和扫描有什么区别(拍照扫描有什么用)

    拍照和扫描有什么区别(拍照扫描有什么用)

  • 网易手机绑定达到上限(网易手机绑定达人怎么绑)

    网易手机绑定达到上限(网易手机绑定达人怎么绑)

  • 苹果7p微信怎么分身(苹果7p微信怎么更新)

    苹果7p微信怎么分身(苹果7p微信怎么更新)

  • 在word中默认的对齐方式是(在word中默认的字体字号是)

    在word中默认的对齐方式是(在word中默认的字体字号是)

  • 在word中撤销功能的快捷键是(word中的撤销操作)

    在word中撤销功能的快捷键是(word中的撤销操作)

  • 如何去掉word图片框线(如何去掉word图片的阴影效果)

    如何去掉word图片框线(如何去掉word图片的阴影效果)

  • 拼多多怎么无物流发货(拼多多怎么无物流发货订单)

    拼多多怎么无物流发货(拼多多怎么无物流发货订单)

  • 如何在word中建立目录(如何在word中建立坐标系)

    如何在word中建立目录(如何在word中建立坐标系)

  • 屏幕出现圆圈怎么关闭(屏幕出现圆圈怎么关闭 苹果)

    屏幕出现圆圈怎么关闭(屏幕出现圆圈怎么关闭 苹果)

  • vivox21多重(vivoX21多重)

    vivox21多重(vivoX21多重)

  • 拼多多可以查总消费吗(拼多多可以查总共花了多少钱吗)

    拼多多可以查总消费吗(拼多多可以查总共花了多少钱吗)

  • 拼多多商品详情图尺寸(拼多多商品详情是真实的吗)

    拼多多商品详情图尺寸(拼多多商品详情是真实的吗)

  • 小米6后盖碎了影响大吗(小米6后盖碎了会不会导电)

    小米6后盖碎了影响大吗(小米6后盖碎了会不会导电)

  • qq绿钻怎么取消自动付费(qq绿钻怎么取消显示)

    qq绿钻怎么取消自动付费(qq绿钻怎么取消显示)

  • 鹤望兰的养殖方法(图文)(鹤望兰的养殖方法和注意事项浇水)

    鹤望兰的养殖方法(图文)(鹤望兰的养殖方法和注意事项浇水)

  • mybatis常用标签(refid、foreach、trim)(mybatis isnotempty标签)

    mybatis常用标签(refid、foreach、trim)(mybatis isnotempty标签)

  • 请文明学习手语脏话(文明手语动作)

    请文明学习手语脏话(文明手语动作)

  • 车保保险合同
  • 借款利息收入是企业收入吗
  • 外贸企业出口货物
  • 先申报财务报表还是企业所得税汇算清缴
  • 2023年增值税税率表
  • 如何查询企业税务状态
  • 个人独资企业需要监事吗
  • 超市小票能否入库
  • 工程中常见的土方工程有哪些
  • 网上申报中月平均工资怎么计算
  • 2019未达起征点免税分录
  • 投资收益企业所得税优惠政策
  • 用友u8如何计提折旧生成凭证
  • 过桥过闸通行费会计分录
  • 收到损坏赔偿款怎么入账
  • 关联方交易影响因素
  • 限售股流通股
  • 供应商发出货物,将发货单提交给
  • 个体工商户生产经营所得税率
  • 预付账款转入其他非流动资产
  • 工程技术服务费和技术服务费
  • 由于审计环境的变化
  • 企业网上申报国税流程
  • 经营活动现金流量净额
  • 两万元大写金额报销单怎么写
  • 应纳税所得额未减上季度所得税,下季度可补减吗
  • 加工业务怎么报税的
  • 公司付电费发票怎么做账
  • 进项税大于销项税会计分录月末
  • 收到客户付款 会计分录
  • ekb install
  • 解决肚子胀气最快方法
  • js map foreach遍历
  • cuda torch
  • 税款滞纳金会计处理
  • 采用汇兑的方式归还前欠货款
  • 按实际成本结转6日和7日的材料采购成本
  • 公司注销账面实收资本如何处理
  • 【深度学习】详解 MAE
  • 列表定义格式
  • 货款收不回来了怎么做账
  • nginx运行python
  • 员工办理健康证需要什么材料
  • phpcms模板制作教程
  • mysql基本sql语句大全(基础用语篇)
  • python操作yaml文件
  • 招待客户发生的住宿费可以抵扣吗
  • 金税盘税务申报流程
  • 购置环保设备一次性扣除
  • 顺流交易和逆流交易会计分录
  • 个人独资企业费用扣除
  • 超市预付卡销售会计分录
  • 业务招待费如何扣除
  • 上个月结转的流量下个月能用吗
  • 汽车折旧年限及残值率是多少
  • 购入商品货款尚未支付
  • 购买原材料材料尚未验收入库,款项尚未支付
  • 收到分公司负责人的礼物
  • Mysql row number()排序函数的用法和注意
  • bios设置光盘启动图解
  • Ubuntu修复安装
  • 硬盘安装ubuntu18
  • win7网卡驱动怎么卸载
  • windows10周年更新
  • Win10 Mobile 10586.29重要更新 可以玩wp7中的游戏
  • win7打开摄像头权限
  • 安卓飞行手游
  • css+div布局的常用方法
  • Javascript WebSocket使用实例介绍(简明入门教程)
  • nodejs test
  • python remote
  • python的编码
  • 外部js获取当前vue实例
  • 成品油消费税税率2023
  • 报fob价格最后谁退税
  • 陕西省地税稽查局吴爱成
  • 南宁地方税务局网站
  • 购买增值税发票税务局打电话来问怎么处理?
  • 消费税申报详细操作流程
  • 税务师如何执业
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设