位置: IT常识 - 正文

强化学习——Q-Learning算法原理

编辑:rootadmin
强化学习——Q-Learning算法原理 一、Q-Learning :异策略时序差分控制

推荐整理分享强化学习——Q-Learning算法原理,希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

从决策方式来看,强化学习可以分为基于策略的方法(policy-based)和基于价值的方法(value-based)。基于策略的方法直接对策略进行优化,使制定的的策略能够获得最大的奖励。基于价值的强化学习方法中,智能体不需要制定显式的策略,它维护一个价值表格或价值函数,通过这个价值表格或价值函数来选取价值最大的动作。 Q-Learning 算法就是一种value-based的强化学习算法。

二、算法思想:

Q(s,a)是状态价值函数,表示在某一具体初始状态s和动作a的情况下,对未来收益的期望值。 Q-Learning算法维护一个Q-table,Q-table记录了不同状态下s(s∈S),采取不同动作a(a∈A)的所获得的Q值。

Q-tablea1a2a3…s1Q(s1,a1)Q(s1,a2)Q(s1,a3)s2Q(s2,a1)Q(s2,a2)Q(s2,a3)s3Q(s3,a1)Q(s3,a2)Q(s3,a3)…

探索环境之前,初始化Q-table,当agent与环境交互的过程中,算法利用贝尔曼方程(ballman equation)来迭代更新Q(s,a),每一轮结束后就生成了一个新的Q-table。agent不断与环境进行交互,不断更新这个表格,使其最终能收敛。最终,agent就能通过表格判断在某个转态s下采取什么动作,才能获得最大的Q值。

三、更新过程

更新方法: Q(st,at)←Q(st,at)+α[rt+1+γmax⁡aQ(st+1,a)−Q(st,at)]Q(s_t,a_t) \leftarrow Q(s_t,a_t) + \alpha [r_{t+1}+ \gamma \max_aQ(s_{t+1},a) - Q(s_t,a_t) ]Q(st​,at​)←Q(st​,at​)+α[rt+1​+γamax​Q(st+1​,a)−Q(st​,at​)]

Q(st,at){\color{Red} Q(s_t,a_t)}Q(st​,at​) 是在状态sts_tst​下采取动作ata_tat​的长期回报,是一个估计Q值

rt+1{\color{Red} r_{t+1}}rt+1​ 是在状态sts_tst​下执行动作ata_tat​得到的回报reward

强化学习——Q-Learning算法原理

max⁡aQ(st+1,a){\color{Red} \max_aQ(s_{t+1},a)}maxa​Q(st+1​,a) 指的是在状态st+1s_{t+1}st+1​下所获得的最大Q值,直接看Q-table,取它的最大化的值。γ\gammaγ是折扣因子,含义是看重近期收益,弱化远期收益,同时也保证Q函数收敛。

(rt+1+γmax⁡aQ(st+1,a){\color{Red} (r_{t+1}+ \gamma \max_aQ(s_{t+1},a)}(rt+1​+γmaxa​Q(st+1​,a) 即为目标值,就是时序差分目标,是Q(st,at)Q(s_t,a_t)Q(st​,at​) 想要逼近的目标。α\alphaα是学习率,衡量更新的幅度。

当目标值和估计值的差值趋于0的时候,Q(s,a)就不再继续变化,Q 表趋于稳定,说明得到了一个收敛的结果。这就是算法想要达到的效果。

注意:max⁡aQ(st+1,a){\color{Red} \max_aQ(s_{t+1},a)}maxa​Q(st+1​,a)所对应的动作不一定是下一步会执行的实际动作! 这里引出ε−greedy{\color{Red} \varepsilon-greedy}ε−greedy,即 ε−\varepsilon-ε−贪心算法。 在智能体探索过程中,执行的动作采用ε−greedy{\color{Red} \varepsilon-greedy}ε−greedy策略,是权衡exploitation-exploration(利用和探索)的超参数。

exploration:探索环境,通过尝试不同的动作来得到最佳策略(带来最大奖励的策略)exploitation:不去尝试新的动作,利用已知的可以带来很大奖励的动作。Q-Learning算法中,就是根据Q-table选择当前状态下能使Q值最大的动作。

在刚开始的时候,智能体不知道采取某个动作后会发生什么,所以只能通过试错去探索。利用是指直接采取已知的可以带来很好奖励的动作。这里面临一个权衡问题,即怎么通过牺牲一些短期的奖励来理解动作,从而学习到更好的策略。因此,提出ε−greedy\varepsilon-greedyε−greedy,ε\varepsilonε就是权衡这两方面的超参数。

这篇博客https://blog.csdn.net/zhm2229/article/details/99351831对这部分的理解讲的很好,在此引用一下:

做exploitation和exploration的目的是获得一种长期收益最高的策略,这个过程可能对short-term reward有损失。如果exploitation太多,那么模型比较容易陷入局部最优,但是exploration太多,模型收敛速度太慢。这就是exploitation-exploration权衡。

比如我们设ε\varepsilonε=0.9,随机化一个[0,1]的值,如果它小于ε\varepsilonε,则进行exploration,随机选择动作;如果它大于ε\varepsilonε,则进行exploitation,选择Q value最大的动作。 在训练过程中,ε\varepsilonε在刚开始的时候会被设得比较大,让agent充分探索,然后ε\varepsilonε逐步减少,agent会开始慢慢选择Q value最大的动作

三、伪代码

图源于:百度飞桨AlStudio

参考: [1] 王琦.强化学习教程[M] [2] https://blog.csdn.net/zhm2229/article/details/99351831

本文链接地址:https://www.jiuchutong.com/zhishi/299577.html 转载请保留说明!

上一篇:JSONP数据劫持漏洞(json解析漏洞)

下一篇:Vue3【Vue路由概念、项目引入路由、集成Vue路由 、编程式导航、带参数的动态路由匹配 、嵌套路由、重定向和别名、命名视图、不同的历史模式​】(十)-全面详解(学习总结---从入门到深化)(vue路由的理解)

  • 如何恢复清空的缓存视频(如何恢复清空回收站)(如何恢复清空的历史记录)

    如何恢复清空的缓存视频(如何恢复清空回收站)(如何恢复清空的历史记录)

  • 华为nova9怎么开性能模式(华为nova9怎么开5g)

    华为nova9怎么开性能模式(华为nova9怎么开5g)

  • 华为mate40pro是索尼摄像头吗

    华为mate40pro是索尼摄像头吗

  • 奇异果vip怎么申请退款(奇异果vip怎么买便宜)

    奇异果vip怎么申请退款(奇异果vip怎么买便宜)

  • 耳机寿命一般多久呢(耳机平均寿命)

    耳机寿命一般多久呢(耳机平均寿命)

  • ipad7多大尺寸(ipad7尺寸是多少寸)

    ipad7多大尺寸(ipad7尺寸是多少寸)

  • win10添加不上打印机(windows添加不了打印机)

    win10添加不上打印机(windows添加不了打印机)

  • 苹果11摄像头防刮吗(苹果11摄像头防水吗)

    苹果11摄像头防刮吗(苹果11摄像头防水吗)

  • nova7支持红外吗(华为nova 7支持红外功能吗)

    nova7支持红外吗(华为nova 7支持红外功能吗)

  • 支付宝指纹解锁怎么关掉(支付宝指纹解锁暂不可用怎么回事)

    支付宝指纹解锁怎么关掉(支付宝指纹解锁暂不可用怎么回事)

  • 重复文件可以删除吗(重复文件可以删除吗电脑)

    重复文件可以删除吗(重复文件可以删除吗电脑)

  • matepadpro上市时间(matepad pro 发布)

    matepadpro上市时间(matepad pro 发布)

  • 陌陌多久才能发语音通话(陌陌多久发一条消息不会被屏蔽)

    陌陌多久才能发语音通话(陌陌多久发一条消息不会被屏蔽)

  • 微信朋友圈谁可以看对方知道吗(微信朋友圈谁可以看是不是只有选中的人才能看)

    微信朋友圈谁可以看对方知道吗(微信朋友圈谁可以看是不是只有选中的人才能看)

  • 为什么蓝牙耳机没有声音(为什么蓝牙耳机连接了却没有声音)

    为什么蓝牙耳机没有声音(为什么蓝牙耳机连接了却没有声音)

  • 拼多多购买记录在哪(拼多多购买记录怎么找)

    拼多多购买记录在哪(拼多多购买记录怎么找)

  • 荣耀9x解锁方式有几种(荣耀9x锁屏密码忘了怎么解)

    荣耀9x解锁方式有几种(荣耀9x锁屏密码忘了怎么解)

  • 微信支付电话号码怎么改(微信支付电话号码不是本人的可以吗)

    微信支付电话号码怎么改(微信支付电话号码不是本人的可以吗)

  • 交换群一定是无限的吗(交换群一定是可解群吗)

    交换群一定是无限的吗(交换群一定是可解群吗)

  • 优酷会员微信登录怎么共享(优酷会员微信登录怎么分享给别人使用)

    优酷会员微信登录怎么共享(优酷会员微信登录怎么分享给别人使用)

  • vr一体机和手机vr区别(vr一体机和手机怎么连接)

    vr一体机和手机vr区别(vr一体机和手机怎么连接)

  • 苹果6p有实况吗(苹果6版本过低如何升级ios13)

    苹果6p有实况吗(苹果6版本过低如何升级ios13)

  • qq怎么关闭更感兴趣(怎么关闭qq自动更新功能)

    qq怎么关闭更感兴趣(怎么关闭qq自动更新功能)

  • 手机怎么测距离(手机怎么测距离和面积)

    手机怎么测距离(手机怎么测距离和面积)

  • 常见的输入输出设备(常见的输入输出接口)

    常见的输入输出设备(常见的输入输出接口)

  • 电脑接入固态硬盘就死机怎么回事?(固态硬盘如何接入电脑)

    电脑接入固态硬盘就死机怎么回事?(固态硬盘如何接入电脑)

  • SwiftUI 布局协议 - Part1(swift 协议扩展)

    SwiftUI 布局协议 - Part1(swift 协议扩展)

  • 房产税的计税基础包括契税吗
  • 企业销售商品房需要缴纳什么税费
  • 公司给员工租的宿舍怎么交税
  • 应纳税所得额是含税还是不含税
  • 应付款为什么是负数
  • 洗车费怎么做会计分录
  • 计提存货跌价准备怎么计算
  • 过次页的金额怎么来的
  • 建筑工程免税项目
  • 计提缴纳印花税怎么做账
  • 息税折旧摊销前利润是什么意思
  • 购买电脑配件的网址
  • 没超过标准的招待费缴税吗
  • 房产税税计入什么科目
  • 营改增后增值税科目
  • 六月涉税提醒通知
  • 保险公司联合举办活动
  • 计提工资多计提,如何做冲销
  • 外贸企业出口退税计算公式
  • 软件企业证书应该考什么
  • 原材料账户期末贷方余额反映
  • 产业扶持周转金退回多久到账
  • 预定机票如何正常退票
  • 香港公司的法人叫什么
  • 非营利组织企业所得税政策
  • 个人股东企业分红一共需要交多少税
  • 企业的污水处理设备可以间断性运行么
  • 筹建期固定资产汇算清缴
  • 应交税金年末
  • 增值税中进项税额比对异常能作废申报吗
  • 房地产企业将开发产品抵押后再销售
  • 预缴土地增值税有滞纳金吗
  • win11玩游戏鼠标卡顿
  • echarts纵坐标加单位
  • 电脑刷新率怎么调低
  • 无形资产的摊销年限不得低于多少年
  • 拍到国际空间站过境
  • phpstudy访问数据库
  • 企业购进的商品是什么
  • angular 初学者快速上手教程
  • 学电脑网站
  • mongodb使用场景总结
  • 其他应付款不用付了会计分录
  • 企业所得税的内容比土地增值税的多了
  • 受托加工的物资是存货吗
  • 注销公司需要承担什么责任
  • 先开销项发票
  • 应交税费会计核算
  • 小规模纳税人开专票税率是1%还是3%
  • 模具成本核算汇总表
  • 上期留抵税额可以留多久
  • 建筑 营改增
  • 因产品质量问题造成的损失怎么赔偿
  • 工资计提数小于发放数,如何处理
  • 公账直接转给个人,对公司有什么影响吗
  • 营业外支出增加说明了什么
  • 高新技术企业享受优惠时间
  • 物业管理企业应设置代管基金和代收款项账户
  • mysql工作内容
  • 阿里云安装apache
  • 扫清落叶堆怎么扫
  • xp系统怎么弄成win7
  • slserves.exe - slserves是什么进程
  • linux常见压缩工具
  • 因以下文件的损坏或者丢失,windows无法启动hal.dll
  • win10教育系统
  • Win7系统启动密码
  • windows10x预览版
  • linux入门知识
  • linux在服务器领域的应用状况
  • windows 8开机
  • node.js 10实战
  • Windows下自动备份MongoDB的批处理脚本
  • opengl 透视投影
  • python爬虫正则
  • andriod+nfc
  • python3.9爬取网页教程
  • jquery按钮点击事件
  • js怎么获取密码框内容
  • 中国税务定额发票怎么开
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设