位置: IT常识 - 正文

主动学习(Active Learning,AL)的理解以及代码流程讲解

编辑:rootadmin
主动学习(Active Learning,AL)的理解以及代码流程讲解 为什么要使用主动学习(Active Learning,AL)

推荐整理分享主动学习(Active Learning,AL)的理解以及代码流程讲解,希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

针对有监督的学习任务,存在标记成本较为昂贵且标记难以大量获取的问题。 在此问题背景下,主动学习(Active Learning, AL)尝试通过选择性的标记较少数据而训练出表现较好的模型。

例如,此时我们有大量的猫和狗的数据,假设人为标记他们的类别是成本非常高的事情,这时需要用到主动学习从中挑选部分数据对他们进行标注以节约成本,用主动模型选取出的标注数据训练的模型比随机选取出的相同数量的标注数据训练的模型精度更高。

如图所示,图(a)是全部数据集,图©中使用主动学习策略仅选取30个样本训练出的逻辑回归模型即可达到90%的准确率,而图(b)中随机选取的30个样本训练出的模型却相对表现较差。

主动学习的工作流程

主动学习的关键是你选择的模型、使用的不确定性度量以及应用于请求标注的查询策略。

1.收集数据&选取模型

开始先选择一定数量的数据进行标注,选取我们需要训练的模型(比如逻辑回归模型)。

2.训练模型

将标注好的数据放入模型中进行训练,此时精度不会很高。

3.判断精度是否达到要求主动学习(Active Learning,AL)的理解以及代码流程讲解

①若精度达到要求(比如99%),则表示模型以及训练好,可以应用。 ②若精度没有达到要求(比如只有12%),则表示模型未被训练好,这是需要利用主动学习选取对模型精度的提高最有用的数据进行人工标注。

4.定义查询策略

包括度量预测的不确定度和应用于请求标注的查询策略,返回策略选择出的需要标注的数据,进行人工标注,转至第2步。 例如:

def custom_query_strategy(classifer, X): utility = utility_measure(classifer, X) #度量预测的不确定度 query_idx = select_instances(utility) #应用于请求标注的查询策略 return query_idx,X[query_idx]主动学习的pytorch编码流程

主动学习的编写代码流程如下:

代码实战

接下来我们以一个主动回归例子为主,实现主动学习的编码。

1.导入相应的包import numpy as npimport matplotlib.pyplot as pltfrom sklearn.gaussian_process import GaussianProcessRegressorfrom sklearn.gaussian_process.kernels import WhiteKernel, RBFfrom modAL.models import ActiveLearner%matplotlib inline2.数据集准备以及初始数据集的选取# 生成回归数据集 加高斯噪声X = np.random.choice(np.linspace(0, 20, 10000), size=200, replace=False).reshape(-1, 1)y = np.sin(X) + np.random.normal(scale=0.3, size=X.shape)#原始数据集可视化with plt.style.context('seaborn-white'): plt.figure(figsize=(10, 5)) plt.scatter(X, y, c='k', s=20) plt.title('sin(x) + noise') plt.show()# 初始数据集的选取n_initial = 5 # 最开始随机选取5个标注好的数据集进行训练initial_idx = np.random.choice(range(len(X)), size=n_initial, replace=False)X_training, y_training = X[initial_idx], y[initial_idx]

3.定义主动学习器ActiveLeaner

(参数包括模型的选取estimator、应用于请求标注的查询策略query_stategy以及初始数据) 我们使用高斯回归作为模型进行训练GaussianProcessRegressor

#定义estimator高斯回归模型的核函数kernel = RBF(length_scale=1.0, length_scale_bounds=(1e-2, 1e3)) \ + WhiteKernel(noise_level=1, noise_level_bounds=(1e-10, 1e+1))#定义query_stategy应用于请求标注的查询策略def GP_regression_std(regressor, X): _, std = regressor.predict(X, return_std=True) #不确定度度量 query_idx = np.argmax(std) #样本的选取 return query_idx, X[query_idx]#定义ActiveLeaner 主动学习器regressor = ActiveLearner( estimator=GaussianProcessRegressor(kernel=kernel), query_strategy=GP_regression_std, X_training=X_training.reshape(-1, 1), y_training=y_training.reshape(-1, 1))#可视化初始模型的精度状况X_grid = np.linspace(0, 20, 1000)y_pred, y_std = regressor.predict(X_grid.reshape(-1, 1), return_std=True)y_pred, y_std = y_pred.ravel(), y_std.ravel()with plt.style.context('seaborn-white'): plt.figure(figsize=(10, 5)) plt.plot(X_grid, y_pred) plt.fill_between(X_grid, y_pred - y_std, y_pred + y_std, alpha=0.2) plt.scatter(X, y, c='k', s=20) plt.title('Initial prediction') plt.show()

4.定义n_queries(要标记数据的数量)进行主动学习#定义n_queries(要标记数据的数量)进行主动学习n_queries = 10for idx in range(n_queries): query_idx, query_instance = regressor.query(X) regressor.teach(X[query_idx].reshape(1, -1), y[query_idx].reshape(1, -1))5.最终结果可视化y_pred_final, y_std_final = regressor.predict(X_grid.reshape(-1, 1), return_std=True)y_pred_final, y_std_final = y_pred_final.ravel(), y_std_final.ravel()with plt.style.context('seaborn-white'): plt.figure(figsize=(10, 8)) plt.plot(X_grid, y_pred_final) plt.fill_between(X_grid, y_pred_final - y_std_final, y_pred_final + y_std_final, alpha=0.2) plt.scatter(X, y, c='k', s=20) plt.title('Prediction after active learning') plt.show()

可见,使用主动学习的方法让我们仅使用了25个点就拟合出1000个点生成的图像,大大节约了人工标记的成本。

参考链接: https://zhuanlan.zhihu.com/p/377045943

本文链接地址:https://www.jiuchutong.com/zhishi/299532.html 转载请保留说明!

上一篇:瑞吉外卖项目剩余功能补充(瑞吉接送)

下一篇:前端已死?金三银四?你收到offer了吗?

  • 2017微信推广:大数据提速流量变现(微信推广有效果吗)

    2017微信推广:大数据提速流量变现(微信推广有效果吗)

  • 苹果蓝牙耳机丢了能找回吗(苹果蓝牙耳机丢了怎么定位找到)

    苹果蓝牙耳机丢了能找回吗(苹果蓝牙耳机丢了怎么定位找到)

  • 华为荣耀20s用什么耳机(华为荣耀20s用什么充电器)

    华为荣耀20s用什么耳机(华为荣耀20s用什么充电器)

  • 小米8se机身材质(小米8se外形尺寸多大)

    小米8se机身材质(小米8se外形尺寸多大)

  • 微信跑码是什么意思啊(微信聊天跑马)

    微信跑码是什么意思啊(微信聊天跑马)

  • 微信群被投诉会不会影响群成员(微信群投诉会不会显示投诉人)

    微信群被投诉会不会影响群成员(微信群投诉会不会显示投诉人)

  • 打印机主板坏了,机器有哪些表现(打印机主板坏了能修吗)

    打印机主板坏了,机器有哪些表现(打印机主板坏了能修吗)

  • 如何关闭微信视频号功能(如何关闭微信视频号的点赞)

    如何关闭微信视频号功能(如何关闭微信视频号的点赞)

  • iphone11充电98就不动了(苹果11充电98直接跳到100)

    iphone11充电98就不动了(苹果11充电98直接跳到100)

  • 拼多多绑定第三方店铺什么意思(拼多多绑定第三方店铺教程视频)

    拼多多绑定第三方店铺什么意思(拼多多绑定第三方店铺教程视频)

  • 探探超级喜欢和普通喜欢有什么区别(探探超级喜欢是什么)

    探探超级喜欢和普通喜欢有什么区别(探探超级喜欢是什么)

  • 2010powerpoint扩展名(powerpoint2020扩展名)

    2010powerpoint扩展名(powerpoint2020扩展名)

  • 组成网络的必须设备有哪些(构成网络的要素分别是什么)

    组成网络的必须设备有哪些(构成网络的要素分别是什么)

  • 屏蔽消息是什么意思(屏蔽发信息显示什么)

    屏蔽消息是什么意思(屏蔽发信息显示什么)

  • ipad闹钟不关会一直响吗(ipad闹钟不关会响一天么oppo)

    ipad闹钟不关会一直响吗(ipad闹钟不关会响一天么oppo)

  • vivox30上市多久了(vivox30出来多久了)

    vivox30上市多久了(vivox30出来多久了)

  • 苹果xr和8p参数对比(苹果xr和8p参数配置)

    苹果xr和8p参数对比(苹果xr和8p参数配置)

  • iphone6s发烫正常吗(苹果手机6s发烫)

    iphone6s发烫正常吗(苹果手机6s发烫)

  • 万门大学视频怎么导出(万门大学视频下载地址)

    万门大学视频怎么导出(万门大学视频下载地址)

  • 手机怎么拍雨丝(红米手机怎么拍雨丝)

    手机怎么拍雨丝(红米手机怎么拍雨丝)

  • 拥塞控制和流量控制的区别(拥塞控制和流量控制都使用滑动窗口机制)

    拥塞控制和流量控制的区别(拥塞控制和流量控制都使用滑动窗口机制)

  • 计算机网络默认网关怎么算详情(计算机网络默认网关什么意思)

    计算机网络默认网关怎么算详情(计算机网络默认网关什么意思)

  • 以新西兰南岛奥拉基/库克山国家公园为背景的特卡波湖 (© Sophie Dover/Getty Images)(新西兰南岛西南部)

    以新西兰南岛奥拉基/库克山国家公园为背景的特卡波湖 (© Sophie Dover/Getty Images)(新西兰南岛西南部)

  • Vue--》详解Vue组件生命周期的三个阶段(vue组件入门)

    Vue--》详解Vue组件生命周期的三个阶段(vue组件入门)

  • 城建税计税依据公式
  • 物业公司停车位出租发票税率是多少钱
  • 公积金贷款金额少怎么办
  • 2个公司的法人是谁
  • 税控盘反写显没有数据怎么处理
  • 本期实际缴费金额指的是什么
  • 支付员工提成奖金怎么做会计分录?
  • 固定资产后续支出
  • 盘亏材料10000元,可以回收的保险赔偿
  • 企业所得税利润总额和财务报表利润总额不一致
  • 企业融资租赁设立条件
  • 未分配利润转出
  • 增值税电子发票怎么下载
  • 无形资产评估增值
  • 金税三期啥意思
  • 金税盘的年费怎么做抵扣帐
  • 建筑企业增值税预缴
  • 危险废物处理费用发票怎么开
  • 上级工会返还的会计分录
  • 无租房合同可以取住房公积金吗
  • 固定资产原值变更当月计提折旧
  • 纳税人证明是完税证明吗
  • 计提养老保险会计分录怎么做
  • 税务要求企业所得税预缴申报更正
  • 收到运费怎么做账
  • 公司年检需要什么资料
  • 在windows中,经常有一些菜单选项呈暗灰色
  • 固定资产清理和固定资产减值准备的区别
  • 跨月冲红发票需收回原发票
  • 政府专项基金是什么
  • 计提劳务派遣人数怎么算
  • 不用指令
  • php和mysql web开发怎么样
  • 委托境外机构研发费加计扣除80%
  • 会计凭证应该如何录入的方法
  • 货物运输业增值税专用发票
  • 图卷积神经网络原理
  • 商业汇票抵付前欠货款的分录
  • 寓意幸福和团圆的网名
  • php编辑器哪个好
  • 好用的5款国产手机推荐
  • 保安行业税率是多少
  • nodejs hook
  • 苹果系统推送通知
  • 视同销售实物出资是否开专票吗
  • js对象模型是什么
  • 企业预收账款缴纳个税吗
  • windows PostgreSQL 9.1 安装详细步骤
  • mongodb操作数据库
  • sql server2005使用方法
  • 计提的坏账准备计入什么科目
  • 息税前利润的计算公式中的利息费用
  • 工会经费到底是什么
  • 工业企业外购存货的实际成本不包括
  • 本月未抵扣完的进项税是否转出
  • 政府扶持资金怎么做账
  • 将自产产品用于管理部门 增值税
  • 人力资源服务费是什么意思
  • 发票每月上报汇总怎么弄
  • 外购的货物发生下列用途时,不能抵扣进项税额的是
  • 一般户和基本户怎么使用最好
  • 没有期初数据会怎么样
  • mysql数据库innodb
  • sqlserver索引类型区别
  • sqlserver查询语句大全讲解
  • ubuntu20.10桌面
  • centos7安装过程报错
  • 通过防火墙可以保证窃听到的信息毫无价值
  • win8手机版
  • 打开 itunes
  • Cocos2d-x 3.0final 终结者系列教程23CocosStudio UI组件使用大全Cocos2d-x3.2使用
  • 微信小程序实现留言功能
  • jquery fadein 源码
  • linux服务器硬件配置要求
  • 究竟什么是幸福
  • 批处理提取文件夹中的文件
  • javascript怎么用
  • 抛物线动画演示视频
  • jquery写函数
  • 留抵税额可以留抵多久
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设