位置: IT常识 - 正文

主动学习(Active Learning,AL)的理解以及代码流程讲解

编辑:rootadmin
主动学习(Active Learning,AL)的理解以及代码流程讲解 为什么要使用主动学习(Active Learning,AL)

推荐整理分享主动学习(Active Learning,AL)的理解以及代码流程讲解,希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

针对有监督的学习任务,存在标记成本较为昂贵且标记难以大量获取的问题。 在此问题背景下,主动学习(Active Learning, AL)尝试通过选择性的标记较少数据而训练出表现较好的模型。

例如,此时我们有大量的猫和狗的数据,假设人为标记他们的类别是成本非常高的事情,这时需要用到主动学习从中挑选部分数据对他们进行标注以节约成本,用主动模型选取出的标注数据训练的模型比随机选取出的相同数量的标注数据训练的模型精度更高。

如图所示,图(a)是全部数据集,图©中使用主动学习策略仅选取30个样本训练出的逻辑回归模型即可达到90%的准确率,而图(b)中随机选取的30个样本训练出的模型却相对表现较差。

主动学习的工作流程

主动学习的关键是你选择的模型、使用的不确定性度量以及应用于请求标注的查询策略。

1.收集数据&选取模型

开始先选择一定数量的数据进行标注,选取我们需要训练的模型(比如逻辑回归模型)。

2.训练模型

将标注好的数据放入模型中进行训练,此时精度不会很高。

3.判断精度是否达到要求主动学习(Active Learning,AL)的理解以及代码流程讲解

①若精度达到要求(比如99%),则表示模型以及训练好,可以应用。 ②若精度没有达到要求(比如只有12%),则表示模型未被训练好,这是需要利用主动学习选取对模型精度的提高最有用的数据进行人工标注。

4.定义查询策略

包括度量预测的不确定度和应用于请求标注的查询策略,返回策略选择出的需要标注的数据,进行人工标注,转至第2步。 例如:

def custom_query_strategy(classifer, X): utility = utility_measure(classifer, X) #度量预测的不确定度 query_idx = select_instances(utility) #应用于请求标注的查询策略 return query_idx,X[query_idx]主动学习的pytorch编码流程

主动学习的编写代码流程如下:

代码实战

接下来我们以一个主动回归例子为主,实现主动学习的编码。

1.导入相应的包import numpy as npimport matplotlib.pyplot as pltfrom sklearn.gaussian_process import GaussianProcessRegressorfrom sklearn.gaussian_process.kernels import WhiteKernel, RBFfrom modAL.models import ActiveLearner%matplotlib inline2.数据集准备以及初始数据集的选取# 生成回归数据集 加高斯噪声X = np.random.choice(np.linspace(0, 20, 10000), size=200, replace=False).reshape(-1, 1)y = np.sin(X) + np.random.normal(scale=0.3, size=X.shape)#原始数据集可视化with plt.style.context('seaborn-white'): plt.figure(figsize=(10, 5)) plt.scatter(X, y, c='k', s=20) plt.title('sin(x) + noise') plt.show()# 初始数据集的选取n_initial = 5 # 最开始随机选取5个标注好的数据集进行训练initial_idx = np.random.choice(range(len(X)), size=n_initial, replace=False)X_training, y_training = X[initial_idx], y[initial_idx]

3.定义主动学习器ActiveLeaner

(参数包括模型的选取estimator、应用于请求标注的查询策略query_stategy以及初始数据) 我们使用高斯回归作为模型进行训练GaussianProcessRegressor

#定义estimator高斯回归模型的核函数kernel = RBF(length_scale=1.0, length_scale_bounds=(1e-2, 1e3)) \ + WhiteKernel(noise_level=1, noise_level_bounds=(1e-10, 1e+1))#定义query_stategy应用于请求标注的查询策略def GP_regression_std(regressor, X): _, std = regressor.predict(X, return_std=True) #不确定度度量 query_idx = np.argmax(std) #样本的选取 return query_idx, X[query_idx]#定义ActiveLeaner 主动学习器regressor = ActiveLearner( estimator=GaussianProcessRegressor(kernel=kernel), query_strategy=GP_regression_std, X_training=X_training.reshape(-1, 1), y_training=y_training.reshape(-1, 1))#可视化初始模型的精度状况X_grid = np.linspace(0, 20, 1000)y_pred, y_std = regressor.predict(X_grid.reshape(-1, 1), return_std=True)y_pred, y_std = y_pred.ravel(), y_std.ravel()with plt.style.context('seaborn-white'): plt.figure(figsize=(10, 5)) plt.plot(X_grid, y_pred) plt.fill_between(X_grid, y_pred - y_std, y_pred + y_std, alpha=0.2) plt.scatter(X, y, c='k', s=20) plt.title('Initial prediction') plt.show()

4.定义n_queries(要标记数据的数量)进行主动学习#定义n_queries(要标记数据的数量)进行主动学习n_queries = 10for idx in range(n_queries): query_idx, query_instance = regressor.query(X) regressor.teach(X[query_idx].reshape(1, -1), y[query_idx].reshape(1, -1))5.最终结果可视化y_pred_final, y_std_final = regressor.predict(X_grid.reshape(-1, 1), return_std=True)y_pred_final, y_std_final = y_pred_final.ravel(), y_std_final.ravel()with plt.style.context('seaborn-white'): plt.figure(figsize=(10, 8)) plt.plot(X_grid, y_pred_final) plt.fill_between(X_grid, y_pred_final - y_std_final, y_pred_final + y_std_final, alpha=0.2) plt.scatter(X, y, c='k', s=20) plt.title('Prediction after active learning') plt.show()

可见,使用主动学习的方法让我们仅使用了25个点就拟合出1000个点生成的图像,大大节约了人工标记的成本。

参考链接: https://zhuanlan.zhihu.com/p/377045943

本文链接地址:https://www.jiuchutong.com/zhishi/299532.html 转载请保留说明!

上一篇:瑞吉外卖项目剩余功能补充(瑞吉接送)

下一篇:前端已死?金三银四?你收到offer了吗?

  • 企业为什么要选择网络营销(企业为什么要选址)

    企业为什么要选择网络营销(企业为什么要选址)

  • 三星s21屏幕材质(三星s21屏幕材质是e4吗)

    三星s21屏幕材质(三星s21屏幕材质是e4吗)

  • iphone13pro和12pro外观一样吗(iphone13pro和12pro重量)

    iphone13pro和12pro外观一样吗(iphone13pro和12pro重量)

  • potato视频加载太慢怎么办

    potato视频加载太慢怎么办

  • ipad可以连鼠标吗(macbook怎么连接蓝牙鼠标)

    ipad可以连鼠标吗(macbook怎么连接蓝牙鼠标)

  • 韩剧tv有没有mac版吗(韩剧tv有没有电脑版)

    韩剧tv有没有mac版吗(韩剧tv有没有电脑版)

  • 视频压缩后会影响视频的质量吗(视频压缩后会影响清晰度吗)

    视频压缩后会影响视频的质量吗(视频压缩后会影响清晰度吗)

  • iphone相册突然清空(iphone相册突然被清空)

    iphone相册突然清空(iphone相册突然被清空)

  • 抖音推送通知关闭会有影响吗(抖音关闭推广通知)

    抖音推送通知关闭会有影响吗(抖音关闭推广通知)

  • 笔记本ss接口是什么(笔记本电脑ss接口没反应)

    笔记本ss接口是什么(笔记本电脑ss接口没反应)

  • 微信怎么回复点赞的人(微信怎么回复点赞的评论)

    微信怎么回复点赞的人(微信怎么回复点赞的评论)

  • 如何给软件上锁(如何给软件上锁?)

    如何给软件上锁(如何给软件上锁?)

  • 淘宝店铺pid在哪里看(淘宝店铺的pid在哪里)

    淘宝店铺pid在哪里看(淘宝店铺的pid在哪里)

  • 怎样让ipad每次下载需要密码(pad怎样设置每次使用时间吗)

    怎样让ipad每次下载需要密码(pad怎样设置每次使用时间吗)

  • 怎么下载itunes(苹果平板怎么下载itunes)

    怎么下载itunes(苹果平板怎么下载itunes)

  • 苹果7的访问限制在哪(苹果7的访问限制消失了)

    苹果7的访问限制在哪(苹果7的访问限制消失了)

  • 魅族16s有呼吸灯吗(魅族16s呼吸灯设置)

    魅族16s有呼吸灯吗(魅族16s呼吸灯设置)

  • 如何注销微信号(手机号不用了如何注销微信号)

    如何注销微信号(手机号不用了如何注销微信号)

  • 火山视频怎么屏蔽别人(火山视频如何横屏看)

    火山视频怎么屏蔽别人(火山视频如何横屏看)

  • 红包收不了是什么原因(突然红包收不了钱)

    红包收不了是什么原因(突然红包收不了钱)

  • rgb转cmyk怎么让颜色不变(rgb转cmyk怎么让色差减小)

    rgb转cmyk怎么让颜色不变(rgb转cmyk怎么让色差减小)

  • oppo手机怎么看内存(oppo手机怎么看型号)

    oppo手机怎么看内存(oppo手机怎么看型号)

  • 电脑键盘退出键是哪个(电脑键盘退出键怎么按)

    电脑键盘退出键是哪个(电脑键盘退出键怎么按)

  • 小程序有啥功能(小程序有什么功能)

    小程序有啥功能(小程序有什么功能)

  • 在Win7系统中,开机启动项怎么设置?(在Win7系统中,文件的属性包括)

    在Win7系统中,开机启动项怎么设置?(在Win7系统中,文件的属性包括)

  • 前端学习笔记(一)——HTML表格(table、tr、td、th、thead、tbody、tfoot标签)(前端必学)

    前端学习笔记(一)——HTML表格(table、tr、td、th、thead、tbody、tfoot标签)(前端必学)

  • 印花税都有啥
  • 税务登记证号是纳税人识别号吗?
  • 库存商品损坏怎么做账
  • 资产负债表其他流动资产包括什么
  • 税票百分之十三怎么算
  • 2021新版利润表
  • 企业所得税季报可以更正吗
  • 如何降低应用耗电
  • 捐赠的所得税怎么处理
  • 多缴纳的附加税怎么退
  • 政府补贴转给其他公司
  • 房屋租赁交税能补交吗
  • 手撕税票去哪可以弄到
  • 营改增后房产税计税依据及计算方式
  • 免租与转租分别什么意思
  • 融资租赁要怎么做
  • 增值税扣税凭证包括增值税专用发票
  • 增值税代扣代缴抵扣
  • 个体工商户申报流程图
  • 长期股权投资增加的原因
  • 进价销售交增值税吗
  • 此应用无法在你的电脑上运行w11
  • 固定资产折旧计提时间
  • linux系统网络日志
  • linux网络接口状态命令
  • 最早的拍照手机是哪一年
  • php制作数字验证码
  • 公司以知识产权出资纳税筹划
  • 代订机票发票可以入账吗
  • 后端中spef文件和spf文件
  • 我初次尝试制作的英文怎么写
  • 预缴2%
  • 货币盘盈盘亏账怎么算
  • 施工营业额是什么意思
  • 帝国cms使用手册
  • 事业单位政府拨款的会计分录
  • mysql中的外键的定义
  • 工业企业发生的各项费用
  • 怎么摊销租金
  • 农产品购进时的会计分录
  • 销售费用工资是什么科目
  • 投资性房地产递延所得税负债为什么计入其他综合收益
  • 委托代销商品支付的手续费计入什么科目
  • 三方协议的
  • 买车哪些费用可以计入固定资产
  • 借贷记账法的记账依据是什么
  • 一般纳税人销售旧货税率
  • 委外加工物资管理制度
  • 住宿发票遗失怎么办
  • 收款预缴增值税怎么做账
  • 发票额开多了多出的金额怎么处理?
  • 货物逾期保管费怎么算
  • 工会经费结余可以结转下年吗
  • 单位定期存款如遇利率调整,不论调高调低
  • 制造企业费用会计
  • 工会经费缴纳会计分录
  • 接受代销货物的会计分录
  • 支付残疾人保证金的现金流
  • 固定资产如何管理可以做到节能减排
  • 日记账是否必须全部建立
  • 选择业务组合的原则是什么
  • mysql5.5.62安装教程图解
  • mariadb10.1
  • win7系统玩游戏好吗
  • windows10 rs2
  • 微软为什么这么贵
  • cocos2dx怎么用
  • cssid和class的区别
  • [置顶]津鱼.我爱你
  • 在unity中单例的主要作用
  • github常用操作
  • linux py
  • python3.8.3怎么用
  • javascript 自动执行
  • 工会经费什么时候交
  • 福建省国税局电话号码
  • 南京地税局局长名单
  • 电子税务局辽宁省
  • 2018城镇土地使用税减免政策
  • 即征即退的留抵税额是否可以抵一般计税的税额
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设