位置: IT常识 - 正文

主动学习(Active Learning,AL)的理解以及代码流程讲解

编辑:rootadmin
主动学习(Active Learning,AL)的理解以及代码流程讲解 为什么要使用主动学习(Active Learning,AL)

推荐整理分享主动学习(Active Learning,AL)的理解以及代码流程讲解,希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

针对有监督的学习任务,存在标记成本较为昂贵且标记难以大量获取的问题。 在此问题背景下,主动学习(Active Learning, AL)尝试通过选择性的标记较少数据而训练出表现较好的模型。

例如,此时我们有大量的猫和狗的数据,假设人为标记他们的类别是成本非常高的事情,这时需要用到主动学习从中挑选部分数据对他们进行标注以节约成本,用主动模型选取出的标注数据训练的模型比随机选取出的相同数量的标注数据训练的模型精度更高。

如图所示,图(a)是全部数据集,图©中使用主动学习策略仅选取30个样本训练出的逻辑回归模型即可达到90%的准确率,而图(b)中随机选取的30个样本训练出的模型却相对表现较差。

主动学习的工作流程

主动学习的关键是你选择的模型、使用的不确定性度量以及应用于请求标注的查询策略。

1.收集数据&选取模型

开始先选择一定数量的数据进行标注,选取我们需要训练的模型(比如逻辑回归模型)。

2.训练模型

将标注好的数据放入模型中进行训练,此时精度不会很高。

3.判断精度是否达到要求主动学习(Active Learning,AL)的理解以及代码流程讲解

①若精度达到要求(比如99%),则表示模型以及训练好,可以应用。 ②若精度没有达到要求(比如只有12%),则表示模型未被训练好,这是需要利用主动学习选取对模型精度的提高最有用的数据进行人工标注。

4.定义查询策略

包括度量预测的不确定度和应用于请求标注的查询策略,返回策略选择出的需要标注的数据,进行人工标注,转至第2步。 例如:

def custom_query_strategy(classifer, X): utility = utility_measure(classifer, X) #度量预测的不确定度 query_idx = select_instances(utility) #应用于请求标注的查询策略 return query_idx,X[query_idx]主动学习的pytorch编码流程

主动学习的编写代码流程如下:

代码实战

接下来我们以一个主动回归例子为主,实现主动学习的编码。

1.导入相应的包import numpy as npimport matplotlib.pyplot as pltfrom sklearn.gaussian_process import GaussianProcessRegressorfrom sklearn.gaussian_process.kernels import WhiteKernel, RBFfrom modAL.models import ActiveLearner%matplotlib inline2.数据集准备以及初始数据集的选取# 生成回归数据集 加高斯噪声X = np.random.choice(np.linspace(0, 20, 10000), size=200, replace=False).reshape(-1, 1)y = np.sin(X) + np.random.normal(scale=0.3, size=X.shape)#原始数据集可视化with plt.style.context('seaborn-white'): plt.figure(figsize=(10, 5)) plt.scatter(X, y, c='k', s=20) plt.title('sin(x) + noise') plt.show()# 初始数据集的选取n_initial = 5 # 最开始随机选取5个标注好的数据集进行训练initial_idx = np.random.choice(range(len(X)), size=n_initial, replace=False)X_training, y_training = X[initial_idx], y[initial_idx]

3.定义主动学习器ActiveLeaner

(参数包括模型的选取estimator、应用于请求标注的查询策略query_stategy以及初始数据) 我们使用高斯回归作为模型进行训练GaussianProcessRegressor

#定义estimator高斯回归模型的核函数kernel = RBF(length_scale=1.0, length_scale_bounds=(1e-2, 1e3)) \ + WhiteKernel(noise_level=1, noise_level_bounds=(1e-10, 1e+1))#定义query_stategy应用于请求标注的查询策略def GP_regression_std(regressor, X): _, std = regressor.predict(X, return_std=True) #不确定度度量 query_idx = np.argmax(std) #样本的选取 return query_idx, X[query_idx]#定义ActiveLeaner 主动学习器regressor = ActiveLearner( estimator=GaussianProcessRegressor(kernel=kernel), query_strategy=GP_regression_std, X_training=X_training.reshape(-1, 1), y_training=y_training.reshape(-1, 1))#可视化初始模型的精度状况X_grid = np.linspace(0, 20, 1000)y_pred, y_std = regressor.predict(X_grid.reshape(-1, 1), return_std=True)y_pred, y_std = y_pred.ravel(), y_std.ravel()with plt.style.context('seaborn-white'): plt.figure(figsize=(10, 5)) plt.plot(X_grid, y_pred) plt.fill_between(X_grid, y_pred - y_std, y_pred + y_std, alpha=0.2) plt.scatter(X, y, c='k', s=20) plt.title('Initial prediction') plt.show()

4.定义n_queries(要标记数据的数量)进行主动学习#定义n_queries(要标记数据的数量)进行主动学习n_queries = 10for idx in range(n_queries): query_idx, query_instance = regressor.query(X) regressor.teach(X[query_idx].reshape(1, -1), y[query_idx].reshape(1, -1))5.最终结果可视化y_pred_final, y_std_final = regressor.predict(X_grid.reshape(-1, 1), return_std=True)y_pred_final, y_std_final = y_pred_final.ravel(), y_std_final.ravel()with plt.style.context('seaborn-white'): plt.figure(figsize=(10, 8)) plt.plot(X_grid, y_pred_final) plt.fill_between(X_grid, y_pred_final - y_std_final, y_pred_final + y_std_final, alpha=0.2) plt.scatter(X, y, c='k', s=20) plt.title('Prediction after active learning') plt.show()

可见,使用主动学习的方法让我们仅使用了25个点就拟合出1000个点生成的图像,大大节约了人工标记的成本。

参考链接: https://zhuanlan.zhihu.com/p/377045943

本文链接地址:https://www.jiuchutong.com/zhishi/299532.html 转载请保留说明!

上一篇:瑞吉外卖项目剩余功能补充(瑞吉接送)

下一篇:前端已死?金三银四?你收到offer了吗?

  • 三星耳机怎么配对(三星耳机怎么配对小米手机)

    三星耳机怎么配对(三星耳机怎么配对小米手机)

  • OPPO通话黑屏感应器怎么关闭(oppo通话黑屏 不亮屏)

    OPPO通话黑屏感应器怎么关闭(oppo通话黑屏 不亮屏)

  • 冒险岛沙漠怎么去(冒险岛沙漠任务攻略)

    冒险岛沙漠怎么去(冒险岛沙漠任务攻略)

  • 红米k30s至尊纪念版是什么处理器呢(红米k30s至尊纪念版参数)

    红米k30s至尊纪念版是什么处理器呢(红米k30s至尊纪念版参数)

  • 微信的辅助邀请被拒绝了(微信的辅助邀请被拒绝这是为什么)

    微信的辅助邀请被拒绝了(微信的辅助邀请被拒绝这是为什么)

  • 手机无缘无故发出短信(手机无缘无故发出拍照的声音)

    手机无缘无故发出短信(手机无缘无故发出拍照的声音)

  • cpu中间的贴纸要拿掉吗(cpu中间的贴纸要贴吗)

    cpu中间的贴纸要拿掉吗(cpu中间的贴纸要贴吗)

  • 电脑上打字怎么没有中文啊(电脑上打字怎么换行)

    电脑上打字怎么没有中文啊(电脑上打字怎么换行)

  • 京东品牌会员如何退出(京东品牌会员如何退款)

    京东品牌会员如何退出(京东品牌会员如何退款)

  • 三星手机左下角出现安全模式怎么办(三星手机左下角出现安全模式)

    三星手机左下角出现安全模式怎么办(三星手机左下角出现安全模式)

  • 抖音特效贴纸怎样取消(抖音特效贴纸怎么显示横着的)

    抖音特效贴纸怎样取消(抖音特效贴纸怎么显示横着的)

  • 为什么qq电话打着就自动挂了(为什么qq电话打过去直接秒挂)

    为什么qq电话打着就自动挂了(为什么qq电话打过去直接秒挂)

  • 支付宝验证人脸失败过多久可以重新识别(支付宝验证人脸失败是怎么回事)

    支付宝验证人脸失败过多久可以重新识别(支付宝验证人脸失败是怎么回事)

  • 闲鱼不退不换规则(闲鱼不退不换规则怎么说)

    闲鱼不退不换规则(闲鱼不退不换规则怎么说)

  • 手机解锁密码忘记了怎么办(手机解锁密码忘了怎么办才能打开)

    手机解锁密码忘记了怎么办(手机解锁密码忘了怎么办才能打开)

  • 微信文件几天过期(微信好友发的文件过期了怎么恢复)

    微信文件几天过期(微信好友发的文件过期了怎么恢复)

  • 怎样删除vivo自带软件(vivo怎么删除手机里面的自带东西)

    怎样删除vivo自带软件(vivo怎么删除手机里面的自带东西)

  • 怎么保存电视剧片段(怎么保存电视剧里的视频片段)

    怎么保存电视剧片段(怎么保存电视剧里的视频片段)

  • 苹果扩容对手机有影响吗(苹果扩容手机里的东西还在吗)

    苹果扩容对手机有影响吗(苹果扩容手机里的东西还在吗)

  • 知识导图怎么做(知识导图模板手绘教学)

    知识导图怎么做(知识导图模板手绘教学)

  • 抖音怎么知道谁看过我(抖音怎么知道谁转发了自己的作品)

    抖音怎么知道谁看过我(抖音怎么知道谁转发了自己的作品)

  • 小米手环4nfc睡眠怎么检测(小米手环4nfc可以关机吗)

    小米手环4nfc睡眠怎么检测(小米手环4nfc可以关机吗)

  • lis是什么格式(lis格式用什么软件打开)

    lis是什么格式(lis格式用什么软件打开)

  • 华为有什么系列(华为有几个系列的手机)

    华为有什么系列(华为有几个系列的手机)

  • 【node : 无法将“node”项识别为 cmdlet、函数、脚本文件或可运行程序的名称。 最全面有效的解决方案】(无法将node项识别为)

    【node : 无法将“node”项识别为 cmdlet、函数、脚本文件或可运行程序的名称。 最全面有效的解决方案】(无法将node项识别为)

  • 劳务派遣公司企业所得税税率
  • 小规模纳税人的认定标准是什么
  • 表见代理通俗
  • 固定资产入账怎么做账
  • 发票超过三个月不能开
  • 未完工程如何处理
  • 出借包装物收取的押金
  • 开票地址一定要写全吗
  • 发票上的不含税单价怎么算的
  • 消防检测需要资质吗?
  • 发票中奖要交税吗
  • 工程结算账务处理实例
  • 商业保险可以抵扣增值税吗
  • 固定资产采用工作量法计提折旧怎么算
  • 企业收到个体户开的发票
  • 提前预支费用怎么写
  • 公司闲置房租出去违法吗
  • 工资薪酬所得税税率
  • 个体工商户营业执照年检
  • 企业所得税政策最新2023税率
  • 增值税发票价税合计是什么意思
  • 工会经费给税务局交税比例
  • 资产评估入账的评估报告
  • 支付知识产权服务费账务处理
  • 租金怎么来计算个税
  • 关联交易认定标准税务
  • 怎么免费获取流量
  • sdi是什么文件
  • 进销存单据
  • 转出未交增值税会计科目
  • 合同违约金可以全额扣除吗
  • 收到银行本票的账务处理
  • yolov1网络结构图详解
  • 非货币性资产交换补价大于25%的会计处理
  • 圣克鲁斯岛战役
  • 罗马湖在哪
  • 低值易耗品报废年限几年
  • 前后端分离与不分离
  • php定义一个二维数组
  • 宋大叔教音乐第三单元进阶版
  • 长期股权投资
  • 为什么我们认为北京人已经学会使用火
  • 外购产品的会计分录
  • 利息收入的会计科目怎么做
  • 个人名字的发票可以报销吗
  • mysql error!
  • 金税盘抵扣税款分录怎么做
  • 产品的运输费用分录
  • 以前年度损益调整结转到哪里
  • 进口环节缴纳关税计入什么科目
  • 个人转让著作权免征增值税判断题
  • 销售补偿法
  • 减资如何账务处理
  • 销售费用主要账户包括
  • 单位垫付职工个税如何记账
  • 免税农产品怎么开发票
  • 借款合同相关法条
  • 小规模纳税人缴税的分录
  • 房地产预售款预交税金计算
  • 房地产开发成本费用明细表
  • 企业在期间新购进的设备、器具
  • 预缴所得税年底怎么算
  • 一般纳税人可抵扣的票证有哪些?
  • 建筑工程合同中社保基金保证金
  • 医药企业研发费用构成
  • 赊销是什么意思 视频
  • sqlserver2000数据库文件在哪个文件夹
  • 远程删除
  • win10系统回收站损坏了怎么恢复
  • macxi
  • mac如何打印文件
  • win7安装远程桌面组件
  • 怎么在手机上买股票开户
  • 怎么提升win7性能
  • 计算机网络设计
  • js中写for循环
  • windows中的linux
  • Android 使用log4j2
  • 药店迁址流程2019
  • 国家税务总局税务局官网
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设