位置: IT常识 - 正文

bert-bilstm-crf提升NER模型效果的方法(bert数据增强)

编辑:rootadmin
bert-bilstm-crf提升NER模型效果的方法 1.统一训练监控指标和评估指标

推荐整理分享bert-bilstm-crf提升NER模型效果的方法(bert数据增强),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:bert调优,bert+crf,bert crf,bert 增量训练,bert+bilstm+crf,bert+lstm+crf,bert+crf,bert+crf,内容如对您有帮助,希望把文章链接给更多的朋友!

评估一个模型的最佳指标是在实体级别计算它的F1值,而不是token级别计算它的的准确率。自定义一个f1值的训练监控指标传给回调函数

Preliminary

TP:实际为P,预测为P

TN:实际为N,预测为N

FP:实际为N,预测为P

FN:实际为P,预测为N

如何记忆:

TP/TN: 以T开头,表明预测正确,预测即为第二个字母

FP/FN: 以F开头,表明预测错误,预测与第二个字母相反

Accuracy

最简单也是最好理解的,也是我们很早就开始接触的一个指标就是准确率,即预测正确的样本除以总样本数

Recall, Precision, F1

Recall(召回率):预测正确的正类在正类样本中的比例(针对于样本真实情况)

Precision(精确率):预测正确的正类在预测为正类中的比例(针对于预测情况)

F1:两者通常难以兼得,因此引入两者的调和平均,来得到一个trade-off的值

2、学习率衰减策略

学习率是深度学习中的一个重要的超参,如何调整学习率是训练出好模型的关键要素之一。

在训练过程中,一般根据训练轮数设置动态变化的学习率。

刚开始训练时:学习率以 0.01 ~ 0.001 为宜。

一定轮数过后:逐渐减缓。

接近训练结束:学习速率的衰减应该在 100 倍以上。

两种学习率衰减模式,一种为线性衰减,一种为指数衰减。

如果学习率过小,梯度下降很慢,如果学习率过大,如 Andrew Ng 的 Stanford 公开课程所说梯度下降的步子过大可能会跨过最优值。不同的学习率对 loss 的影响如下图所示:

3、分层设置学习率,非bert层要大

在使用bert或者其它预训练模型进行微调,下接其它具体任务相关的模块时,会面临这样一个问题,bert由于已经进行了预训练,参数已经达到了一个较好的水平,如果要保持其不会降低,学习率就不能太大,而下接结构是从零开始训练,用小的学习率训练不仅学习慢,而且也很难与BERT本体训练同步。因此在训练时候就需要对预训练层设置较小学习率,对下接层设置较大学习率。

4、使用对抗训练提升模型鲁棒性

对抗训练是一种能有效提高模型鲁棒性和泛化能力的训练手段,其基本原理是通过在原始输入上增加对抗扰动(噪声),得到对抗样本,再利用对抗样本进行训练,从而提高模型的表现。

5、更精细化的调参

调整learning_rate or batch_size or lamb等等

实验数据记录

#

模型

超参数

实验结果

备注

1

bilstm+crf

lstm_units = 64

epochs =80

batch_size = 32

drop_rate = 0.2

f1=0.6075

2

bilstm+crf

lstm_units = 128

epochs = 80

batch_size = 32

drop_rate = 0.2

f1=0.6011

3

bert+bilstm+crf

epochs = 8

max_len = 80

batch_size = 32

lstm_units = 128

drop_rate = 0.1

leraning_rate = 1e-5

f1=0.6697

4

bert+bilstm+crf

epochs = 32

max_len = 150

batch_size = 16

lstm_units = 128

drop_rate = 0.1

bert-bilstm-crf提升NER模型效果的方法(bert数据增强)

leraning_rate = 1e-5

f1=0.7262

5

bert+bilstm+crf

epochs = 32

max_len = 150

batch_size = 16

lstm_units = 128

drop_rate = 0.1

leraning_rate = 1e-5

f1=0.6745

统一训练监控指标和评估指标

增加学习率衰减策略

6

bert+bilstm+crf

epochs = 32

max_len = 150

batch_size = 16

lstm_units = 128

drop_rate = 0.1

leraning_rate = 1e-5

f1=0.7159

分层次设置学习率

lr_multiplier=500

7

bert+bilstm+crf

epochs = 32

max_len = 150

batch_size = 16

lstm_units = 128

drop_rate = 0.1

leraning_rate = 1e-5

f1=0.6889

分层次设置学习率

lr_multiplier=500

增加对抗训练(噪声)

8

bert+bilstm+crf

epochs = 32

max_len = 150

batch_size = 16

lstm_units = 128

drop_rate = 0.1

leraning_rate = 1e-5

f1=0.6828

统一训练监控指标和评估指标

增加学习率衰减策略

分层次设置学习率

lr_multiplier=500

增加对抗训练(噪声)

5

bert+bilstm+crf

epochs = 16

max_len = 150

batch_size = 16

lstm_units = 128

drop_rate = 0.1

leraning_rate = 1e-5

f1=0.7201

统一训练监控指标和评估指标

5

本文链接地址:https://www.jiuchutong.com/zhishi/300671.html 转载请保留说明!

上一篇:ES6笔记————let,箭头函数,剩余参数(es6从入门到实战)

下一篇:【C语言进阶】文本与二进制操作文件,优化通讯录。(c语音进阶)

  • 西藏阿里地区改则县附近发生4.6级左右地震

    西藏阿里地区改则县附近发生4.6级左右地震

  • c# listview(C# listview 填写字符)

    c# listview(C# listview 填写字符)

  • iqoo5手机是立体双扬声器吗(iqoo3是立体声吗)

    iqoo5手机是立体双扬声器吗(iqoo3是立体声吗)

  • 华为荣耀手机投屏电视怎么设置(华为荣耀手机投诉电话)

    华为荣耀手机投屏电视怎么设置(华为荣耀手机投诉电话)

  • 操作系统的基本特征(操作系统的基本职能包括)

    操作系统的基本特征(操作系统的基本职能包括)

  • 手机上xps文件如何打开(手机xps文件用什么软件打开)

    手机上xps文件如何打开(手机xps文件用什么软件打开)

  • 显示器开不了灯也不亮(显示器开不了灯一直闪)

    显示器开不了灯也不亮(显示器开不了灯一直闪)

  • 为什么扣扣扩列不能匹配(为什么扣扣扩列资料删不了)

    为什么扣扣扩列不能匹配(为什么扣扣扩列资料删不了)

  • 手柄是什么(手柄是什么接口)

    手柄是什么(手柄是什么接口)

  • 怎样在word中加波浪线(怎样在word中加横线)

    怎样在word中加波浪线(怎样在word中加横线)

  • ipad2018款是第几代(ipad2018款是什么型号)

    ipad2018款是第几代(ipad2018款是什么型号)

  • 手机let打开有什么用处(手机设置里的let开启的好处和坏处)

    手机let打开有什么用处(手机设置里的let开启的好处和坏处)

  • 华为智慧屏可以k歌吗(华为智慧屏可以玩ps5吗)

    华为智慧屏可以k歌吗(华为智慧屏可以玩ps5吗)

  • 为什么qq的扩列突然不能匹配(为什么qq扩列都是人机)

    为什么qq的扩列突然不能匹配(为什么qq扩列都是人机)

  • 手机在线和4g在线的区别(手机在线和4g在线一样吗)

    手机在线和4g在线的区别(手机在线和4g在线一样吗)

  • word无法保存和另存为(word无法保存和创建文件)

    word无法保存和另存为(word无法保存和创建文件)

  • word文档怎么修改文档(word文档怎么修改格式)

    word文档怎么修改文档(word文档怎么修改格式)

  • vivo怎么使用sd卡(vivo如何使用sd卡存储)

    vivo怎么使用sd卡(vivo如何使用sd卡存储)

  • 小米8夜光屏用来干嘛(小米手机夜光屏有什么用)

    小米8夜光屏用来干嘛(小米手机夜光屏有什么用)

  • vivos1pro是闪充吗(vivos1pro有闪充功能吗)

    vivos1pro是闪充吗(vivos1pro有闪充功能吗)

  • 华为nova5pro是双卡双待吗(华为nova5pro是双层主板吗)

    华为nova5pro是双卡双待吗(华为nova5pro是双层主板吗)

  • 相册图片怎么编辑文字(相册图片怎么编号)

    相册图片怎么编辑文字(相册图片怎么编号)

  • flash怎么加背景音乐(flash怎么加背景图片)

    flash怎么加背景音乐(flash怎么加背景图片)

  • Win10 LTSB版本区别详解 Win10 LTSB是什么版本(win10 ltsc版)

    Win10 LTSB版本区别详解 Win10 LTSB是什么版本(win10 ltsc版)

  • 保姆级人工智能学习成长路径(人工智能机器人保姆什么时候实现)

    保姆级人工智能学习成长路径(人工智能机器人保姆什么时候实现)

  • 耕地占用税的特点与意义
  • 员工外出办事报备制度
  • 冲减以前年度的成本会计分录
  • 消费税可以在企业抵扣吗
  • 买二手设备还需要备案吗
  • 固定资产未付款怎么入账
  • 个税代扣代缴返还手续费如何入账
  • 借应交税费销项税额贷未交增值税
  • 企业接受外部劳务派遣用工支出税前扣除问题
  • 委托加工和进口加工区别
  • 小规模纳税人如何转一般纳税人
  • 建筑工程外地预交税款后完工怎么办
  • 技术出口税务处理
  • 预付绩效工资是什么意思
  • 三证合一后有效期多久
  • 两年前的发票能开红字发票吗
  • 记账凭证应交税费应交增值税怎么写
  • 销售不动产差额征收增值税
  • 个税返还怎样申请退税
  • 固定资产折旧可以不留残值吗
  • 索赔发票会计入账
  • 企业或公司的证明怎么弄
  • 总公司资金转入私人账户
  • 残疾人保障金人数
  • 铁路改道作业的流程
  • win7如何更换开机密码
  • 公司整体收购如何交税
  • 回迁安置房开发商可以出售吗
  • 为什么无线网密码对了就是连不上网
  • pax是什么文件
  • 企业办理税务
  • 销售购置的房产税怎么算
  • 筹建期间的开办费为什么不属于资产
  • 个人独资企业法律责任
  • webform前端
  • 开源项目网站
  • 发现新大陆的是麦哲伦还是哥伦布
  • nodejs安装及环境配置vue
  • php封装数据库操作
  • php新手入门教程
  • php 微信公众号自定义菜单
  • 本地住宿费怎么做账
  • 基本户 变更
  • sql server数据库异地备份
  • MySQL数据库结构设计图
  • 春节补贴是正数还是负数
  • sql怎么搜索表
  • 代垫电费收回开票吗
  • 关于国内旅客运输的规定
  • 工商年报认缴时间过期了怎么办
  • 增值税多缴税款可以抵缴以后
  • 固定资产的后续支出应如何进行会计处理
  • 确认收入时,也必须确认资产或债务
  • 关于幼儿园的会议内容
  • 收到跨年的发票怎么入账
  • 小规模纳税人公司注册条件
  • 社保费和公积金计提分录
  • 退回上年度企业所得税
  • 未按照规定编制应急预案的,责令限期改正,可以处罚款
  • sql注入是干嘛的
  • 解决五大问题
  • windows server 2003与2008的区别联系与选择指南
  • mac变得很卡很慢
  • linux/unix
  • win7系统如何隐藏任务栏
  • 每天一条linux命令
  • windows 8虚拟机
  • Win10最新版下载天翼云盘
  • linux修复工具
  • linux里chmod用法
  • opengl超级宝典第八版 pdf
  • 代码的历史
  • jquery validate表单校验html
  • nodejs socket框架
  • python lxml解析xml
  • unity3d碰撞检测源码
  • jquery中的事件
  • java教程 视
  • javascript程序设计教程
  • 纳税服务投诉整改报告
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设