位置: IT常识 - 正文

bert-bilstm-crf提升NER模型效果的方法(bert数据增强)

编辑:rootadmin
bert-bilstm-crf提升NER模型效果的方法 1.统一训练监控指标和评估指标

推荐整理分享bert-bilstm-crf提升NER模型效果的方法(bert数据增强),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:bert调优,bert+crf,bert crf,bert 增量训练,bert+bilstm+crf,bert+lstm+crf,bert+crf,bert+crf,内容如对您有帮助,希望把文章链接给更多的朋友!

评估一个模型的最佳指标是在实体级别计算它的F1值,而不是token级别计算它的的准确率。自定义一个f1值的训练监控指标传给回调函数

Preliminary

TP:实际为P,预测为P

TN:实际为N,预测为N

FP:实际为N,预测为P

FN:实际为P,预测为N

如何记忆:

TP/TN: 以T开头,表明预测正确,预测即为第二个字母

FP/FN: 以F开头,表明预测错误,预测与第二个字母相反

Accuracy

最简单也是最好理解的,也是我们很早就开始接触的一个指标就是准确率,即预测正确的样本除以总样本数

Recall, Precision, F1

Recall(召回率):预测正确的正类在正类样本中的比例(针对于样本真实情况)

Precision(精确率):预测正确的正类在预测为正类中的比例(针对于预测情况)

F1:两者通常难以兼得,因此引入两者的调和平均,来得到一个trade-off的值

2、学习率衰减策略

学习率是深度学习中的一个重要的超参,如何调整学习率是训练出好模型的关键要素之一。

在训练过程中,一般根据训练轮数设置动态变化的学习率。

刚开始训练时:学习率以 0.01 ~ 0.001 为宜。

一定轮数过后:逐渐减缓。

接近训练结束:学习速率的衰减应该在 100 倍以上。

两种学习率衰减模式,一种为线性衰减,一种为指数衰减。

如果学习率过小,梯度下降很慢,如果学习率过大,如 Andrew Ng 的 Stanford 公开课程所说梯度下降的步子过大可能会跨过最优值。不同的学习率对 loss 的影响如下图所示:

3、分层设置学习率,非bert层要大

在使用bert或者其它预训练模型进行微调,下接其它具体任务相关的模块时,会面临这样一个问题,bert由于已经进行了预训练,参数已经达到了一个较好的水平,如果要保持其不会降低,学习率就不能太大,而下接结构是从零开始训练,用小的学习率训练不仅学习慢,而且也很难与BERT本体训练同步。因此在训练时候就需要对预训练层设置较小学习率,对下接层设置较大学习率。

4、使用对抗训练提升模型鲁棒性

对抗训练是一种能有效提高模型鲁棒性和泛化能力的训练手段,其基本原理是通过在原始输入上增加对抗扰动(噪声),得到对抗样本,再利用对抗样本进行训练,从而提高模型的表现。

5、更精细化的调参

调整learning_rate or batch_size or lamb等等

实验数据记录

#

模型

超参数

实验结果

备注

1

bilstm+crf

lstm_units = 64

epochs =80

batch_size = 32

drop_rate = 0.2

f1=0.6075

2

bilstm+crf

lstm_units = 128

epochs = 80

batch_size = 32

drop_rate = 0.2

f1=0.6011

3

bert+bilstm+crf

epochs = 8

max_len = 80

batch_size = 32

lstm_units = 128

drop_rate = 0.1

leraning_rate = 1e-5

f1=0.6697

4

bert+bilstm+crf

epochs = 32

max_len = 150

batch_size = 16

lstm_units = 128

drop_rate = 0.1

bert-bilstm-crf提升NER模型效果的方法(bert数据增强)

leraning_rate = 1e-5

f1=0.7262

5

bert+bilstm+crf

epochs = 32

max_len = 150

batch_size = 16

lstm_units = 128

drop_rate = 0.1

leraning_rate = 1e-5

f1=0.6745

统一训练监控指标和评估指标

增加学习率衰减策略

6

bert+bilstm+crf

epochs = 32

max_len = 150

batch_size = 16

lstm_units = 128

drop_rate = 0.1

leraning_rate = 1e-5

f1=0.7159

分层次设置学习率

lr_multiplier=500

7

bert+bilstm+crf

epochs = 32

max_len = 150

batch_size = 16

lstm_units = 128

drop_rate = 0.1

leraning_rate = 1e-5

f1=0.6889

分层次设置学习率

lr_multiplier=500

增加对抗训练(噪声)

8

bert+bilstm+crf

epochs = 32

max_len = 150

batch_size = 16

lstm_units = 128

drop_rate = 0.1

leraning_rate = 1e-5

f1=0.6828

统一训练监控指标和评估指标

增加学习率衰减策略

分层次设置学习率

lr_multiplier=500

增加对抗训练(噪声)

5

bert+bilstm+crf

epochs = 16

max_len = 150

batch_size = 16

lstm_units = 128

drop_rate = 0.1

leraning_rate = 1e-5

f1=0.7201

统一训练监控指标和评估指标

5

本文链接地址:https://www.jiuchutong.com/zhishi/300671.html 转载请保留说明!

上一篇:ES6笔记————let,箭头函数,剩余参数(es6从入门到实战)

下一篇:【C语言进阶】文本与二进制操作文件,优化通讯录。(c语音进阶)

  • 学生优惠资质怎么绑定(学生优惠资质怎么增加次数)

    学生优惠资质怎么绑定(学生优惠资质怎么增加次数)

  • ppt怎么添加动作按钮并超链接呢(ppt怎么添加动作按钮空白)

    ppt怎么添加动作按钮并超链接呢(ppt怎么添加动作按钮空白)

  • 华为nova5开发者选项在哪(华为nova5开发者模式有什么用处)

    华为nova5开发者选项在哪(华为nova5开发者模式有什么用处)

  • 拼多多怎么做任务领电力(拼多多怎么做任务)

    拼多多怎么做任务领电力(拼多多怎么做任务)

  • 抖音直播点赞可以换钱吗(抖音直播点赞可以变现吗)

    抖音直播点赞可以换钱吗(抖音直播点赞可以变现吗)

  • 手机恢复出厂设置对手机有影响吗(手机恢复出厂设置是不是彻底干净)

    手机恢复出厂设置对手机有影响吗(手机恢复出厂设置是不是彻底干净)

  • 买新手机需要检查什么(新手机需要验机吗)

    买新手机需要检查什么(新手机需要验机吗)

  • 看别人空间删掉访问记录别人知道吗(别人看我空间删了记录)

    看别人空间删掉访问记录别人知道吗(别人看我空间删了记录)

  • 快手买东西退款什么时候到账(快手买东西退款到支付宝找不到了)

    快手买东西退款什么时候到账(快手买东西退款到支付宝找不到了)

  • 为什么QQ浏览器不能投屏了(为什么qq浏览器下载不了文件)

    为什么QQ浏览器不能投屏了(为什么qq浏览器下载不了文件)

  • k30pro微距怎么打开(k30 pro 微距)

    k30pro微距怎么打开(k30 pro 微距)

  • 苹果8p打电话不开免提听不到声音怎么回事(苹果8p打电话不能上网)

    苹果8p打电话不开免提听不到声音怎么回事(苹果8p打电话不能上网)

  • 无线网络光信号亮红灯是什么原因(无线网络光信号不亮怎么回事)

    无线网络光信号亮红灯是什么原因(无线网络光信号不亮怎么回事)

  • 拨键器是什么(拨键器是什么意思啊)

    拨键器是什么(拨键器是什么意思啊)

  •  为什么苹果商店更新不了软件(为什么苹果商店一直在转圈圈)

    为什么苹果商店更新不了软件(为什么苹果商店一直在转圈圈)

  • 为什么我苹果id老是被锁(为什么我苹果id密码正确也登不上)

    为什么我苹果id老是被锁(为什么我苹果id密码正确也登不上)

  • 新媒体是什么(新媒体是什么的产物)

    新媒体是什么(新媒体是什么的产物)

  • null视频怎么打开(null格式的视频)

    null视频怎么打开(null格式的视频)

  • 微信订酒店返现怎么领取(微信订酒店返现什么时候返现)

    微信订酒店返现怎么领取(微信订酒店返现什么时候返现)

  • i5i7有什么区别(酷睿i5i7有什么区别)

    i5i7有什么区别(酷睿i5i7有什么区别)

  • 小米8人脸识别无法录入(小米8人脸识别不能用了)

    小米8人脸识别无法录入(小米8人脸识别不能用了)

  • 40kb的照片尺寸多少(40kb的照片宽度和高度是多少)

    40kb的照片尺寸多少(40kb的照片宽度和高度是多少)

  • Windows 10如何调整鼠标指针大小(windows10如何调出虚拟键盘)

    Windows 10如何调整鼠标指针大小(windows10如何调出虚拟键盘)

  • 自己的医院
  • 固定资产怎么确定是否减值
  • 股权转让给个人和公司的区别
  • 公司购买车库是什么费用
  • 地价计入房产原值乘70%
  • 合同无效后还能主张违约责任吗
  • 已经计提的增值税怎么退
  • 以前年度利润和当年净利润
  • 经营性租入的固定资产需要计提折旧吗
  • 企业没有进项票只有成本票
  • 小规模纳税人附加税减半征收政策2023
  • 以前年度损益调整借贷方向
  • 电脑屏幕突然黑屏怎么回事
  • 税负率的销售收入是什么
  • 做胃镜多少钱了
  • 出租车发票没有发票专用章是否能报销
  • 固定资产计提折旧的原则
  • 纳税人解除劳动合同补偿
  • php教程 csdn
  • 工业用地被政府征收怎么补偿
  • php优秀代码
  • 任意公积金可以不提取吗
  • 代收资金清算过期怎么办
  • python结合
  • php对象是什么类型的数据
  • 谷歌浏览器跨域解决方案
  • resize2fs命令 同步文件系统容量到内核
  • ps一个页面怎么选中画板
  • 织梦怎么用模板建站
  • 小规模增值税减征额怎么算
  • 关于低值易耗品的说法中不正确的是
  • 未出资到位的股权转让个人所得税
  • 负数发票是可以抵扣吗
  • 个人工作室需要做账吗
  • 税控盘开票机号在哪里能查到
  • 财务报表上期金额是指什么意思
  • sqlserver2008数据库可疑
  • mysql配置怎么调出来
  • 当月开的票必须开发票吗
  • 企业增值税的征收方式
  • 企业所得税年报更正申报怎么操作
  • 电子承兑汇票转给下家
  • 增值税怎么开
  • 买赠销售账务处理
  • 增加固定资产原值后折旧
  • 多认证的发票怎么做账
  • 纸质银行承兑到期怎么办
  • 政府补贴业务如何发放
  • 为什么委托代销业务受托方要反映或有负债
  • 合伙企业与公司相比,有什么优势呢?
  • 会计账簿的扉页只需填列账簿启用日期和经管人员一览表
  • java数据类型举例
  • mysql配置文件my.ini
  • ubuntu系统中安装微信步骤
  • ubuntu gnome3
  • wbs是什么文件
  • windowsxp开机启动项在哪里设置
  • mac红
  • win7旗舰版系统怎么样
  • win10搜索不到无线网卡
  • 微软商店更新错误
  • node.js批量添加数据
  • unity 动画播放
  • javascript scrollTop正解使用方法
  • unity ulua
  • html如何用css
  • js tabs
  • js 仿真
  • 互联网巨头bat有哪些
  • javascript面向对象吗
  • 荆州市物业管理
  • 网上税务局电子发票怎么领用
  • 厦门怎么查询自己名下电动自行车
  • 党费的缴纳是否扣除所得税
  • 设计服务税收分类编码
  • 机票电子发票怎么作废
  • 国税稽查局查账单凭个人流水能不能当做证据
  • 北京的个人所得税怎么算
  • 江苏税务局人工电话
  • 成都国税网上办税服务厅
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设