位置: IT常识 - 正文

bert-bilstm-crf提升NER模型效果的方法(bert数据增强)

编辑:rootadmin
bert-bilstm-crf提升NER模型效果的方法 1.统一训练监控指标和评估指标

推荐整理分享bert-bilstm-crf提升NER模型效果的方法(bert数据增强),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:bert调优,bert+crf,bert crf,bert 增量训练,bert+bilstm+crf,bert+lstm+crf,bert+crf,bert+crf,内容如对您有帮助,希望把文章链接给更多的朋友!

评估一个模型的最佳指标是在实体级别计算它的F1值,而不是token级别计算它的的准确率。自定义一个f1值的训练监控指标传给回调函数

Preliminary

TP:实际为P,预测为P

TN:实际为N,预测为N

FP:实际为N,预测为P

FN:实际为P,预测为N

如何记忆:

TP/TN: 以T开头,表明预测正确,预测即为第二个字母

FP/FN: 以F开头,表明预测错误,预测与第二个字母相反

Accuracy

最简单也是最好理解的,也是我们很早就开始接触的一个指标就是准确率,即预测正确的样本除以总样本数

Recall, Precision, F1

Recall(召回率):预测正确的正类在正类样本中的比例(针对于样本真实情况)

Precision(精确率):预测正确的正类在预测为正类中的比例(针对于预测情况)

F1:两者通常难以兼得,因此引入两者的调和平均,来得到一个trade-off的值

2、学习率衰减策略

学习率是深度学习中的一个重要的超参,如何调整学习率是训练出好模型的关键要素之一。

在训练过程中,一般根据训练轮数设置动态变化的学习率。

刚开始训练时:学习率以 0.01 ~ 0.001 为宜。

一定轮数过后:逐渐减缓。

接近训练结束:学习速率的衰减应该在 100 倍以上。

两种学习率衰减模式,一种为线性衰减,一种为指数衰减。

如果学习率过小,梯度下降很慢,如果学习率过大,如 Andrew Ng 的 Stanford 公开课程所说梯度下降的步子过大可能会跨过最优值。不同的学习率对 loss 的影响如下图所示:

3、分层设置学习率,非bert层要大

在使用bert或者其它预训练模型进行微调,下接其它具体任务相关的模块时,会面临这样一个问题,bert由于已经进行了预训练,参数已经达到了一个较好的水平,如果要保持其不会降低,学习率就不能太大,而下接结构是从零开始训练,用小的学习率训练不仅学习慢,而且也很难与BERT本体训练同步。因此在训练时候就需要对预训练层设置较小学习率,对下接层设置较大学习率。

4、使用对抗训练提升模型鲁棒性

对抗训练是一种能有效提高模型鲁棒性和泛化能力的训练手段,其基本原理是通过在原始输入上增加对抗扰动(噪声),得到对抗样本,再利用对抗样本进行训练,从而提高模型的表现。

5、更精细化的调参

调整learning_rate or batch_size or lamb等等

实验数据记录

#

模型

超参数

实验结果

备注

1

bilstm+crf

lstm_units = 64

epochs =80

batch_size = 32

drop_rate = 0.2

f1=0.6075

2

bilstm+crf

lstm_units = 128

epochs = 80

batch_size = 32

drop_rate = 0.2

f1=0.6011

3

bert+bilstm+crf

epochs = 8

max_len = 80

batch_size = 32

lstm_units = 128

drop_rate = 0.1

leraning_rate = 1e-5

f1=0.6697

4

bert+bilstm+crf

epochs = 32

max_len = 150

batch_size = 16

lstm_units = 128

drop_rate = 0.1

bert-bilstm-crf提升NER模型效果的方法(bert数据增强)

leraning_rate = 1e-5

f1=0.7262

5

bert+bilstm+crf

epochs = 32

max_len = 150

batch_size = 16

lstm_units = 128

drop_rate = 0.1

leraning_rate = 1e-5

f1=0.6745

统一训练监控指标和评估指标

增加学习率衰减策略

6

bert+bilstm+crf

epochs = 32

max_len = 150

batch_size = 16

lstm_units = 128

drop_rate = 0.1

leraning_rate = 1e-5

f1=0.7159

分层次设置学习率

lr_multiplier=500

7

bert+bilstm+crf

epochs = 32

max_len = 150

batch_size = 16

lstm_units = 128

drop_rate = 0.1

leraning_rate = 1e-5

f1=0.6889

分层次设置学习率

lr_multiplier=500

增加对抗训练(噪声)

8

bert+bilstm+crf

epochs = 32

max_len = 150

batch_size = 16

lstm_units = 128

drop_rate = 0.1

leraning_rate = 1e-5

f1=0.6828

统一训练监控指标和评估指标

增加学习率衰减策略

分层次设置学习率

lr_multiplier=500

增加对抗训练(噪声)

5

bert+bilstm+crf

epochs = 16

max_len = 150

batch_size = 16

lstm_units = 128

drop_rate = 0.1

leraning_rate = 1e-5

f1=0.7201

统一训练监控指标和评估指标

5

本文链接地址:https://www.jiuchutong.com/zhishi/300671.html 转载请保留说明!

上一篇:ES6笔记————let,箭头函数,剩余参数(es6从入门到实战)

下一篇:【C语言进阶】文本与二进制操作文件,优化通讯录。(c语音进阶)

  • 华为b2手环怎么连接手机(华为b2手环怎么连接oppo手机)

    华为b2手环怎么连接手机(华为b2手环怎么连接oppo手机)

  • ipad怎么设置单个app密码(ipad怎么设置单个应用锁)

    ipad怎么设置单个app密码(ipad怎么设置单个应用锁)

  • 苹果手机怎么设置充满电自动断电(苹果手机怎么设置陌生号码拦截)

    苹果手机怎么设置充满电自动断电(苹果手机怎么设置陌生号码拦截)

  • win10电脑打开运行(window10如何打开运行)

    win10电脑打开运行(window10如何打开运行)

  • qq怎么隐藏访问(qq怎么隐藏访问足迹)

    qq怎么隐藏访问(qq怎么隐藏访问足迹)

  • 微信语音前几秒录不上(微信语音前几秒听不见怎么回事)

    微信语音前几秒录不上(微信语音前几秒听不见怎么回事)

  • 策略服务器未运行什么意思(策略服务器未运行无法上网)

    策略服务器未运行什么意思(策略服务器未运行无法上网)

  • mt怎么修改游戏数据(mt怎么修改游戏广告奖励)

    mt怎么修改游戏数据(mt怎么修改游戏广告奖励)

  • 小米手机移除动画是什么意思(小米手机移除动画)

    小米手机移除动画是什么意思(小米手机移除动画)

  • 苹果手机硬解后的坏处(苹果手机硬解后失主能定位到吗)

    苹果手机硬解后的坏处(苹果手机硬解后失主能定位到吗)

  • tc路由器是什么意思(路由器型号tc5200)

    tc路由器是什么意思(路由器型号tc5200)

  • 拼多多拉黑了对方能下单吗(拼多多拉黑了对方能评价吗)

    拼多多拉黑了对方能下单吗(拼多多拉黑了对方能评价吗)

  • 耳机插手机上没有显示(耳机插手机上没有显示耳机标志)

    耳机插手机上没有显示(耳机插手机上没有显示耳机标志)

  • 没有水晶钳怎么接网线(没有水晶钳怎么接水晶头)

    没有水晶钳怎么接网线(没有水晶钳怎么接水晶头)

  • 卖家知道谁投诉吗(卖家能看到投诉人的信息么)

    卖家知道谁投诉吗(卖家能看到投诉人的信息么)

  • vivo手机sos怎么取消(vivo手机sos怎么打开)

    vivo手机sos怎么取消(vivo手机sos怎么打开)

  • 滴滴怎么预约车(滴滴怎么预约打车时间)

    滴滴怎么预约车(滴滴怎么预约打车时间)

  • 拼多多如何清除推荐(拼多多如何清除个人信息)

    拼多多如何清除推荐(拼多多如何清除个人信息)

  • 小米8怎么拍月亮(小米8怎么拍月亮好看)

    小米8怎么拍月亮(小米8怎么拍月亮好看)

  • return 1在c语言中的意思(return1在c语言中的含义)

    return 1在c语言中的意思(return1在c语言中的含义)

  • iphone和ipad怎么同步(iphone和ipad怎么共享wifi密码)

    iphone和ipad怎么同步(iphone和ipad怎么共享wifi密码)

  • vivox27pro怎么设置nfc(vivox27pro怎么设置指纹解锁)

    vivox27pro怎么设置nfc(vivox27pro怎么设置指纹解锁)

  • 小米互传在哪(小米互传在哪里看文件)

    小米互传在哪(小米互传在哪里看文件)

  • ps局部模糊(ps局部模糊怎么变清晰处理)

    ps局部模糊(ps局部模糊怎么变清晰处理)

  • 抖音小助手有什么用(抖音小助手什么时候开始有)

    抖音小助手有什么用(抖音小助手什么时候开始有)

  • vue实现列表自动滚动的方式(二)(vue每一列内容过多自动换行)

    vue实现列表自动滚动的方式(二)(vue每一列内容过多自动换行)

  • 小微企业要做企业年金吗
  • 无住所居民个人所得税的计算
  • 赔偿给客户的货财务怎么处理
  • 会计账本需要装订的有哪些
  • 净营业周期和营业周期
  • 进项税抵扣
  • 个体工商户网上报税流程
  • 存货报废需要进项转出吗
  • 取得虚开发票所得税分录如何处理?
  • 应交税费科目核算
  • 物料损耗会计分录
  • 酒店购入食材,怎么做会计分录
  • 企业支付的产品广告费应计入什么账户借方
  • 食堂买的固定资产怎么帐务处理
  • 土地转让增值税计税依据
  • 专家评审费个人所得税由谁支付
  • 清算时土地增值税计税依据
  • 资产负债表应收账款是负数怎么回事
  • 财政部的监管职责范围不包括
  • 销货成本销货成本是什么类账户
  • 服装工业企业成立时间
  • 过期商品报损账务处理?
  • 预缴增值税会计处理
  • php常用扩展有哪些
  • 怎么激活win10专业版
  • 建筑业成本核算表格百度网盘
  • 未确认融资收益怎么理解
  • 审核原始凭证应注意
  • 公交车停车场收费吗
  • wordpresscom
  • 不能进行加计扣除的研发费用有哪些
  • php文件包含的4种方式
  • 赫尔辛基哈加赫利亚大学
  • 预付卡怎么开票
  • 环境检测费计入什么科目
  • 《走进新时代》专栏
  • linux sz命令使用
  • 软件开发行业税负
  • 网站top排行榜
  • 抄税前要做什么
  • 合并范围外关联方是什么
  • uniapp组件使用
  • 企业合并属于非企业吗
  • 股权转让会计分录摘要怎么写
  • 债券投资的会计科目有哪些
  • 土增清算后后续成本计算
  • 联营扣点怎么做账
  • java怎么用mysql
  • 公司向个人借款怎么做账
  • 单位安装摄像头合法吗
  • 固定资产计提折旧的原则
  • 自用房地产转换为采用成本模式计量的投资性房地产
  • 内部审计和外部审计可以相互接触对方的
  • 红字发票销项税额账务处理
  • 支付资金占用费的承诺函怎么写
  • 应付利息属于什么负债
  • 购买原材料产生的运费计入什么科目
  • 基本户怎么提现金
  • 预付账款业务
  • 注册资本实缴制改为认缴制
  • sql提取数据库表中的数据
  • mysql 5.7.16 winx64安装配置方法图文教程
  • win10 64位开机卡在登录界面的解决办法
  • win8激活失败
  • windows8使用技巧
  • centos 编译安装
  • win7无法打开任何软件程序
  • perl chr
  • sku分析的作用
  • python正则匹配url
  • unity怎么设置多个关卡
  • python import怎么用
  • jquery悬浮窗
  • jquery怎么实现单页面
  • js遍历foreach
  • Jquery $when done then的用法详解
  • 业财税一体化所指的业财税包括下列哪几项
  • 新入职税务人员给总局的回信
  • 江苏印花税申报操作流程
  • 放管服中的服的深层含义
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设