位置: IT常识 - 正文

bert-bilstm-crf提升NER模型效果的方法(bert数据增强)

编辑:rootadmin
bert-bilstm-crf提升NER模型效果的方法 1.统一训练监控指标和评估指标

推荐整理分享bert-bilstm-crf提升NER模型效果的方法(bert数据增强),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:bert调优,bert+crf,bert crf,bert 增量训练,bert+bilstm+crf,bert+lstm+crf,bert+crf,bert+crf,内容如对您有帮助,希望把文章链接给更多的朋友!

评估一个模型的最佳指标是在实体级别计算它的F1值,而不是token级别计算它的的准确率。自定义一个f1值的训练监控指标传给回调函数

Preliminary

TP:实际为P,预测为P

TN:实际为N,预测为N

FP:实际为N,预测为P

FN:实际为P,预测为N

如何记忆:

TP/TN: 以T开头,表明预测正确,预测即为第二个字母

FP/FN: 以F开头,表明预测错误,预测与第二个字母相反

Accuracy

最简单也是最好理解的,也是我们很早就开始接触的一个指标就是准确率,即预测正确的样本除以总样本数

Recall, Precision, F1

Recall(召回率):预测正确的正类在正类样本中的比例(针对于样本真实情况)

Precision(精确率):预测正确的正类在预测为正类中的比例(针对于预测情况)

F1:两者通常难以兼得,因此引入两者的调和平均,来得到一个trade-off的值

2、学习率衰减策略

学习率是深度学习中的一个重要的超参,如何调整学习率是训练出好模型的关键要素之一。

在训练过程中,一般根据训练轮数设置动态变化的学习率。

刚开始训练时:学习率以 0.01 ~ 0.001 为宜。

一定轮数过后:逐渐减缓。

接近训练结束:学习速率的衰减应该在 100 倍以上。

两种学习率衰减模式,一种为线性衰减,一种为指数衰减。

如果学习率过小,梯度下降很慢,如果学习率过大,如 Andrew Ng 的 Stanford 公开课程所说梯度下降的步子过大可能会跨过最优值。不同的学习率对 loss 的影响如下图所示:

3、分层设置学习率,非bert层要大

在使用bert或者其它预训练模型进行微调,下接其它具体任务相关的模块时,会面临这样一个问题,bert由于已经进行了预训练,参数已经达到了一个较好的水平,如果要保持其不会降低,学习率就不能太大,而下接结构是从零开始训练,用小的学习率训练不仅学习慢,而且也很难与BERT本体训练同步。因此在训练时候就需要对预训练层设置较小学习率,对下接层设置较大学习率。

4、使用对抗训练提升模型鲁棒性

对抗训练是一种能有效提高模型鲁棒性和泛化能力的训练手段,其基本原理是通过在原始输入上增加对抗扰动(噪声),得到对抗样本,再利用对抗样本进行训练,从而提高模型的表现。

5、更精细化的调参

调整learning_rate or batch_size or lamb等等

实验数据记录

#

模型

超参数

实验结果

备注

1

bilstm+crf

lstm_units = 64

epochs =80

batch_size = 32

drop_rate = 0.2

f1=0.6075

2

bilstm+crf

lstm_units = 128

epochs = 80

batch_size = 32

drop_rate = 0.2

f1=0.6011

3

bert+bilstm+crf

epochs = 8

max_len = 80

batch_size = 32

lstm_units = 128

drop_rate = 0.1

leraning_rate = 1e-5

f1=0.6697

4

bert+bilstm+crf

epochs = 32

max_len = 150

batch_size = 16

lstm_units = 128

drop_rate = 0.1

bert-bilstm-crf提升NER模型效果的方法(bert数据增强)

leraning_rate = 1e-5

f1=0.7262

5

bert+bilstm+crf

epochs = 32

max_len = 150

batch_size = 16

lstm_units = 128

drop_rate = 0.1

leraning_rate = 1e-5

f1=0.6745

统一训练监控指标和评估指标

增加学习率衰减策略

6

bert+bilstm+crf

epochs = 32

max_len = 150

batch_size = 16

lstm_units = 128

drop_rate = 0.1

leraning_rate = 1e-5

f1=0.7159

分层次设置学习率

lr_multiplier=500

7

bert+bilstm+crf

epochs = 32

max_len = 150

batch_size = 16

lstm_units = 128

drop_rate = 0.1

leraning_rate = 1e-5

f1=0.6889

分层次设置学习率

lr_multiplier=500

增加对抗训练(噪声)

8

bert+bilstm+crf

epochs = 32

max_len = 150

batch_size = 16

lstm_units = 128

drop_rate = 0.1

leraning_rate = 1e-5

f1=0.6828

统一训练监控指标和评估指标

增加学习率衰减策略

分层次设置学习率

lr_multiplier=500

增加对抗训练(噪声)

5

bert+bilstm+crf

epochs = 16

max_len = 150

batch_size = 16

lstm_units = 128

drop_rate = 0.1

leraning_rate = 1e-5

f1=0.7201

统一训练监控指标和评估指标

5

本文链接地址:https://www.jiuchutong.com/zhishi/300671.html 转载请保留说明!

上一篇:ES6笔记————let,箭头函数,剩余参数(es6从入门到实战)

下一篇:【C语言进阶】文本与二进制操作文件,优化通讯录。(c语音进阶)

  • 应该怎样写好网站描述(怎样写好网格员的每月会议记录范文)

    应该怎样写好网站描述(怎样写好网格员的每月会议记录范文)

  • python excel写入数据

    python excel写入数据

  • ios15.5更新了哪些内容(ios15.0更新内容)

    ios15.5更新了哪些内容(ios15.0更新内容)

  • 华为插耳机老是跳出语音助手(华为插耳机老是跳歌曲)

    华为插耳机老是跳出语音助手(华为插耳机老是跳歌曲)

  • 华为nova5支不支持分屏怎么办(华为nova5支不支持NFC)

    华为nova5支不支持分屏怎么办(华为nova5支不支持NFC)

  • 唯一索引也称为什么(唯一索引也称为唯一查询)

    唯一索引也称为什么(唯一索引也称为唯一查询)

  • igs文件用什么打开(igs文件怎么生成)

    igs文件用什么打开(igs文件怎么生成)

  • 淘宝店铺扣12分是什么意思(淘宝店铺扣12分后还要多久能报活动)

    淘宝店铺扣12分是什么意思(淘宝店铺扣12分后还要多久能报活动)

  • 声卡的主要功能是啥(声卡的主要功能是什么选择题)

    声卡的主要功能是啥(声卡的主要功能是什么选择题)

  • cpu硅胶干了影响吗(cpu硅胶久了需要重新涂吗)

    cpu硅胶干了影响吗(cpu硅胶久了需要重新涂吗)

  • 备忘录打不开是什么原因(备忘录打不开了)

    备忘录打不开是什么原因(备忘录打不开了)

  • qq临时会话被对方屏蔽会显示什么(qq临时会话被对方屏蔽能加好友吗)

    qq临时会话被对方屏蔽会显示什么(qq临时会话被对方屏蔽能加好友吗)

  • 快捷指令没有nfc(快捷指令没有nfc功能)

    快捷指令没有nfc(快捷指令没有nfc功能)

  • 淘宝买家秀在哪儿看(淘宝买家秀在哪里看)

    淘宝买家秀在哪儿看(淘宝买家秀在哪里看)

  • 苹果共用一个id能看到什么(苹果共用一个id怎么取消照片同步)

    苹果共用一个id能看到什么(苹果共用一个id怎么取消照片同步)

  • 电脑键盘上除以怎么打(电脑小键盘打不出数字)

    电脑键盘上除以怎么打(电脑小键盘打不出数字)

  • load tray1是什么意思(load tray1 a4 210×297)

    load tray1是什么意思(load tray1 a4 210×297)

  • Apple Watch Series5怎么重启手表

    Apple Watch Series5怎么重启手表

  • Reno Ace怎么设置动态壁纸(oppo reno ace怎么设置动态壁纸)

    Reno Ace怎么设置动态壁纸(oppo reno ace怎么设置动态壁纸)

  • iphone怎么更新运营商版本(iphone怎么更新运营商配置文件)

    iphone怎么更新运营商版本(iphone怎么更新运营商配置文件)

  • 苹果11有没有来电闪光灯(苹果11有没有来电显示)

    苹果11有没有来电闪光灯(苹果11有没有来电显示)

  • 红米note8pro指纹在哪里(红米note8pro指纹怎么拆)

    红米note8pro指纹在哪里(红米note8pro指纹怎么拆)

  • iphonexr有红外遥控吗(iphonexr有红外线)

    iphonexr有红外遥控吗(iphonexr有红外线)

  • qq联系人怎么拉黑(qq联系人如何拉黑名单)

    qq联系人怎么拉黑(qq联系人如何拉黑名单)

  • 要点初见:开源AI绘画工具Stable Diffusion代码分析(文本转图像)、论文介绍(上)(开源原则)

    要点初见:开源AI绘画工具Stable Diffusion代码分析(文本转图像)、论文介绍(上)(开源原则)

  • 车船税规定怎么缴纳
  • 小微企业所得税税率2023年最新税率表
  • 企业收到保险公司赔偿款是否要交税
  • 简易征收 抵扣进项
  • 不在经营范围内可以开票吗
  • 暂估一直不来票,没有纳税调整怎么办
  • 服务业发票的开具范围包括什么
  • 工业企业提供劳务收入会计分录
  • 外购货物用于捐赠的会计分录
  • 出口货物的进项发票什么时候认证
  • 公司员工的车外地的停车费怎么做分录
  • 汇算清缴抵税和退税
  • 固定资产所取得的成本
  • 个体户进货需要成本票吗
  • 外国专家工资个税
  • 货运代理可以开9个点的发票吗?
  • 冲销去年费用
  • 纳税人是非开业户是什么意思
  • 应交税费借方余额怎么处理
  • 进项税额转出凭证怎么做
  • 现金采购合理吗
  • 收到注册资金要交税吗
  • 销售退回如何做账
  • 发生以前年度损益调整
  • linux用在哪些方面
  • 电脑蓝屏修复方法是什么
  • 华为mate x3最新价格
  • msoxmled.exe是什么软件
  • elementui ts
  • php正则函数内容匹配
  • .sfx.exe是什么文件
  • 融资租赁账务处理实例承租方
  • 抵扣进项税额的几种情况是
  • 改征增值税是什么意思
  • 废品损失的核算一定要设废品损失账户吗
  • yii框架怎么样
  • cvpr2023最佳论文
  • yii2框架漏洞
  • 业务招待费会计和税法差异
  • html用语
  • javascript基础编程
  • 列表定义格式
  • 用php制作年历
  • sum(sumif)
  • 农民专业合作社连续几年未从事经营活动吊销营业执照
  • 免税法扣除法抵免法的区别
  • wordpress运行缓慢
  • 如何用python给excel每一行添加序号
  • ubuntu系统安装教程
  • 深圳增值税普通发票和专用发票的区别
  • sql中循环语句怎么写
  • 购货方收到销售折扣发票怎么入账
  • 预收账款的核算处理
  • 预缴增值税需要提供什么资料
  • 亏损企业对外捐赠的税前扣除
  • 公司代缴的社保能不能取出来
  • 建设期利息有哪些
  • 应交增值税减免税款科目
  • 员工出差的费用怎么算
  • 新担保法2021和担保期限
  • 其他应付款社保借方余额怎么处理
  • linux系统中的用户大体可分为三组
  • 灵活设置成员
  • windows10计划任务文件在哪
  • Win7计算机管理里面没有本地用户和组
  • 为什么国外程序员比国内厉害
  • .fs是什么格式
  • le启动exe是什么意思
  • unity3d基本操作
  • shell脚本 -ne 0
  • shell脚本输出空格
  • jQuery Easyui datagrid/treegrid 清空数据
  • 百旺税控盘口令认证失败pin锁定怎么办
  • 如何做好基层税务分局长工作
  • 增值税税控开票软件密码不知道了怎么办
  • 广东省国家税务总局电子税务局
  • 免抵退税办法不得抵扣的进项
  • 设备抵扣增值税
  • 从国外网购东西回来要交税吗
  • 建安服务税率是多少
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设