位置: IT常识 - 正文
推荐整理分享bert-bilstm-crf提升NER模型效果的方法(bert数据增强),希望有所帮助,仅作参考,欢迎阅读内容。
文章相关热门搜索词:bert调优,bert+crf,bert crf,bert 增量训练,bert+bilstm+crf,bert+lstm+crf,bert+crf,bert+crf,内容如对您有帮助,希望把文章链接给更多的朋友!
评估一个模型的最佳指标是在实体级别计算它的F1值,而不是token级别计算它的的准确率。自定义一个f1值的训练监控指标传给回调函数
PreliminaryTP:实际为P,预测为P
TN:实际为N,预测为N
FP:实际为N,预测为P
FN:实际为P,预测为N
如何记忆:
TP/TN: 以T开头,表明预测正确,预测即为第二个字母
FP/FN: 以F开头,表明预测错误,预测与第二个字母相反
Accuracy最简单也是最好理解的,也是我们很早就开始接触的一个指标就是准确率,即预测正确的样本除以总样本数
Recall, Precision, F1Recall(召回率):预测正确的正类在正类样本中的比例(针对于样本真实情况)
Precision(精确率):预测正确的正类在预测为正类中的比例(针对于预测情况)
F1:两者通常难以兼得,因此引入两者的调和平均,来得到一个trade-off的值
2、学习率衰减策略学习率是深度学习中的一个重要的超参,如何调整学习率是训练出好模型的关键要素之一。
在训练过程中,一般根据训练轮数设置动态变化的学习率。
刚开始训练时:学习率以 0.01 ~ 0.001 为宜。
一定轮数过后:逐渐减缓。
接近训练结束:学习速率的衰减应该在 100 倍以上。
两种学习率衰减模式,一种为线性衰减,一种为指数衰减。
如果学习率过小,梯度下降很慢,如果学习率过大,如 Andrew Ng 的 Stanford 公开课程所说梯度下降的步子过大可能会跨过最优值。不同的学习率对 loss 的影响如下图所示:
3、分层设置学习率,非bert层要大在使用bert或者其它预训练模型进行微调,下接其它具体任务相关的模块时,会面临这样一个问题,bert由于已经进行了预训练,参数已经达到了一个较好的水平,如果要保持其不会降低,学习率就不能太大,而下接结构是从零开始训练,用小的学习率训练不仅学习慢,而且也很难与BERT本体训练同步。因此在训练时候就需要对预训练层设置较小学习率,对下接层设置较大学习率。
4、使用对抗训练提升模型鲁棒性对抗训练是一种能有效提高模型鲁棒性和泛化能力的训练手段,其基本原理是通过在原始输入上增加对抗扰动(噪声),得到对抗样本,再利用对抗样本进行训练,从而提高模型的表现。
5、更精细化的调参调整learning_rate or batch_size or lamb等等
实验数据记录#
模型
超参数
实验结果
备注
1
bilstm+crf
lstm_units = 64
epochs =80
batch_size = 32
drop_rate = 0.2
f1=0.6075
2
bilstm+crf
lstm_units = 128
epochs = 80
batch_size = 32
drop_rate = 0.2
f1=0.6011
3
bert+bilstm+crf
epochs = 8
max_len = 80
batch_size = 32
lstm_units = 128
drop_rate = 0.1
leraning_rate = 1e-5
f1=0.6697
4
bert+bilstm+crf
epochs = 32
max_len = 150
batch_size = 16
lstm_units = 128
drop_rate = 0.1
leraning_rate = 1e-5
f1=0.7262
5
bert+bilstm+crf
epochs = 32
max_len = 150
batch_size = 16
lstm_units = 128
drop_rate = 0.1
leraning_rate = 1e-5
f1=0.6745
统一训练监控指标和评估指标
增加学习率衰减策略
6
bert+bilstm+crf
epochs = 32
max_len = 150
batch_size = 16
lstm_units = 128
drop_rate = 0.1
leraning_rate = 1e-5
f1=0.7159
分层次设置学习率
lr_multiplier=500
7
bert+bilstm+crf
epochs = 32
max_len = 150
batch_size = 16
lstm_units = 128
drop_rate = 0.1
leraning_rate = 1e-5
f1=0.6889
分层次设置学习率
lr_multiplier=500
增加对抗训练(噪声)
8
bert+bilstm+crf
epochs = 32
max_len = 150
batch_size = 16
lstm_units = 128
drop_rate = 0.1
leraning_rate = 1e-5
f1=0.6828
统一训练监控指标和评估指标
增加学习率衰减策略
分层次设置学习率
lr_multiplier=500
增加对抗训练(噪声)
5
bert+bilstm+crf
epochs = 16
max_len = 150
batch_size = 16
lstm_units = 128
drop_rate = 0.1
leraning_rate = 1e-5
f1=0.7201
统一训练监控指标和评估指标
5
上一篇:ES6笔记————let,箭头函数,剩余参数(es6从入门到实战)
下一篇:【C语言进阶】文本与二进制操作文件,优化通讯录。(c语音进阶)
友情链接: 武汉网站建设