位置: IT常识 - 正文

文本检测之DBNet,DBNet++(文本检测工具)

编辑:rootadmin
文本检测之DBNet,DBNet++

推荐整理分享文本检测之DBNet,DBNet++(文本检测工具),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:文本检测数据集,east 文本检测,文本检测工具,文本检测方法,db 文本检测,文本检测模型,db 文本检测,db 文本检测,内容如对您有帮助,希望把文章链接给更多的朋友!

论文:

DBNet:Real-time Scene Text Detection with Differentiable BinarizationReal-time Scene Text Detection with Differentiable Binarization

DBNet++:Real-Time Scene Text Detection with Differentiable Binarization and Adaptive Scale Fusion

Github:https://github.com/MhLiao/DB

在MSRA-TD500数据集上的测试效果。DBNet的检测效果F1值和速度FPS都比其他算法要好很多。而DBNet++比DBNet速度约略,精度要高。

主要贡献:

DBNet,DBNet++在5个场景任意方向文本检测的数据集上(水平文本,多方向文本,曲形文本)都取得了最好的效果。DBNet的速度快,能够输出高度鲁棒的二进制分割图,大大的简化了后处理操作。即使使用ResNet-18这样的轻量网络,检测效果也非常好。在推理测试阶段,DB模块可以移除而不会对最终效果有影响。DBNet++通过提出ASF模块来优化多尺度分割的效果。

文本检测方法汇总:

名称

代表方法

优点

缺点

基于回归

(Regression-based)的方法

TextBoxes++,EAST,DeepReg,DeRPN

后处理简单,只需要NMS操作

对于任意形状的文本效果不行

基于部件

(Part-based)的方法

SegLink,

SegLink++

尤其擅长长文本行

连接算法比较复杂

基于分割(Segmentation-based)的方法

Mask TextSpotter,

PSENet,SAE

可以出来任意形状的文本

后处理较为麻烦,大概会占用整个推理30%的时间

DBNet网络结构:

网络输入假设为w*h*3。网络整体结构采用FPN的设计思想,进行了5次下采样,3次上采样操作。最终的输出特征图大小为原图的1/4。网络头部部分,分别引出2个分支。一个负责预测概率图(probability map,(w/4)*(h/4)*1),代销为,另一个负责预测阈值图(threshold map,(w/4)*(h/4)*1)。概率图经过阈值图处理,进行二值化后得到二值图(approximate binary map,(w/4)*(h/4)*1)。最后经过后处理操作得到最终文字的边。

DBNet++网络结构:

DBNet++在DBNet的基础上增加了ASF(Adaptive Scale Fusion)模块。不同尺度的特征通过ASF模块处理,可以得到更佳的融合特征。

ASF模块通过引入空间attention机制,使得融合后的特征更加鲁棒。

其中N表示要融合的特征数,这里N=4,表示从4个不同的分支引出的特征。

传统二值化 vs差异二值化:

 

传统二值化Standard binarization

文本检测之DBNet,DBNet++(文本检测工具)

传统的二值化,只是使用固定的阈值t进行二值化处理。

差异二值化Differentiable binarization

 

差异二值化,每个像素都使用不同的阈值进行二值化处理。而这个不同的阈值矩阵又是网络学习得到的。为了保证整个优化过程有梯度的传递,这里又将概率图和阈值图的差传入sigmoid函数,以此来保证梯度的传递。通过梯度优化,保证了不同的图片使用不同的阈值矩阵,达到最佳的二值化效果。

这里k被设置为50

定义损失函数为二分类交叉熵,l+表示正样本的loss,l-表示负样本的loss。

 

分别对正负样本函数求导,得到下面的梯度公式。

其中x<0时,取l+,x>0时,取l-

可变形卷积Deformable convolution:

在ResNet-18和ResNet-50的主干网络conv3,conv4,conv5中使用了可变形卷积,以此保证足够大的感受野。

标签制作:

 

为了增大相邻文字之间的间距,缓解文字离得太近或者部分重叠的情况。概率图(probability map)的制作会在原始红色多边形的基础上,使用Vatti clipping算法,向内收缩D的距离。

 

r表示收缩率,这里设置为0.4

A表示原始红色多边形的面积

L表示原始红色多边形的周长

阈值图(threshold map)在红色多边形的基础上,分别向内收缩D距离形成蓝色多边形,向外扩张D距离形成绿色多边形。蓝色多边形和绿色多边形之间的像素形成阈值图。然后计算图内每个像素离最近的边(蓝色边,绿色边)的归一化距离,形成最终的阈值图。阈值图看起来中间像素亮,边缘像素暗。

后处理操作:

后处理操作中,使用概率图(probability map)或者使用二值图(approximate binary map)都是可以的。两者在效果上是一样的。这样在推理过程中,就可以去掉网络中的二值化过程,直接使用概率图。这样网络中的二值化过程的loss就更像一个辅助loss,来使得网络训练的效果更好。

后处理过程如下,

使用固定阈值0.2对概率图或者二值图进行二值化操作,得到二值图从二值图中获得连通域区域将连通域区域向外膨胀D’得到真实的多边形轮廓

 

其中r’=1.5

A’为网络输出的二值化后的连通区域的面积

L’为网络输出的二值化后的连通区域的周长

损失函数:

 

a=1.0

β=10

Ls:概率图(probability map)的loss,采用二分类交叉熵损失,并基于ohem难例挖掘,保证正负样本比例为1:3

Lb:二值图(binary map)的loss,采用二分类交叉熵损失,并基于ohem难例挖掘,保证正负样本比例为1:3

Lt:阈值图(threshold map)的loss,采用L1损失,其中Rd表示绿色膨胀轮廓内的像素

实验结果:

DBNet 

DBNet++

DBNet VS DBNet++ 

总结:

速度快,精度高能检测任意形状的文本,横着,竖着,斜着,曲形等多种类型的文本缺点,DBNet,DBNet++不能解决环形文字里面还有文字的情况。

One limitation of our method is that it can not deal with cases “text inside text”, which means that a text instance is inside another text instance.

     4.通过提出DB(Differentiable Binarization),类似额外约束的loss,使得模型训练效果更佳。

     5.DBNet++在DBNet的基础上,通过引入ASF模块,在少量耗时增加的代价下,提升了准确性。

     6.可变形卷积(Deformable convolution)的引入,对精度提升巨大。

本文链接地址:https://www.jiuchutong.com/zhishi/299927.html 转载请保留说明!

上一篇:Vue3动态路由(Vite+Vue3+TS+Mock)(vue3动态路由权限)

下一篇:vue3 销毁组件方法(vue destroyed销毁组件)

  • faceu怎么虚化背景(facetime背景虚化)

    faceu怎么虚化背景(facetime背景虚化)

  • 蓝牙设置在哪里(vivo手机蓝牙设置在哪里)

    蓝牙设置在哪里(vivo手机蓝牙设置在哪里)

  • 华为p30有贴膜吗(华为p30表面贴的是膜吗)

    华为p30有贴膜吗(华为p30表面贴的是膜吗)

  • WPS页面布局怎么设置分页(wps页面布局怎么单独调整)

    WPS页面布局怎么设置分页(wps页面布局怎么单独调整)

  • iphone网易云音乐锁屏不显示怎么办(网易云音乐苹果手机)

    iphone网易云音乐锁屏不显示怎么办(网易云音乐苹果手机)

  • 淘宝生鲜退货规则(淘宝生鲜退款)

    淘宝生鲜退货规则(淘宝生鲜退款)

  • 苹果8有红外线功能吗(苹果8有红外线遥控吗)

    苹果8有红外线功能吗(苹果8有红外线遥控吗)

  • 苹果8手电筒不亮了怎么回事(苹果8手电筒不灵敏)

    苹果8手电筒不亮了怎么回事(苹果8手电筒不灵敏)

  • 电脑内网连接不上(电脑内网连接不上去)

    电脑内网连接不上(电脑内网连接不上去)

  • a1660是全网通吗(a1660是什么版本)

    a1660是全网通吗(a1660是什么版本)

  • 移动应用授权失效(移动授权权限名词解释)

    移动应用授权失效(移动授权权限名词解释)

  • 腾讯会议开视频可以看到所有人吗(腾讯会议开视频显示相机和一个杠)

    腾讯会议开视频可以看到所有人吗(腾讯会议开视频显示相机和一个杠)

  • 苹果11有光学防抖吗(苹果11光学防抖坏了)

    苹果11有光学防抖吗(苹果11光学防抖坏了)

  • 双重认证有什么用(双重认证什么表现)

    双重认证有什么用(双重认证什么表现)

  • 益起来为什么没有步数(益起来是什么)

    益起来为什么没有步数(益起来是什么)

  • 打印机扫描分辨率多少合适(打印机扫描分辨率1200*1200清晰吗)

    打印机扫描分辨率多少合适(打印机扫描分辨率1200*1200清晰吗)

  • 拼多多的免拼是什么意思(拼多多的免拼是怎么回事)

    拼多多的免拼是什么意思(拼多多的免拼是怎么回事)

  • airpods2代真假辨别(airpods2代细节真假)

    airpods2代真假辨别(airpods2代细节真假)

  • wps备份文件删除可恢复吗(wps备份文件清理)

    wps备份文件删除可恢复吗(wps备份文件清理)

  • 京东自营丢件怎么赔偿(京东自营快递丢件如何处理)

    京东自营丢件怎么赔偿(京东自营快递丢件如何处理)

  • k20pro dc调光怎么开启(k20prodc调光在哪)

    k20pro dc调光怎么开启(k20prodc调光在哪)

  • 苹果x支持无线充电吗(苹果X支持无线充多少w)

    苹果x支持无线充电吗(苹果X支持无线充多少w)

  • 如何从手机上下网络传送照片(如何从手机上下载电子保单)

    如何从手机上下网络传送照片(如何从手机上下载电子保单)

  • iphone设置自定义铃声(iphone怎么设置自定义闹钟铃声)

    iphone设置自定义铃声(iphone怎么设置自定义闹钟铃声)

  • 王卡助手领取腾讯会员该怎么弄(王卡助手领取腾讯会员请求异常)

    王卡助手领取腾讯会员该怎么弄(王卡助手领取腾讯会员请求异常)

  • 手机扩容对手机有伤害吗(手机扩容对手机好吗)

    手机扩容对手机有伤害吗(手机扩容对手机好吗)

  • iphone诊断与用量删除(iphone诊断与用量不见了,分析与改进)

    iphone诊断与用量删除(iphone诊断与用量不见了,分析与改进)

  • 抖音播放量自己看算吗(抖音播放量自己看过一遍算数吗)

    抖音播放量自己看算吗(抖音播放量自己看过一遍算数吗)

  • oppo手机新品reno支持无线充电吗(oppo手机新品reno5g价格)

    oppo手机新品reno支持无线充电吗(oppo手机新品reno5g价格)

  • 企业erp系统有哪些(企业erp系统软件)

    企业erp系统有哪些(企业erp系统软件)

  • 装修行业小规模纳税人标准
  • 私车公用报销流程怎么写
  • 企业所得税计提表模板
  • 企业注销了,报表的银行存款还有余额
  • 专票当月认证后什么时候抵扣
  • 哪些合同不需要缴纳印花税的通知
  • 餐补和车补可以税前扣除吗?
  • 科研项目间接费用会计分录
  • 给客户的返点会计分录怎么写
  • 净资产利润率等于净资产收益率吗
  • 异地提供建筑服务
  • 销项在借方还是贷方
  • 电子发票缩小多少比例打印
  • 客户付货款给我们公司备注往来结算款
  • 事业单位是否需要章程
  • 按简易办法征收增值税
  • 在windows 7中
  • 小规模纳税人取得防伪税控系统普通发票
  • 营改增后销售不动产税率变化时间
  • php8底层内核
  • windows10护眼色设置
  • PHP:mb_parse_str()的用法_mbstring函数
  • 招待费审批流程
  • php __destruct
  • 同一控制下的控股合并中,合并方个别财务报表
  • vue修改打包后静态资源路径的修改
  • intempt
  • 十分钟带你了解阿氏圆
  • 保险公司经营外汇保险业务
  • 外贸企业出口免抵退
  • 工业企业应付会计工作内容
  • php实现留言板功能
  • 外经证预缴
  • 一文详解卡尔曼人物形象
  • 如何在Android中找到关闭的文件
  • Pytorch深度学习实战3-7:详解数据加载DataLoader与模型处理
  • php强制下载文件在哪
  • 开发区政府退税政策合法吗
  • 总公司和分公司按什么分类
  • 现金账怎么登记
  • mysql终端操作
  • 注册资本印花税2023年新规定
  • 银行本票与银行汇票的区别之一是
  • 工程结算收入如何确定
  • 计提的管理费用要结转吗
  • 服务业如何确定收入
  • 当月进项发票忘记抵扣
  • 公司前期装修费属于开办费吗
  • 呆滞原材料变卖的会计处理
  • 丢失的发票怎么查询
  • 接受政府补助的应纳税所得
  • 工会经费属于什么会计科目?
  • 应收款挂账是什么意思
  • sqlserver怎么用
  • 存储sql
  • xp系统怎样创建网络连接
  • centos 安装程序
  • ubuntu operation not permitted
  • ati2sgag.exe进程安全吗 ati2sgag进程信息查询
  • win7安装无法将windows配置为在此计算机上运行
  • linux程序死机
  • 上帝模式使用教程
  • window10里的ie浏览器
  • linux系统叫啥
  • linux防病毒措施
  • win7显示桌面的组合键
  • android获取json数据
  • js有while吗
  • angular.js
  • angularjs4
  • python切片菜鸟教程
  • python字符有哪些
  • 在电子税务局如何增加税种
  • 厦门增值税发票查询
  • 甘肃省税务申报系统
  • 江西国税局电话客服热线
  • 环保信用评价等级分级情况
  • 个体户是否需要缴纳企业所得税
  • 2020年青海国税工资待遇
  • 明星征税多少
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设