位置: IT常识 - 正文

文本检测之DBNet,DBNet++(文本检测工具)

编辑:rootadmin
文本检测之DBNet,DBNet++

推荐整理分享文本检测之DBNet,DBNet++(文本检测工具),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:文本检测数据集,east 文本检测,文本检测工具,文本检测方法,db 文本检测,文本检测模型,db 文本检测,db 文本检测,内容如对您有帮助,希望把文章链接给更多的朋友!

论文:

DBNet:Real-time Scene Text Detection with Differentiable BinarizationReal-time Scene Text Detection with Differentiable Binarization

DBNet++:Real-Time Scene Text Detection with Differentiable Binarization and Adaptive Scale Fusion

Github:https://github.com/MhLiao/DB

在MSRA-TD500数据集上的测试效果。DBNet的检测效果F1值和速度FPS都比其他算法要好很多。而DBNet++比DBNet速度约略,精度要高。

主要贡献:

DBNet,DBNet++在5个场景任意方向文本检测的数据集上(水平文本,多方向文本,曲形文本)都取得了最好的效果。DBNet的速度快,能够输出高度鲁棒的二进制分割图,大大的简化了后处理操作。即使使用ResNet-18这样的轻量网络,检测效果也非常好。在推理测试阶段,DB模块可以移除而不会对最终效果有影响。DBNet++通过提出ASF模块来优化多尺度分割的效果。

文本检测方法汇总:

名称

代表方法

优点

缺点

基于回归

(Regression-based)的方法

TextBoxes++,EAST,DeepReg,DeRPN

后处理简单,只需要NMS操作

对于任意形状的文本效果不行

基于部件

(Part-based)的方法

SegLink,

SegLink++

尤其擅长长文本行

连接算法比较复杂

基于分割(Segmentation-based)的方法

Mask TextSpotter,

PSENet,SAE

可以出来任意形状的文本

后处理较为麻烦,大概会占用整个推理30%的时间

DBNet网络结构:

网络输入假设为w*h*3。网络整体结构采用FPN的设计思想,进行了5次下采样,3次上采样操作。最终的输出特征图大小为原图的1/4。网络头部部分,分别引出2个分支。一个负责预测概率图(probability map,(w/4)*(h/4)*1),代销为,另一个负责预测阈值图(threshold map,(w/4)*(h/4)*1)。概率图经过阈值图处理,进行二值化后得到二值图(approximate binary map,(w/4)*(h/4)*1)。最后经过后处理操作得到最终文字的边。

DBNet++网络结构:

DBNet++在DBNet的基础上增加了ASF(Adaptive Scale Fusion)模块。不同尺度的特征通过ASF模块处理,可以得到更佳的融合特征。

ASF模块通过引入空间attention机制,使得融合后的特征更加鲁棒。

其中N表示要融合的特征数,这里N=4,表示从4个不同的分支引出的特征。

传统二值化 vs差异二值化:

 

传统二值化Standard binarization

文本检测之DBNet,DBNet++(文本检测工具)

传统的二值化,只是使用固定的阈值t进行二值化处理。

差异二值化Differentiable binarization

 

差异二值化,每个像素都使用不同的阈值进行二值化处理。而这个不同的阈值矩阵又是网络学习得到的。为了保证整个优化过程有梯度的传递,这里又将概率图和阈值图的差传入sigmoid函数,以此来保证梯度的传递。通过梯度优化,保证了不同的图片使用不同的阈值矩阵,达到最佳的二值化效果。

这里k被设置为50

定义损失函数为二分类交叉熵,l+表示正样本的loss,l-表示负样本的loss。

 

分别对正负样本函数求导,得到下面的梯度公式。

其中x<0时,取l+,x>0时,取l-

可变形卷积Deformable convolution:

在ResNet-18和ResNet-50的主干网络conv3,conv4,conv5中使用了可变形卷积,以此保证足够大的感受野。

标签制作:

 

为了增大相邻文字之间的间距,缓解文字离得太近或者部分重叠的情况。概率图(probability map)的制作会在原始红色多边形的基础上,使用Vatti clipping算法,向内收缩D的距离。

 

r表示收缩率,这里设置为0.4

A表示原始红色多边形的面积

L表示原始红色多边形的周长

阈值图(threshold map)在红色多边形的基础上,分别向内收缩D距离形成蓝色多边形,向外扩张D距离形成绿色多边形。蓝色多边形和绿色多边形之间的像素形成阈值图。然后计算图内每个像素离最近的边(蓝色边,绿色边)的归一化距离,形成最终的阈值图。阈值图看起来中间像素亮,边缘像素暗。

后处理操作:

后处理操作中,使用概率图(probability map)或者使用二值图(approximate binary map)都是可以的。两者在效果上是一样的。这样在推理过程中,就可以去掉网络中的二值化过程,直接使用概率图。这样网络中的二值化过程的loss就更像一个辅助loss,来使得网络训练的效果更好。

后处理过程如下,

使用固定阈值0.2对概率图或者二值图进行二值化操作,得到二值图从二值图中获得连通域区域将连通域区域向外膨胀D’得到真实的多边形轮廓

 

其中r’=1.5

A’为网络输出的二值化后的连通区域的面积

L’为网络输出的二值化后的连通区域的周长

损失函数:

 

a=1.0

β=10

Ls:概率图(probability map)的loss,采用二分类交叉熵损失,并基于ohem难例挖掘,保证正负样本比例为1:3

Lb:二值图(binary map)的loss,采用二分类交叉熵损失,并基于ohem难例挖掘,保证正负样本比例为1:3

Lt:阈值图(threshold map)的loss,采用L1损失,其中Rd表示绿色膨胀轮廓内的像素

实验结果:

DBNet 

DBNet++

DBNet VS DBNet++ 

总结:

速度快,精度高能检测任意形状的文本,横着,竖着,斜着,曲形等多种类型的文本缺点,DBNet,DBNet++不能解决环形文字里面还有文字的情况。

One limitation of our method is that it can not deal with cases “text inside text”, which means that a text instance is inside another text instance.

     4.通过提出DB(Differentiable Binarization),类似额外约束的loss,使得模型训练效果更佳。

     5.DBNet++在DBNet的基础上,通过引入ASF模块,在少量耗时增加的代价下,提升了准确性。

     6.可变形卷积(Deformable convolution)的引入,对精度提升巨大。

本文链接地址:https://www.jiuchutong.com/zhishi/299927.html 转载请保留说明!

上一篇:Vue3动态路由(Vite+Vue3+TS+Mock)(vue3动态路由权限)

下一篇:vue3 销毁组件方法(vue destroyed销毁组件)

  • 手机号显示是虚拟运营商(手机号显示是虚拟号)

    手机号显示是虚拟运营商(手机号显示是虚拟号)

  • 华为nova5pro息屏时间怎么设置(华为nova5Pro息屏重启)

    华为nova5pro息屏时间怎么设置(华为nova5Pro息屏重启)

  • 笔记本电脑键盘变成了快捷方式(笔记本电脑键盘更换要多少钱?)

    笔记本电脑键盘变成了快捷方式(笔记本电脑键盘更换要多少钱?)

  • 微信更换实名认证后零钱还在吗(微信更换实名认证)

    微信更换实名认证后零钱还在吗(微信更换实名认证)

  • 微信视频号内测资格有什么用(微信视频号内测申请)

    微信视频号内测资格有什么用(微信视频号内测申请)

  • 路由器的上网方式选什么(路由器的上网方式有几种)

    路由器的上网方式选什么(路由器的上网方式有几种)

  • 打印图片不能初始化打印机是什么意思(打印图片不能初始化打印机)

    打印图片不能初始化打印机是什么意思(打印图片不能初始化打印机)

  • 怎么延时拍照片(怎么延时拍照片苹果手机)

    怎么延时拍照片(怎么延时拍照片苹果手机)

  • 苹果6plus听筒声音越来越小是怎么回事

    苹果6plus听筒声音越来越小是怎么回事

  • 笔记本电脑冲不进去电怎么回事(笔记本电脑冲不上电,换了充电器没多久又充不上电)

    笔记本电脑冲不进去电怎么回事(笔记本电脑冲不上电,换了充电器没多久又充不上电)

  • 旁白模式黑屏怎么解开(旁白模式黑屏怎么办)

    旁白模式黑屏怎么解开(旁白模式黑屏怎么办)

  • 快手不显示作品推广(快手不显示作品浏览记录)

    快手不显示作品推广(快手不显示作品浏览记录)

  • 微信群加好友一天最多可以加多少(微信群加好友一天加多少不会违规)

    微信群加好友一天最多可以加多少(微信群加好友一天加多少不会违规)

  • vivoy93是全网通吗(vivo y97 全网通)

    vivoy93是全网通吗(vivo y97 全网通)

  • 华为p30pro是什么处理器(华为p30pro是什么接口)

    华为p30pro是什么处理器(华为p30pro是什么接口)

  • 抖音主播可以设置几个管理员(抖音主播可以设置超管吗)

    抖音主播可以设置几个管理员(抖音主播可以设置超管吗)

  • 抖音怎么重新绑身份证(抖音怎么重新绑定银行卡)

    抖音怎么重新绑身份证(抖音怎么重新绑定银行卡)

  • win7系统偏好设置在哪(系统偏好设置任何来源不见了)

    win7系统偏好设置在哪(系统偏好设置任何来源不见了)

  • m711m是什么型号(m711h是什么型号手机)

    m711m是什么型号(m711h是什么型号手机)

  • oppo 新机reno 充电一次需要多长时间(oppo reno 充电)

    oppo 新机reno 充电一次需要多长时间(oppo reno 充电)

  • 钉钉如何激活激活方法教程(钉钉上面怎么激活)

    钉钉如何激活激活方法教程(钉钉上面怎么激活)

  • 如何申请域名做网站(如何申请域名做商用)

    如何申请域名做网站(如何申请域名做商用)

  • win11任务栏无反应怎么办?win11任务栏无反应解决方法(win11任务栏失灵)

    win11任务栏无反应怎么办?win11任务栏无反应解决方法(win11任务栏失灵)

  • 电脑系统安全问题是怎样导致的?(电脑安全系统无法启动怎么办)

    电脑系统安全问题是怎样导致的?(电脑安全系统无法启动怎么办)

  • 公司股东变更需要本人到场吗
  • 偶然所得税什么时候颁布
  • 企业所得税负担变动率
  • 自产产品用于职工福利会计处理
  • 民营医院的财务管理制度
  • 软件 折旧年限
  • 分公司企业所得税怎么缴纳
  • 新会计准则下长期股权投资的变化
  • 核定企业的征收方式
  • 修理费没有发票怎么做账
  • 租个人房子开发票税率是多少
  • 税务行政复议范围不包括
  • 卷式增值税发票校验码怎么查
  • 劳务派遣案例分析题
  • 公司未分配利润太大,怎么处理好
  • 什么叫未完税
  • 小规模纳税人定额发票累计领用金额
  • 购入土地使用权增值税税率
  • 应纳税所得额怎么理解
  • 合并报表的收入
  • 股权转让怎么办理才合理
  • 红冲普通发票怎么开具
  • 企业生产销售白酒取得的下列款项中,应并入
  • 收到押金和支付押金的账务处理
  • 腾讯电脑管家中有没有红色警戒下载玩
  • win10系统怎么设置锁屏壁纸
  • 金蝶固定资产减少怎么做
  • window11 正式版
  • linux系统中用户账户有哪些分类
  • 关于工程材料的图书有哪些
  • php删除用户
  • 评估价值时点依据什么
  • 广告公司收到广告发票如何入账
  • 工业企业会计核算的特点
  • vue实例教程
  • ngnix 命令
  • python random random
  • 应交所得税的科目是什么
  • 织梦网站怎么改logo
  • 织梦cms为什么不维护了
  • 电子税务局没有税务数字账户怎么办
  • 长期借款期末余额表示什么
  • 增值税普通发票几个点
  • 上个月没有清卡在其他地区税务
  • 现代服务税目包括哪些具体分类
  • 综合所得算税公式
  • 成品油发票怎么录入库存
  • 差旅费补助无发票的文件依据
  • 什么是认缴出资金额
  • 什么情况填an
  • 现在购入不动产怎么办
  • 分销佣金税务账务怎么做
  • 预收账款年底是不是不能有余额
  • 业务招待费文件
  • 电商刷单的成本如何处理?
  • 手工账本应付账款怎么做
  • 年度损益调整的会计分录
  • 成本结转怎么结转
  • 本月的费用
  • 塑料制品厂设计
  • SQL直接操作excel表(查询/导入/插入)
  • 使用Mysql5.x以上版本出现报错#1929 Incorrect datetime value: '''' for column ''createtime''的快速解决方法
  • windows命令操作
  • win7旗舰版系统激活码
  • linux系统讲解
  • Win10 Build 10565快速预览版为什么有ISO镜像下载地址?
  • win8系统关机键找不见
  • win7注册表修改锁屏时间
  • nodejs stdin
  • 英语中our和my的区别
  • media and
  • 以下关于js说法错误的是
  • nodejs操作mongodb
  • javascript面向对象精要pdf
  • JQuery绑定事件的函数是
  • jquery deferred对象
  • 常州税务局举报网站
  • 港股印花税什么时候下调
  • 河北省税务局地址邮编
  • 长沙税务查询电话
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设