位置: IT常识 - 正文

文本检测之DBNet,DBNet++(文本检测工具)

编辑:rootadmin
文本检测之DBNet,DBNet++

推荐整理分享文本检测之DBNet,DBNet++(文本检测工具),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:文本检测数据集,east 文本检测,文本检测工具,文本检测方法,db 文本检测,文本检测模型,db 文本检测,db 文本检测,内容如对您有帮助,希望把文章链接给更多的朋友!

论文:

DBNet:Real-time Scene Text Detection with Differentiable BinarizationReal-time Scene Text Detection with Differentiable Binarization

DBNet++:Real-Time Scene Text Detection with Differentiable Binarization and Adaptive Scale Fusion

Github:https://github.com/MhLiao/DB

在MSRA-TD500数据集上的测试效果。DBNet的检测效果F1值和速度FPS都比其他算法要好很多。而DBNet++比DBNet速度约略,精度要高。

主要贡献:

DBNet,DBNet++在5个场景任意方向文本检测的数据集上(水平文本,多方向文本,曲形文本)都取得了最好的效果。DBNet的速度快,能够输出高度鲁棒的二进制分割图,大大的简化了后处理操作。即使使用ResNet-18这样的轻量网络,检测效果也非常好。在推理测试阶段,DB模块可以移除而不会对最终效果有影响。DBNet++通过提出ASF模块来优化多尺度分割的效果。

文本检测方法汇总:

名称

代表方法

优点

缺点

基于回归

(Regression-based)的方法

TextBoxes++,EAST,DeepReg,DeRPN

后处理简单,只需要NMS操作

对于任意形状的文本效果不行

基于部件

(Part-based)的方法

SegLink,

SegLink++

尤其擅长长文本行

连接算法比较复杂

基于分割(Segmentation-based)的方法

Mask TextSpotter,

PSENet,SAE

可以出来任意形状的文本

后处理较为麻烦,大概会占用整个推理30%的时间

DBNet网络结构:

网络输入假设为w*h*3。网络整体结构采用FPN的设计思想,进行了5次下采样,3次上采样操作。最终的输出特征图大小为原图的1/4。网络头部部分,分别引出2个分支。一个负责预测概率图(probability map,(w/4)*(h/4)*1),代销为,另一个负责预测阈值图(threshold map,(w/4)*(h/4)*1)。概率图经过阈值图处理,进行二值化后得到二值图(approximate binary map,(w/4)*(h/4)*1)。最后经过后处理操作得到最终文字的边。

DBNet++网络结构:

DBNet++在DBNet的基础上增加了ASF(Adaptive Scale Fusion)模块。不同尺度的特征通过ASF模块处理,可以得到更佳的融合特征。

ASF模块通过引入空间attention机制,使得融合后的特征更加鲁棒。

其中N表示要融合的特征数,这里N=4,表示从4个不同的分支引出的特征。

传统二值化 vs差异二值化:

 

传统二值化Standard binarization

文本检测之DBNet,DBNet++(文本检测工具)

传统的二值化,只是使用固定的阈值t进行二值化处理。

差异二值化Differentiable binarization

 

差异二值化,每个像素都使用不同的阈值进行二值化处理。而这个不同的阈值矩阵又是网络学习得到的。为了保证整个优化过程有梯度的传递,这里又将概率图和阈值图的差传入sigmoid函数,以此来保证梯度的传递。通过梯度优化,保证了不同的图片使用不同的阈值矩阵,达到最佳的二值化效果。

这里k被设置为50

定义损失函数为二分类交叉熵,l+表示正样本的loss,l-表示负样本的loss。

 

分别对正负样本函数求导,得到下面的梯度公式。

其中x<0时,取l+,x>0时,取l-

可变形卷积Deformable convolution:

在ResNet-18和ResNet-50的主干网络conv3,conv4,conv5中使用了可变形卷积,以此保证足够大的感受野。

标签制作:

 

为了增大相邻文字之间的间距,缓解文字离得太近或者部分重叠的情况。概率图(probability map)的制作会在原始红色多边形的基础上,使用Vatti clipping算法,向内收缩D的距离。

 

r表示收缩率,这里设置为0.4

A表示原始红色多边形的面积

L表示原始红色多边形的周长

阈值图(threshold map)在红色多边形的基础上,分别向内收缩D距离形成蓝色多边形,向外扩张D距离形成绿色多边形。蓝色多边形和绿色多边形之间的像素形成阈值图。然后计算图内每个像素离最近的边(蓝色边,绿色边)的归一化距离,形成最终的阈值图。阈值图看起来中间像素亮,边缘像素暗。

后处理操作:

后处理操作中,使用概率图(probability map)或者使用二值图(approximate binary map)都是可以的。两者在效果上是一样的。这样在推理过程中,就可以去掉网络中的二值化过程,直接使用概率图。这样网络中的二值化过程的loss就更像一个辅助loss,来使得网络训练的效果更好。

后处理过程如下,

使用固定阈值0.2对概率图或者二值图进行二值化操作,得到二值图从二值图中获得连通域区域将连通域区域向外膨胀D’得到真实的多边形轮廓

 

其中r’=1.5

A’为网络输出的二值化后的连通区域的面积

L’为网络输出的二值化后的连通区域的周长

损失函数:

 

a=1.0

β=10

Ls:概率图(probability map)的loss,采用二分类交叉熵损失,并基于ohem难例挖掘,保证正负样本比例为1:3

Lb:二值图(binary map)的loss,采用二分类交叉熵损失,并基于ohem难例挖掘,保证正负样本比例为1:3

Lt:阈值图(threshold map)的loss,采用L1损失,其中Rd表示绿色膨胀轮廓内的像素

实验结果:

DBNet 

DBNet++

DBNet VS DBNet++ 

总结:

速度快,精度高能检测任意形状的文本,横着,竖着,斜着,曲形等多种类型的文本缺点,DBNet,DBNet++不能解决环形文字里面还有文字的情况。

One limitation of our method is that it can not deal with cases “text inside text”, which means that a text instance is inside another text instance.

     4.通过提出DB(Differentiable Binarization),类似额外约束的loss,使得模型训练效果更佳。

     5.DBNet++在DBNet的基础上,通过引入ASF模块,在少量耗时增加的代价下,提升了准确性。

     6.可变形卷积(Deformable convolution)的引入,对精度提升巨大。

本文链接地址:https://www.jiuchutong.com/zhishi/299927.html 转载请保留说明!

上一篇:Vue3动态路由(Vite+Vue3+TS+Mock)(vue3动态路由权限)

下一篇:vue3 销毁组件方法(vue destroyed销毁组件)

  • 九大常用的网络营销推广方法(九大常用的网络技术)

    九大常用的网络营销推广方法(九大常用的网络技术)

  • 小米10与华为mate30的对比(小米10与华为mate20pro)

    小米10与华为mate30的对比(小米10与华为mate20pro)

  • 华为P30怎么改手机铃声(华为P30怎么改手机密码)

    华为P30怎么改手机铃声(华为P30怎么改手机密码)

  • 苹果11第一次充电没充满对手机有没有影响(苹果11第一次充电充多久最好)

    苹果11第一次充电没充满对手机有没有影响(苹果11第一次充电充多久最好)

  • 8pgps信号弱什么问题(苹果8plusgps信号弱维修案例)

    8pgps信号弱什么问题(苹果8plusgps信号弱维修案例)

  • 怎么重启(怎么重启抖音)

    怎么重启(怎么重启抖音)

  • iphone11哪个卡槽是主卡(苹果11卡槽有区别吗)

    iphone11哪个卡槽是主卡(苹果11卡槽有区别吗)

  • 手机计步器原理(手机计步器原理视频)

    手机计步器原理(手机计步器原理视频)

  • 唤醒siri的几种方式(唤醒siri时怎么让它换一种方式回应)

    唤醒siri的几种方式(唤醒siri时怎么让它换一种方式回应)

  • blackview是什么手机(blackswan是什么意思)

    blackview是什么手机(blackswan是什么意思)

  • 日常生活中的微软是什么意思(日常生活中的微观经济学例子)

    日常生活中的微软是什么意思(日常生活中的微观经济学例子)

  • 什么软件可以备份微信的聊天记录(什么软件可以备忘录提醒)

    什么软件可以备份微信的聊天记录(什么软件可以备忘录提醒)

  • word怎么改上标(word怎么改上标样式)

    word怎么改上标(word怎么改上标样式)

  • 手机qq怎么分身(荣耀手机qq怎么分身)

    手机qq怎么分身(荣耀手机qq怎么分身)

  • 乐视手机备份功能在哪(乐视手机有云备份吗)

    乐视手机备份功能在哪(乐视手机有云备份吗)

  • 13系统的设备管理在哪里(13系统设备管理器在哪)

    13系统的设备管理在哪里(13系统设备管理器在哪)

  • 苹果手机怎么设置自己的铃声(苹果手机怎么设置密码锁屏)

    苹果手机怎么设置自己的铃声(苹果手机怎么设置密码锁屏)

  • 怎样去掉故事锁屏(故事屏锁怎样取消)

    怎样去掉故事锁屏(故事屏锁怎样取消)

  • vivoy85有nfc功能吗(vivoy85a有没有nfc)

    vivoy85有nfc功能吗(vivoy85a有没有nfc)

  • qq短信验证显示手机号未注册(为什么qq短信验证一直提示稍后重试)

    qq短信验证显示手机号未注册(为什么qq短信验证一直提示稍后重试)

  • vivox27pro抗水吗(vivox27pro防水吗?)

    vivox27pro抗水吗(vivox27pro防水吗?)

  • 苹果手机最上面的显示栏怎么设置(苹果手机最上面模糊怎么办)

    苹果手机最上面的显示栏怎么设置(苹果手机最上面模糊怎么办)

  • 安卓迅雷下载的文件在哪个文件夹(安卓迅雷下载的文件怎么看)

    安卓迅雷下载的文件在哪个文件夹(安卓迅雷下载的文件怎么看)

  • 爱奇艺如何查看常见问题(爱奇艺如何查看会员充值记录)

    爱奇艺如何查看常见问题(爱奇艺如何查看会员充值记录)

  • iphone xs max上市时间(iphoneXSMAX上市时间和价格)

    iphone xs max上市时间(iphoneXSMAX上市时间和价格)

  • 安全平台无法正常运行!微软新更新导致Windows Server系统出现严重故障(安全平台无法认证怎么办)

    安全平台无法正常运行!微软新更新导致Windows Server系统出现严重故障(安全平台无法认证怎么办)

  • 长期借款到期一年怎么算
  • 微店企业和个人的区别
  • 如何开增值税专用发票视频
  • 未发货先开票怎么办
  • 销售货物和劳务的税率
  • 有限合伙合伙人要求
  • 通信服务费包括哪些
  • 代理记账服务内容
  • 无偿受让股权的股东对发起股东没有出资承担责任
  • 委外的加工费专用发票怎么开?
  • 增值税专用发票电子版
  • 如何查询已开出的增值税发票是否被认证
  • 企业所得税季报怎么申报
  • 核定征收的企业需要汇算清缴吗
  • 电梯按几年摊销
  • 办公设备发票开票内容
  • 公司个税申报是什么意思
  • 进项税转出余额方向在哪一方
  • 分项结转法怎么结转
  • 倒发票怎么倒出钱来
  • 酒店另外收电费
  • 出售房产会计账务处理
  • win10更新失败怎么回事
  • 累计折旧 减少
  • linux7 nfs
  • 试乘试驾车入账分录
  • w11系统黑屏
  • yolov3与yolov2
  • 数据处理教程
  • 收到现金股利或债券利息时会计分录
  • 带薪缺勤会计分录
  • 社会保险费征收机构责令限期缴纳
  • 位于Praprotno村之上的圣托马斯教堂 (© Guy Edwardes/Minden Pictures)
  • Centos6.5和Centos7 php环境搭建方法
  • 深入浅出讲解傅里叶变换
  • web前端性能响应时间
  • 首个ChatGPT开发的应用上线;ChatMind思维导图工具;中文提示词大全;Copilot平替 | ShowMeAI日报
  • 即征即退先征后返属于政府补助吗
  • zip命令详解
  • 出差餐补属于福利费吗
  • mongodb查询字段不存在
  • vue2响应式原理面试回答
  • 普通动产和特殊动产登记的区别
  • 可转债公允价值评估
  • 工程类企业存货
  • 新会计准则有哪三个
  • 建筑劳务公司何去何从
  • 复印件可以作为会计原始凭证吗
  • 现金日记账怎么记账
  • 待摊费用和预付费用的区别
  • 《实施条例》第二十七条
  • 美容行业如何做好管理工作
  • 未完施工是存货吗
  • 增值税是否计入税金及附加
  • 建账时都要建哪些科目
  • 房地产企业资产减值损失
  • Linux下卸载MySQL数据库
  • win8 侧边栏
  • keyemain.exe是什么
  • linux系统的配置
  • win8系统教程
  • linux克隆虚拟机
  • android开发环境配置
  • perl时间函数
  • python编码函数
  • Android多线程开发
  • javascript 代码
  • Android ADB server didn't ACK * failed to start daemon * 简单有效的解决方案
  • 安卓手机管家删除的照片怎么恢复
  • python3中map
  • 彻底解决老鼠进发动机舱
  • unity打包后的程序闪退
  • centos7如何安装
  • 电子税务局打印发票提示本机未检测到
  • 养殖业免税用报税吗
  • 通讯费报销会计分录
  • 2020年小规模纳税人普票免税政策
  • 广东省上交国家财政
  • 汕头汕尾什么意思
  • 省银保监局长是什么级别
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设