【图像与信号处理】基于可微分二值化网络(DBNet)与循环卷积神经网络(CRNN)的电梯铭牌和限速器检验单识别方法

发布于:2025-07-08 ⋅ 阅读:(17) ⋅ 点赞:(0)

导读:

在电梯检验检测工作中,对于铭牌和限速器检验单的判读与识别是相应检测项目中的重要环节。为了有效地提升相关现场检验的效率,本论文提出了一种基于可微分二值化网络(DBNet)与循环卷积神经网络(CRNN)的电梯铭牌和限速器检验单识别方法,能够在网络端远程实现铭牌和限速器检验单上的相关信息,从而将传统的现场检验转换为远程检验检测。

正文

本研究中,提出了一种基于可微分二值化网络(DBNet)与循环卷积神经网络(CRNN)的电梯铭牌和限速器检验单识别方法,能够在网络端结合字符识别技术有效且远程实现铭牌和限速器检验单上的相关重要信息。该技术不仅提升了检验工作的效率和质量,还为电梯行业的可持续发展提供了强有力的技术支撑。

字符检测使用DBNet算法,对电梯铭牌或限速器检验报告单进行检测,检测出其中包含文字和数字的区域。字符识别采用CRNN的方法,对检测的文字和数字区域的内容进行识别,判断铭牌或限速器的内容,具体流程如图1所示。

DBNet主要分为三个部分:Backbone网络,负责提取图像的特征;FPN网络,特征金字塔结构增强特征;Head网络,计算文本区域概率图。网络结构如图2所示。

本算法的核心就是DB (可微分二值化),采用动态的阈值区分文本区域与背景。基于分割的普通文本检测算法流程如图3蓝色箭头所示,此类方法得到分割结果之后采用一个固定的阈值得到二值化的分割图,之后采用诸如像素聚类的启发式算法得到文本区域。DB算法的流程如图中红色箭头所示,最大的不同在于DB有一个阈值图,通过网络去预测图片每个位置处的阈值,而不是采用一个固定的值,更好地分离文本背景与前景。

CRNN是基于CTC的算法,主要用于解决规则文本,不仅有较快的预测速度并且很好的适用长文本。CRNN的网络结构体系如图4示,从下往上分别为卷积层、递归层和转录层三部分。

文本检测算法DBNet在ICDAR201文本检测公开数据集中进行测试。该数据集是国际文档分析与识别会议(ICDAR)举办的比赛用数据集,主要用于文本检测和识别任务,包含有各种真实场景图片和位置标签。数据集实例如图5所示,左图为数据集图片示例,右图为根据标签绘制的真实检测结果。

ICDAR2015数据集测试结果如表1所示。精确率(Precision)定义为在所有被预测为正类的样本中,实际为正类的比例。召回率(Recall)定义为在所有实际为正类的样本中,被预测为正类的比例。Hmean通常指的是精确率和召回率的调和平均数。以上三个参数的范围都是从0到1,且其值越高,模型的性能越好。从表1的实验结果可以看出,本文所提出的网络结构在各性能指标方面均优于其他三种网络结构,充分说明了本文所提出网络结构的有效性。

最终算法效果如表2所示。根据表2的结果可以看到,同样地,本文所提网络结构的准确率均优于其他三种常用的网络结构,对识别准确率的性能提升起到重要的作用。对于不同的预训练模型PP-OCRv3和PP-OCRv4,PP-OCRv4在维持模型大小基本不变的情况下,Hmean指标显著提升,故使用PP-OCRv4预训练模型。

结论

针对电梯质量检验中的铭牌和限速器检验单识别问题,本文提出了一种基于可微分二值化网络与循环卷积神经网络的电梯铭牌和限速器检验单高效识别方法。通过所搭建的网络模型,能够有效地实现对电梯铭牌和限速器检验单中相关数据和信息的有效提取和识别,从而实现对电梯质量检验的远程管理和监控,减轻电梯质量检验工作的现场工作量,也为智能化和远程电梯质量检验提供了重要的基础和思路。

基金项目:

国家自然科学基金资助项目(62231010,61971278);

江西省检验检测认证总院科研计划项目(ZYK202206)。

原文链接:基于可微分二值化网络(DBNet)与循环卷积神经网络(CRNN)的电梯铭牌和限速器检验单识别方法