硕士论文网第2020-10-24期,本期硕士论文写作指导老师为大家分享一篇
计算机论文文章《基于计算机视觉的敞篷车字符识别系统研究》,供大家在写论文时进行参考。
本篇论文是一篇计算机硕士论文,随着 Faster RCNN、SSD、YOLO 等目标检测算法的出现,基于深度学习的场景文字检测方法应运而生。但是,由于场景文字检测的对象具有明显的文本序列特征,使用目标检测算法直接进行文本检测的效果往往较差。同时,字符类的小尺寸特征限制了原始目标检测算法的检测效果,这也导致了一些文本检测算法与目标检测算法的分歧。
1 绪论
1.1 研究背景与意义
我国煤矿运输的主要方式包括铁路运输、公路运输和水路运输,其中铁路运输占煤运总量的 60%左右。随着运输需求的不断扩张,对矿用敞车装卸点的自动化、智能化需求与日俱增。敞车信息是敞车运输节点管理的重要数据,包含了车辆的车号、载重、自重、容积、换长等信息,这些信息在敞车运输管理自动化中起到了十分重要的作用。现阶段,我国铁路敞车运输的信息主要由操作员手工录入,主观性强且易造成错误,耗费了大量的人力,增加了操作成本。近年来计算机视觉的飞速发展为智能识别敞车字符提供了可能。但是,由于敞车长期在室外工作,其字符会受到污损、锈蚀等问题的影响,对于不同的车辆,其污损的位置也不尽相同,如何使得算法可以在各种恶劣环境下保持良好的识别效果,是敞车字符识别的一个挑战。因此如何基于计算机视觉技术准确识别敞车车身字符信息引起了工业界的广泛关注。 图像是自然景物的客观反映,也是人类获取外界信息的重要方式。计算机视觉作为人工智能的一个重要分支,其利用光学传感器获取图像,基于模式识别和机器学习算法获取图像中的有效信息。光学文字识别作为计算机视觉中的一个热门方向,其主要目的是通过图像识别算法获取图像中的文字、字符等信息。基于计算机视觉识别敞车字符的分析过程主要包括:首先通过摄像机获取图像,利用文字检测系统进行检测,获取图像中文字的位置信息,最后通过识别系统对已获取的图片信息进行识别,从而获取敞车对应的信息参数。 与传统字符识别不同,敞车的字符是间断的,并且相同字符之间的距离不均匀。同时,由于相机可能无法直面字符,会导致采集的图像出现畸变,字符可能会有一定的失真问题,如图 1-1 所示。另外,由于煤矿环境较差,敞车字符可能受到煤渣和灰尘的覆盖,影响识别准确率。敞车工作的环境复杂多变,图像会受到强光干扰,不均匀的照明分布也会影响文字检测系统对图像的正确检测。 针对上述问题,本文研究了一种基于深度学习和对抗学习的矿用敞车文本信息提取方法,有效提高检测和识别的效率,便于敞车字符信息的采集和录入,有益于企业生产力和智能化水平的提高。另外,本文设计开发了一套基于计算机视觉技术的车辆信息自动识别系统,以敞车信息作为识别对象,并将获取的信息保存在数据库中,以实现敞车运输信息的自动管理。通过对图像采集、字符检测、字符识别方法的对比研究,整合适合敞车信息自动识别系统的方法,从而为敞车信息管理自动化提供一种可行的思路和方案。
1.2 相关工作与章节安排
基于深度学习的敞车字符信息提取研究,主要包含两个基本任务:基于深度学习的敞车文字检测和基于生成对抗学习的敞车文字识别。在敞车运输和装载煤炭时,通过相机获取敞车车身图片,使用文本检测技术定位需要识别的文本信息的位置,进一步利用图像处理的方法将需要识别的文字从原图中切割出来。为了解决敞车字符识别中存在的字符污损、锈蚀、模糊等问题,本文提出了一种基于生成对抗网络的文本识别算法。通过对隐空间的编码数据进行限制,网络取得了较高的鲁棒性。针对以上内容,本文的章节安排如下:第一章:绪论。该部分针对敞车字符识别问题的背景及研究意义进行介绍,分析总结了敞车字符识别目前遇到的一些问题。另外,介绍了深度学习、计算机视觉、场景字符识别等的国内外研究现状。第二章:相关理论基础知识介绍。该部分主要针对后续章节实验中出现的基础理论知识进行介绍,主要包含了卷积神经网络的相关基础知识和生成对抗网络的相关基础知识。第三章:数据采集、数据集制作及流程介绍。该部分主要介绍了数据采集、数据集制作的相关操作,并简要介绍了敞车文字检测和识别的流程。第四章:敞车文字检测。该部分主要介绍了敞车文字检测的相关算法,包括EAST(Efficient and Accurate Scene Text Detector)、Text Boxes++、连接文本提议网络(Connectionist Text Proposal Network,CTPN),通过实验比较三种算法之间的优劣,并选择合适的文本检测算法。第五章:敞车文字识别。该部分主要介绍了 CRNN(Convolutional Recurrent Neural Network)、CRNN with Attention和 Attention Based OCR三种算法,并且提出了一种基于生成对抗网络的文字识别算法 Defect-Restore GAN。通过实验比较四种算法在正常情况、随机掩膜情况、噪音干扰情况下的识别检测结果,相关文章发表在 IEEE Access。第六章:敞车字符识别系统软件开发。该部分主要介绍了字符识别系统的构成,主要使用了 CTPN 算法进行文本检测,Defect-Restore GAN 进行文本识别,并采用 QT 制作了软件界面。第七章:总结和展望。该部分总结了本文的主要工作,并对潜在的研究方向进行了讨论。
2 相关基础理论与知识
2.1 卷积神经网络相关知识
基础的卷积神经网络一般是由卷积(Convolution),激活(Activation)和池化(Pooling)三种结构组成。一般来说,卷积神经网络的输出结果为图像的特定特征空间。针对分类任务,可以在 CNN 输出的特征空间之后添加全连接层或者是全连接神经网络,用以完成从输入图像到标签集的映射。本小节将对相关网络结构进行介绍。卷积神经网络中,最基本的操作为卷积,其思想是选定图像中的某个区域与神经元进行连接,形成输出特征图上的一个像素点。该区域又可称为神经元的感受野(Receptive field),它的大小是一个人为设置的超参数,即滤波器核(Kernel)的宽和高。基础 CNN 所用的卷积是一种二维(2 Dimension, 2D)卷积。换言之,核只能在同一个通道内的 x 方向和 y 方向上滑动位移,不能进行通道深度位移,即不能越过通道。假设单一通道输入图像的空间坐标为(x, y),卷积核大小是 mxn,核权重为 ,图像元素数值是 ,b 代表偏置项,卷积过程就是卷积核所有权重与其在输入图像上对应元素数值之和,参数共享在卷积神经网络中的具体表现为:所有元素进行卷积运算时其卷积核内部的参数固定,即所有元素通过权重共享的方式进行运算。其二是局部感受野,也就是神经元只与上一层中的一部分输入相连,底层的感受野提取图像的低维特征,随着卷积层数的增加,更高层的感受野则包含了图像更高级的特征信息。可以看出最大池化的一个特点是对于窗口内最突出的特征进行优先输出,并且一般来说,经过最大池化操作后的图像尺寸会缩减,这会导致两个问题:1)忽略窗口内其他优先度较低的特征,当图像存在噪音的时候,被表现出来的特征往往是噪音特征,这会导致模型对于噪音过于敏感;2)丢失特征所在的精确位置信息,不过由于其结构并没有改变信息的相对位置,所以实际影响较小。激活层由激活函数构成。为了使得模型可以具有更好的非线性拟合能力,激活函数一般都是非线性函数。当每一层节点的输入都是上层输出的线性函数, 无论网络层数的如何改变,输出结果依旧是输入的线性表示。对于线性模型而言,其拟合能力是有限的。通过引入非线性函数作为激活函数,可以增强深层神经网络的表达能力。一般来说常用的非线性函数包括 Sigmoid 函数、Tanh
函数、Re LU函数和 Leaky Re LU 函数等。
2.2 生成对抗网络相关知识
生成对抗网络(Generative Adversarial Network,GAN)是机器学习中生成模型的一种,由 Ian Goodfellow 于 2014 年提出。GAN 在很多方面得到了广泛应用,例如数据集扩展、人脸图片生成、图像风格转换、文字-图片转换、体态生成、图片混合、异常检测、超分辨率重建、图片修复等等方面。近年来,许多学者对生成对抗网络进行了深入的研究,提出了很多新的结构,也解决了很多网络本身存在的问题。生成对抗网络的原始模型包含一个生成器(Generator)和一个鉴别器(Discriminator),其中生成器用于捕获真实数据的分布并生成相关的数据,而判别模型用以估计样本来自生成模型的概率。在训练过程中,两者始终处于一种对抗博弈的训练状态。训练过程中,真实图片对应的标签为 1,由生成器生成的图片对应的标签为 0,所以通过不断训练使得鉴别器的输出接近输入图片的真实属性。上图左侧的部分为生成器,其主要作用是生成图片,且生成样本的分布能够拟合真实的样本分布,达到以假乱真的效果。网络的输入是由一组固定长度的随机数构成的向量 z ,而网络的输出则是一张图片而不是单纯的一个数值。生成器的主要目的是生成使鉴别器产生混淆的图像,使得鉴别器无法准确地判断图片的来源。经过多次更新迭代后,无论是真实图片或是生成的图片作为鉴别器的输入,其输出应该是一个接近于 0.5 的数值。当网络输出的数值等于 0.5 时,即表明生成器网络和鉴别器网络均达到了纳什均衡状态。从生成器和鉴别器的功能角度出发,可以发现生成网络与判别网络的目标正好是相悖的。设计者可以各取所需,从该网络中取得不同的部分进行使用。对于数据增广等问题而言,需要的是更好地伪造出与原始图片相近分布的图片,这时可以采用生成器满足数据曾广需求。另一方面,当需要进行异常检测以区分不同数据概率分布时,可以着重采用基础架构中的鉴别器模型,用以判断数据与真实分布的接近程度,从而判断数据的真伪、异常等信息。在理想的状况下,鉴别器被训练为对当前生成器而言最优,然后再进行生成器的训练,使得生成器被训练为对当前鉴别器而言最优。但在实际的训练中,固定一方的参数等待另外一方的参数被训练达到最优会大量耗费时间和计算资源,因此一般对生成器和鉴别器采取同步更新的训练方式。根据 Ian Goodfellow 在原始生成对抗网络中对于鉴别器损失函数的定义,可以得到最优的鉴别器形式。对该鉴别器而言,其损失函数可以被理解为是最小化真实分布和生成分布之间的 JS 散度(Jensen-Shannon Divergence)的等价变化。当鉴别器的效果达到最优的时候,生成器得不到梯度信息,即使程序不断运行,生成器的参数也不会进行更新。当真实分布和生成分布之间没有重叠的时候,JS散度为一个固定的常数 log2,这样生成器的参数也不会得到更新。
3 数据集制作及流程概述
3.1 数据采集
3.2 目标检测数据集制作
3.3 文本识别数据制作
3.4 识别系统结构
3.5 本章小结
4 文本检测定位
4.1 基于深度学习的方法
4.2 结论对比及分析
4.3 本章小结
5 文本识别
5.1 基于深度学习的方法
5.2 实验结果分析
5.3 本章小结
6 敞车字符识别系统软件开发
6.1 敞车字符识别系统构成
本文主要围绕敞车字符的检测和识别展开研究工作,结合敞车文字识别的研究背景与研究对象,采用了基于深度学习和生成对抗学习的算法,通过一系列的实验进行分析和验证,本文主要工作包括以下几个方面内容:(1)基于深度学习的敞车文字检测敞车文字检测作为文本识别的前置内容,是检测识别系统整体的一部分,本文尝试使用了三种算法:EAST、Text-Boxes++、CTPN 对敞车文字进行检测。首先通过摄像头采集相关图像,使用 Label Img 进行数据标注,制作了文本检测的数据集,随后通过迁移学习的方法,对在公共数据集上训练好的模型进行重新训练,得到了三个网络所对应的重训练模型。比较三个模型发现 CTPN 的 Recall、Precision 以及 F1 score 分别达到了 0.9136、0.9097 和 0.9107。总体来看,CTPN检测性能最佳,基本解决了敞车文本的定位问题。(2)基于深度学习的敞车文字识别,敞车文字识别作为检测后的后续操作,其识别准确率直接影响了最终结果。本文对比三种经典算法,并提出了一种基于生成对抗网络的字符识别算法,对敞车文本进行识别。首先对上文获取的数据集进行处理,得到 1000 张图片,对图片中包含文本的部分进行切割,获得每个子图片,对字图片进行标注,获得文本识别数据集,其中训练集包含了 13420 张子图,测试集包含了 2682 张子图,验证集合包含了 601 张子图。随后对四个模型进行训练。对比发现,本文提出的模型达到了 97.76%的准确率。同时本文还对比了在随机掩膜、模糊、椒盐噪声、高斯噪声下不同模型的识别准确率,Defect-Restore GAN 均达到了最好的识别效果。(3)软件界面,设计了软件界面,对敞车字符识别系统的系统框架进行了开发,使得使用人员可以快速上手,实现敞车字符的自动化检测。
本文针对敞车字符检测和识别问题提出了一种在干扰环境下依然具有较高鲁棒性的解决方案,实现了敞车字符的准确检测和识别。文本提出的方法不仅可以用于字符识别,也可以用于异常检测领域:只需要对生成图像和实际图像在隐空间内的距离进行考察即可。同时,该方法还可以应用于字符的检修问题,对于难以识别的残缺文字,可以应用本方法进行检测。如果将模型中的随机掩膜换成了模糊,还可以应用在图像的超分辨率重建方面,通过不断训练模型使之可以学习到图像的细节纹理,推断出模糊的区域来。受实验条件以及时间的限制,仍然存在一些问题需要进一步的研究和讨论:如软件界面的优化问题、软件数据库的设计问题,这些都会在后续的工作中进行解决。
以上论文内容是由
硕士论文网为您提供的关于《基于计算机视觉的敞篷车字符识别系统研究》的内容,如需查看更多硕士毕业论文范文,查找硕士论文、博士论文、研究生论文参考资料,欢迎访问硕士论文网计算机论文栏目。