一、特殊票据字符识别预分类特征的提取及分类字典的建立(论文文献综述)
吴湘平[1](2021)在《图像文本识别的关键技术研究》文中研究指明图像文本识别主要利用机器学习算法对图像上出现的印刷体或者手写体进行识别,然后转录为计算机能读取识别的文字。图像文本识别在机器自动化、人机交互、自动驾驶等领域具有广泛的应用,一直是计算机视觉领域的研究热点。近年来,随着深度学习的发展,深度神经网络在场景文本识别和手写识别等方面取得了巨大的成功。然而,图像文本识别仍是一个棘手的问题,主要面临以下挑战:1)对于复杂场景的字符识别,现有方法容易丢失字符结构信息和引入背景噪声;2)对于词识别,现有模型大多依赖词典驱动,难以应用到资源匮乏的语言上;3)对于文本行识别,存在序列过长导致识别性能下降的问题;4)对于具有大字符集的语言,模型复杂、参数庞大,难以应用到存储和计算受限的设备中。本文针对以上问题,主要从图像文本识别的关键技术:识别技术和压缩技术开展研究,其中识别技术包括图像中不同粒度的文本即字、词、句子的识别,最后使用压缩技术对识别模型进行优化,主要研究内容包括以下几个方面:第一,针对复杂场景字符识别中,容易丢失字符结构信息和引入背景噪声等问题,提出了基于语义分割的复杂场景字符识别方法。为了减少字符类标数量,该方法首先设计了一种基于五笔汉字编码的新类标编码方法,将汉字的字形和结构信息编码为140位类标,从而大大减轻了对大字符集类别进行识别的计算和存储需求。其次,采用有效的语义分割模型进行逐像素预测,并利用条件随机场模块来学习类五笔编码的约束规则。最后,在三个公开评测数据集上的实验结果表明,该方法在复杂场景字符识别任务达到了最新水平,并且对于遮挡、超低分辨率、超低对比度等复杂的场景具有鲁棒性。第二,针对词识别模型依赖词典驱动和外部语言资源的问题,提出了基于位置向量的无约束手写单词识别方法。该方法首先生成位置向量,并将位置向量作为单词相对应的字符序列的索引;接着,将提取到图像特征与每个位置向量相结合,送入序列识别网络用于识别相应的字符。最后,在两个国际公共语料库上均取得了最佳结果。实验结果表明,在没有任何语言资源的情况下,该方法的性能与集成丰富语言资源的模型相近,证明了该方法对其他资源匮乏语言识别的有效性和潜在能力。第三,针对文本行识别模型存在序列过长导致识别性能下降的问题,提出了基于自适应超图神经网络的手写文本行识别方法。该方法通过一种基于标签向量的自动超图学习机制来自动建模字符间的关系。首先,将字符标签当做超图的节点,一条超边连接两个或多个节点,表示字符之间的某种关系,使用标签向量来构造自适应超图。其次,使用语义解耦模块和超图神经网络来探索特征与语义之间的相互作用,以提高文本行识别性能。最后,为了验证模型的泛化性,将自适应超图神经网络扩展到多标签图像分类任务上。结果证明,提出的自适应超图神经网络具有建模语义依赖关系的能力。第四,针对大字符集的识别模型参数庞大,难以应用到资源有限设备上的问题,提出了图像文本识别模型的全连接层压缩方法。该方法引入压缩因子来压缩全连接层的神经元,这不仅可以消除特征冗余,而且可以共享分类神经元。它打破了输出神经元数量必须与分类网络中类别数量相一致的局限性,在一定程度上缓解了大类别分类的问题。与其他需要预训练模型和微调的方法相比,该方法可以直接在基线模型上构造和压缩网络以实现端到端的训练。最后,在手写汉字识别,复杂场景字符识别和图像分类等多个任务的实验结果表明,所提出的方法可以大大减少模型参数,同时保持最新的识别性能,特别是对于大类别分类任务。综上所述,本文围绕图像文本识别的关键技术进行深入研究和讨论。针对图像中不同粒度的文本即字、词、句子存在的问题,分别提出基于语义分割的复杂场景字符识别方法,基于位置向量的无约束手写单词识别方法和基于自适应超图神经网络的文本行识别方法。最后针对共同存在的大字符集识别问题,提出基于全连接层的参数共享方法对图像文本识别模型进行参数压缩。本文将所提出的方法在多个国际公开数据集上进行实验,最终均取得优异的性能。
蔡斯琪[2](2021)在《不定长中文文本图像的识别算法研究》文中研究指明文字记载了几千年人类的文明和历史,是人类信息中最重要的载体。直至今日,现实生活中的众多场景都使用文字形式来进行信息交互。而图像是记录文字信息最快速的载体。在快节奏的生产生活中,信息的电子化处理已成为一种不可逆转的趋势。识别并理解图像中的文字信息就具有很高的研究价值和广泛的应用场景,能使生活变得越来越智能化和便捷化。虽然文字识别技术已经发展了多年,但是由于中文汉字的字符类别多、字形复杂、词频不均衡,文本长短不一的特点,对中文文本的识别任务依旧富有挑战性。随着深度学习的兴起,给计算机视觉领域带来了更多的解决方案。针对以上问题,本文将利用深度学习技术,结合中文文本的特性,进行对不定长中文文本图像的序列识别模型算法研究,主要研究内容如下:(1)利用中文词频的分布差异,提出了基于bigram混合标签的联合CTCAttention方法。此方法首先从中文文本数据集中统计高频二字子词,把它们加入到原始单字符标签中,构建bigram混合标签,缩短了编码和译码长度,有助于减少循环神经网络的长期依赖问题。在解码阶段,CTC模块输出一个初步结果,其中混淆的预测被替换为二字子词。利用CTC的帧间对齐能力和初步预测结果,引导Attention模块聚焦注意力范围,精确解码。在两个中文文本合成数据集、一个手写中文文本数据集、一个街景长文本数据集上做了测试。与现有的方法相比,此方法在不定长中文文本识别上精确度最高。(2)降低中文词频的影响,提出了基于降低词汇依赖的CTC-Attention监督训练方法。此方法通过构建乱序文本语料,合成大量文本图像用于训练,降低训练集的词频差异。同时通过多任务学习方式同时训练基于CTC的模型和基于Attention的模型,使用额外的KL散度损失用于互监督两者的训练,最终使模型更加关注于使用视觉特征进行解码,降低了对词汇的依赖。实验表明,此互监督训练策略对两个模型的识别能力都有不同程度的提升。(3)开发了一套文本识别系统,包含Web界面的功能演示端和可供编程调用的应用程序接口(Application Programming Interface,API)。Web界面便于用户可视化操作,上传文本行图像查看识别结果。同时提供的API可供远程调用,按规范发送请求报文就可得到包含识别结果的JSON文件,不限制开发语言。
杨茜[3](2021)在《基于视觉特征的多类型表单关键信息识别研究》文中研究指明随着国际贸易的发展与信息爆炸时代的到来,表单由于其简单直观的特点,在交通物流领域得到了广泛的应用,同时在金融和医疗等领域也变得越来越不可或缺,如物流表单、收据和简历等。随着各行各业的智能化与数字化改革,迫切需要实现多类型表单的自动化抽取,将表单中的信息保存成结构化数据便于留存与检索。以交通物流表单为例,在实际应用中,国际物流表单大多样式复杂且种类繁多,而目前投入应用的表单关键信息抽取算法通常只针对固定格式或固定领域的表单,仍然没有可靠的技术手段能够实现多类型复杂表单的关键信息识别。因此,本文通过分析交通物流多类型表单的特点,设计了一个多类型表单关键信息识别系统。论文主要开展的工作如下:(1)由于表单大多以扫描版图片的形式存在,因此本文研究了图像文本检测与文本识别算法。结合表单图片中文本的特点,对文本检测与文本识别的网络结构与算法流程进行了分析比较。(2)基于对多类型表单视觉特征的分析以及对文本检测网络的研究,本文设计了一个多任务学习网络,命名为Multi-TFC(Multi-task Network for Text Detection,Frame Extraction and Form Classification),通过该网络可以同时完成表单分类、框架提取和文本检测三个子任务,且可以只对网络的表单分类分支进行训练,在短时间内实现新类别的快速增加。实验证明该网络能够在保证准确率的情况下,更加快速地完成多个子任务。(3)论文针对已知类别的表单,提出了基于相对位置模板的关键信息抽取算法,能够高效准确地实现关键信息的抽取。针对未知类别的表单,本文提出了基于关键信息关联对匹配的通用关键信息抽取算法,解决了常见算法通用性差、不可拓展的问题。(4)论文建立了多类型表单关键信息识别系统。该系统完成了从多类型表单图片到结构化关键信息的全流程。本文建立了物流领域运输表单数据集,实验证明该系统在物流表单数据集上的表现良好、通用性强,在实现多类型表单关键信息抽取的任务上具有可行性。图54幅,表10个,参考文献64篇。
王强[4](2021)在《基于卷积神经网络的场景文本定位与识别算法》文中研究说明信息技术的高速发展,使得图像做为人类最方便、信息量最丰富的认知载体越发普遍的出现在人们生活中。运用计算机视觉技术实现自然场景中的图像文本信息的定位和识别,不但能够进一步提高信息检索获取的效率,同时也可为人工智能化的未来奠定基础。而伴随着卷积神经网络不断的深入发展,基于卷积神经网络的场景文本的定位与识别算法较传统的文档文本定位与识别技术有着显着优势,成为了文本处理方面炙手可热的研究方向。本文通过对近年来较为优秀的文本定位算法做对比研究,针对自然场景图像文本普遍存在的特点,选定文本定位效果较为突出的一种准确高效场景文本检测器(EAST)作为基础算法进行研究改进。论文的主要研究内容如下:第一,针对EAST文本定位算法对复杂背景文本定位不敏感以及长文本定位不全面的问题,本文研究在EAST网络的特征提取分支的卷积层中嵌入通道注意力模块和空间注意力块,提升模型对文本区域的灵敏度,改善文本的提取效果。实验表明在复杂背景和长文本区域的场景图像文本检测中,该改进算法较原算法有效提高了文本检测的召回率和准确率。第二,为了进一步改善尺度变化较大的文本区域检测不完整以及对小文本实例存在漏检的问题,保留之前改进的通道注意力模块和空间注意力模块,将二者由串联式处理结构改为并列式结构,同时增加两个3×3空洞卷积扩大感知野,减少特征提取过程中底层特征的丢失。实验数据证明该改进算法进一步提高了对尺度变化较大文本检测的准确率和召回率,同时也提高了对小文本的检出率。第三,采用基于序列的文本识别方法完成文本定位后的结果验证工作。网络结构为加入注意力机制的编解码结构,保证了上下文的相关性,有效改善了长文本序列识别效果差的缺陷。对于自然场景如模糊、光照不均匀等场景进行样本模拟,针对性训练。实验结果表明,该模型在大部分的场景文本的识别中可以满足文本识别需要。
任多[5](2021)在《面向金融业务的表单票据通用识别系统研究》文中指出在金融业务中,存在大量如报销、核验等对表单票据进行识别的需求。传统的文字识别算法对图像质量要求很高,且识别精度较低,具有更高准确率和鲁棒性的深度学习算法成为近年来的发展趋势。目前基于深度学习的表单票据识别中尚存在若干难题:一是票据可能存在弯曲折叠的情况,导致文本行不平直,从而影响文字识别;二是财务报表中存在无边框表格,通用语义分割模型无法准确定位识别;三是印章中的弯曲文本识别存在较大困难。本文围绕上述表单票据识别中的若干难题展开研究,取得的主要研究成果如下:(1)针对表单票据存在折叠和弯曲的情况,使用改进的扭曲文档矫正模型DocUNet进行矫正。模型结构为两个U-Net级联,并在第一个U-Net中加入SE模块以增强特征提取能力。第一个U-Net预测出一个大致的复原预测图,第二个U-Net对其进行高分辨率修正,从而预测出表单中每一个像素的偏移量,实现对图像的矫正。(2)分别使用基于MobileNet-v2的Sea1SSD模型、带有注意力机制和SE模块的AttentionDB模型和ASTER模型进行印章区域定位、印章内弯曲文本检测和弯曲文本识别。通过采用复杂的特征融合机制提高分割准确率,通过提高感受野的范围增强对小文本和模糊文本的定位效果,通过基于CRF的文本矫正网络进行文字纠错。模型对印章内弯曲文本的定位精度达95.6%,文字识别精度达96.1%,接近水平文本的定位和识别精度。(3)使用带有注意力机制和SE模块的Table-UNet模型对表单中的表格进行定位提取。通过为表格内像素分配更多权重的方式,使模型更聚焦于表格区域内部。通过精心设计的后处理,将预测的表格区域分割图还原为四边形。采用同样的模型对表格线进行提取,并将卷积核设置成较大的长宽比以适应其特点。结果表明,模型在自建财务报表数据集上的识别精度达95.1%,优于PageNet、dhSegment等主流表格识别模型。(4)开发出一种基于Web的表单票据通用识别系统,可以实现对常用发票和财务报表的图像扭曲矫正、印章定位与识别、表格识别和文字识别等多种功能,系统具有较高的识别精度、较强的鲁棒性和较快的响应速度。
王家亮[6](2021)在《自然场景采集的卡证票据精准识别方法》文中研究说明许多企业平台采用“移动终端+互联网”模式收集用户上传的卡证票据并进行自动识别。一些证件识别平台由于应对光照、透视、复杂背景、水印覆盖、特殊印刷体等因素的抗干扰能力不足,严格限制证件图像的采集质量,给用户带来了不便。本文针对从自然场景中采集的卡证票据识别问题,针对精确识别需求,分别提出了基于SIFT特征点匹配的证件定位、基于条件生成对抗网络的可见水印去除、文本识别增强三个精准优化方法。通过实验设计,验证了所提出的方法对非均匀光照和复杂背景干扰的证件图像,在内容识别的效率和准确度方面的有效提升。本文主要工作如下:1.提出了一种基于SIFT特征点匹配的卡证定位方法。针对卡证定位问题,根据自定义模板图特征点的定位性能不变性,给出了基于SIFT特征点检测、FLANN特征点匹配和PROSAC错误匹配消隐的速度优先和精度优先两种定位点选择算法。通过证件定位实时观测程序,验证了方法在复杂环境变化中的鲁棒性。2.采用基于条件生成对抗网络的pix2pix模型,通过提出成对训练集的扩充方法,有效提升了去水印模型训练的拟合优度。使水印覆盖内容得到充分恢复,也增强了卡证文本识别的抗干扰能力。3.提出了一种卡证文本的识别增强方法。一方面,通过基于“投影法”的字段定位及字符分割、印刷体清晰化和字段合并加速识别方法,在字段细粒度提纯和流程化识别层面做了细致优化。另一方面,在Tesseract-OCR自定义语言包生成中基于“投影法”提出了一种样本生成方法和自动化字符校正算法,提升了Tesseract样本字符检测成功率和校正效率。论文针对从自然场景中采集的卡证票据识别问题,从上述三个方面提出了性能提升方案,可以为系统开发和实现提供应用参考。
仁青东主[7](2021)在《基于深度学习的藏文古籍木刻本文字识别研究》文中指出文字识别(Character Recognition,CR)是利用计算机将人们可理解的文字或者图像信息自动转化为计算机可以阅读、查询与编辑的以计算机内码表示的方法。藏文是藏族文化的重要载体,在我国历史上藏文撰写的各类典籍数量仅次于汉文,是中华文化宝库中的瑰宝,具有重要的人文科学研究及应用价值。藏文文字识别是藏语计算语言学科的一项重要研究内容,涉及信息科学、数学、语言科学、认知科学以及其它方面的领域。因此,使用藏文文字识别来保护和使用藏文古籍文献已成为文献资源数字化的一个重要研究热点。然而,受制于藏文古籍文献数字化无损采集、版面分析、文字识别等技术的不成熟,很多珍贵文献、易破损的纸质文献无法采集和数字化。已数字化的藏文古籍文献资源数据也以图像信息为主,文献内容挖掘和知识库构建、检索技术研发都缺乏数据支撑。在藏文古籍文献中以木刻本形式文献占据数量最多,从而藏文古籍木刻本文字识别的研究尤为重要,国内外一些高校和企业开发了光学字符识别系统(Optical Character Recognition,OCR),以识别印刷体藏文,据可查文献,针对藏文古籍木刻本文字识别的研究甚少。从目前已有的文献看,国内外藏文文字识别技术还停留在传统的方法上,没有融入藏文语言结构及文字构成规律,识别精度低,泛化能力弱,无法达到藏文文献数字保护和使用需求,亟待研发高识别率、高精度、高性能的数字化技术。深度学习技术近几年发展很快,在文字识别领域,该技术比传统的识别方法要优越很多,识别效果也明显。随着深度学习研究的深入,如何利用深度学习来进行端到端的学习,并摒弃基于人工规则的中间步骤,以提升序列学习的效果已经成为当前研究的热点。本文的研究基于深度学习的藏文古籍木刻本文字识别,提出基于深度神经网络的藏文古籍木刻本图像文字识别新方法,其主要贡献概括如下:(1)针对藏文古籍木刻本复杂版面特征,研究一种基于CTPN的文本检测算法,实现藏文古籍木刻本复杂版式文字的纵横向检测。(2)针对藏文古籍木刻本超长行特征,研究一种基于滑动窗的超长文本行动态拆分与识别技术,进行基于字符识别位置信息的相邻子块重叠字符处理,解决超长文本行古籍文字识别难题。(3)构建基于残差网络和双向长短时记忆循环神经网络、结合样本增强技术的具有高泛化性和鲁棒性的藏文古籍串识别模型,解决图像质量差、相邻文字粘连严重、上下行重叠度大的古籍文字识别难题。(4)采用拼写检查的方法进行错误音节的检测,并且用隐马尔科夫模型与语言模型相结合的方法,解决形态相似字符的识别校正难题。
林小渝[8](2021)在《基于深度学习的甲骨文偏旁与合体字识别的研究与实现》文中提出甲骨文作为汉字的源头,对理解中国古代乃至世界的文化和历史都具有重要意义。但甲骨文字复杂的字形结构和异体字较多的问题,阻碍了甲骨文研究的发展。甲骨文字的识别一直是甲骨文研究中最重要的领域之一。受汉字偏旁拆分的启发,本文提出从偏旁的角度识别甲骨文字形,设计并实现了甲骨文偏旁和合体字识别的方法。将甲骨文字符视为偏旁组合而不是整字识别的方法,不仅可以减少甲骨文字类别和异体字数量,忽略相似字符之间的冗余信息,还使系统能够识别未被考释的甲骨文字符。这样能够极大的提高专家考释未见字的效率,也进一步推动了甲骨学的传承和发展,对甲骨文研究有着重要的应用价值。本文的具体工作如下:1.由于当前国内外还没有标准的甲骨文单偏旁数据集,甲骨文合体字在现有甲骨文字库中也较少,本文通过数据扩充,字符采样,半自动化采样表切割和分类构建了类别数为15,示例数为10412的甲骨文单偏旁数据集(Oracle Radical Character Dataset,ORCD);再利用计算机辅助拼接技术将甲骨文单偏旁拼合为6种常见结构的甲骨文合体字符,在此基础上还设计了甲骨文合体字联机手写采集系统,最终构建了类别数为1320,示例数为462186的甲骨文合体字数据集(Oracle Combined-Character Dataset,OCCD),扩充了在现有甲骨文字库中稀缺的甲骨文合体字字符,也为后续甲骨文手写体研究奠定了数据基础。2.在甲骨文单偏旁研究中,本文设计了一个基于深度学习的甲骨文偏旁检测与识别的框架(Oracle Radical Extract and Recognition Framework,ORERF)。首先结合最大极值稳定区域(Maximum Stable Extremal Regions,MSER)算法和自定义后处理算法生成甲骨文单偏旁数据标注;然后,将生成的甲骨文偏旁级标注数据输入到检测网络中,该网络利用U-Net架构和注意力机制提取单偏旁特征后,将特征图馈送至检测模块用于偏旁定位;最后根据偏旁坐标位置,将偏旁拆分后输入到辅助分类网络进行识别,该识别网络能在一定程度上解决单偏旁异体字多的问题。3.在甲骨文合体字识别研究中,由于Image Net是一个用于视觉对象识别研究的大型数据集,本文研究了对在Image Net数据集中预训练的卷积神经网络模型进行参数和结构上的精调,使卷积特征更有利于甲骨文合体字的表示,减轻了训练数据量和模型运算时长的限制。实验结果表明,本文的识别模型对OCCD数据集识别的准确率为98.4%。4.设计并实现了甲骨文偏旁和合体字自动识别系统,将检测和识别模型进行封装。系统的前端由Html5、CSS3、JQuery、Boot Strap实现。为了方便模型的集成,系统的后端采用Django框架,Python语言作为开发语言,系统可以对所选择的甲骨文图像进行自动识别并在前台输出。
左玉伟[9](2021)在《基于深度学习的医疗化验单图像智能识别研究与实现》文中提出随着人工智能、大数据技术和计算机硬件的不断发展和升级,越来越多的人都在享受着科技带来的便利,也催生了许多新兴的产业,如无人驾驶、智慧城市、智能医疗等;与此同时各种类型的数据尤其是医疗行业数据的指数型增长,也给数字化存储和诊断提出了新的要求,在未来相当长一段时间内,依托于机器学习以及深度学习方面的不断进步,以医疗数据为支撑的多学科交叉融合研究仍然是当前新兴技术产生和工程应用中非常重要的一环。过去的两年时间里,对我们自身以及世界上任何一个国家和民族来说,都是非常艰难的一段时期,医疗资源的短缺,医生数量的不足在来势汹汹的新冠肺炎面前这些问题变得更加明显,更加突出。我们知道,医学检验单在医院检查的各项项目中是非常普及的,每家三甲医院每天都会产生大量的检验单数据。如果这些数据全都由在职医生去一一解读的话,无疑会很大程度上耗费医生和患者的宝贵时间。为了更好的辅助医生和患者了解自身身体状况。针对以上问题,本文提出基于深度学习的方法对医学检验单进行智能检测识别和结构化输出的过程。相比于之前的传统OCR方法,深度学习在算法设计上变得相对简单,避免了繁杂的字符特征设计问题,并且可以很好的应用到各种复杂场景,去识别汉字、英文、数字、或者一些特殊符号等。通过对目前主流的图像预处理、图像文本检测和识别以及识别结果的重新排版分析技术的了解和学习,我们发现目前针对用户在自然场景下拍摄上传的各种图像,还远远没有达到想要的识别结果,由于在自然场景下图像拍摄受外界环境影响比较大,面临的挑战很多,像图像质量差、背景复杂、低分辨率扫描、文本结构化形式多种多样、字符间距长短不一、检验单的隐私化、图像中包含汉字、英文和各种字符等问题。基于用户上传图像形式复杂多变,本文首先通过传统的数字图像处理自适应或者启发式的算法来优化图像的前景表达和抑制无用噪声,然后在多尺度融合的特征金字塔网络基础上加入可微分的二值化函数进行端到端多方向文本检测,同时利用已有的先进的深层卷积循环神经网络模型在不同的数据上进行迁移学习实现多种类型字符串识别,并在实验过程中不断对模型进行微调以及应用一些在线训练模型技术来弱化真实检验单上所带有的一些类似字符的干扰信息和固有视角偏差,还要通过模型转换使得各深度学习库所训练出来的模型可以有效结合,最后为便于以后分析,还要对识别出的文本结果进行重新排列和关键信息选取,过滤掉无用信息,更好的规范化验单项目的有效结果,通过推理加速和多线程技术进行模型优化和有效部署。实验结果表明,基于所收集到的检验单数据集,本模型可以在检测、定位和识别任务的一定指标上优于之前主流的算法。
谢阳[10](2020)在《基于深度学习的发票识别研究》文中指出随着国家经济和科学技术的飞速发展,增值税发票充分参与了社会中一系列的经济和贸易活动。针对增值税发票的处理和归档工作对于公司或者机关的会计人员都是统一的和循环往复的工作。近年来随着神经网络的发展,深度学习应用于文本识别已经成为一个非常热门的研究方向。深度学习利用快速的图像处理和特征提取技术,能够高效的定位发票图像信息区域并将其中的文字识别出来,对于降低人力、物力成本具有十分重要的意义。本文主要研究增值税发票的文本识别功能。由于受到人为或机器故障的影响,部分发票在利用扫描仪采集后都存在着字迹不清晰,文本行间距过于紧密,字符特征不明显,以及印章、噪音等情况不同程度的影响。同时,发票在采集过程中存在倾斜或者光照不均等情况。一般场景目标检测网络可以准确定位到文本的上下行,但是在密集文本中的定位,存在着定位重叠、错位的情况,这也会给文本的识别造成很大的困难。在文本识别时,传统的通用数据集不能完全贴近真实的发票文本,因此对定位的准确率也会造成干扰。针对以上问题,本文的主要研究工作如下:(1)因为发票整体版面呈现标准的表格状,所以在预处理中加入了表格框线检测并输出坐标,为后续定位工作提供预服务。本文提出一种基于计算周边矩形连接元素高度的自动估计平均字符高度的方法,该方法结合open CV中的形态学操作,可以很好的检测出发票图像的表格框线,并输出框线坐标。(2)因为大部分经过激光扫描仪录入计算机的发票图像上会出现的文本特征较差,文字字体各异、尺寸不同且行间分布的问题。本文提出了基于改进的CTPN的文本定位方法,该方法不但结合了常用损失函数中的分类和回归计算部分来判断真实文本框的概率,还利用预处理部分得到的表格框线坐标,在损失计算中加入了坐标差值置信度的考量。(3)针对通用文本数据集不真实的问题,本文采用现实场景下使用的真实发票数据集。。设计了基于Tensor Flow的发票文本识别框架,该识别框架结合卷积神经网络Dense Net对字符数据集进行训练。最后,利用识别模型对定位到的发票文字进行识别。
二、特殊票据字符识别预分类特征的提取及分类字典的建立(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、特殊票据字符识别预分类特征的提取及分类字典的建立(论文提纲范文)
(1)图像文本识别的关键技术研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 课题的研究背景及意义 |
1.2 图像文本识别方法研究现状 |
1.2.1 字符识别研究现状 |
1.2.2 单词识别研究现状 |
1.2.3 文本行识别研究现状 |
1.2.4 模型压缩研究现状 |
1.3 论文的研究内容及创新点 |
1.3.1 研究内容概述 |
1.3.2 主要创新点 |
1.4 论文的组织结构 |
第2章 基于语义分割的复杂场景字符识别方法 |
2.1 引言 |
2.2 相关技术简介 |
2.2.1 语义分割方法 |
2.2.2 类标编码方法 |
2.3 基于语义分割的字符识别模型 |
2.3.1 FCN-ResNet50模块 |
2.3.2 类五笔类标编码模块 |
2.3.3 CRF模块 |
2.3.4 损失函数 |
2.4 实验与分析 |
2.4.1 数据集 |
2.4.2 实验设置 |
2.4.3 对比的方法 |
2.4.4 CTW数据集的实验结果和分析 |
2.4.5 ICDAR2019-ReCTS数据集的实验结果和分析 |
2.4.6 HIT-OR3C数据集的实验结果和分析 |
2.5 本章小结 |
第3章 基于位置向量的无约束手写单词识别方法 |
3.1 引言 |
3.2 相关技术简介 |
3.2.1 长短期记忆网络 |
3.2.2 位置向量 |
3.3 基于位置向量的无约束单词识别模型 |
3.3.1 特征提取模块 |
3.3.2 位置向量 |
3.4 实验与分析 |
3.4.1 手写单词数据集 |
3.4.2 模型训练 |
3.4.3 实验结果 |
3.4.4 消融实验 |
3.4.5 识别样例分析 |
3.5 本章小结 |
第4章 基于自适应超图神经网络的手写文本行识别方法 |
4.1 引言 |
4.2 相关技术简介 |
4.2.1 图神经网络简介 |
4.2.2 超图神经网络简介 |
4.3 基于自适应超图神经网络的文本行识别模型 |
4.3.1 自适应超图的构建 |
4.3.2 通过HGNN进行特征-语义交互 |
4.3.3 序列识别 |
4.4 手写文本行识别的实验 |
4.4.1 手写文本行数据集与评价指标 |
4.4.2 实验设置 |
4.4.3 对比方法 |
4.4.4 实验结果 |
4.4.5 识别样例分析 |
4.5 多标签图像分类的扩展实验 |
4.5.1 优化 |
4.5.2 评价指标 |
4.5.3 多标签数据集 |
4.5.4 实验设置 |
4.5.5 对比方法 |
4.5.6 实验结果 |
4.5.7 消融实验 |
4.5.8 可视化与分析 |
4.6 本章小结 |
第5章 图像文本识别模型的全连接层压缩方法 |
5.1 引言 |
5.2 相关技术简介 |
5.3 基于参数共享的全连接层压缩方法 |
5.3.1 顺序分支结构 |
5.3.2 混洗分支结构 |
5.3.3 紧凑型网络参数压缩分析 |
5.4 实验与分析 |
5.4.1 模型压缩实验数据集 |
5.4.2 实验设置 |
5.4.3 实验对比方法 |
5.4.4 实验结果及分析 |
5.4.5 不同压缩模型结果对比 |
5.5 消融实验与分析 |
5.5.1 分支效果 |
5.5.2 压缩因子效果对比 |
5.5.3 训练和测试阶段的速度表现 |
5.5.4 PSFC和传统FC层的训练收敛性比较 |
5.5.5 可视化分析 |
5.6 本章小结 |
结论 |
参考文献 |
攻读博士学位期间发表的论文及其他成果 |
致谢 |
个人简历 |
(2)不定长中文文本图像的识别算法研究(论文提纲范文)
致谢 |
摘要 |
ABSTRACT |
1 绪论 |
1.1 研究背景与意义 |
1.2 本文的主要工作及创新点 |
1.3 本文的结构组织 |
2 相关研究工作与理论基础 |
2.1 文本识别的发展历程 |
2.2 文本识别方法研究现状与理论 |
2.2.1 基于CTC的识别方法 |
2.2.2 基于Attention的识别方法 |
2.2.3 基于CTC-Attention的识别方法 |
2.2.4 基于子词的方法 |
2.2.5 基于语言模型的后处理方法 |
3 基于bigram混合标签的联合CTC-Attention方法 |
3.1 引言 |
3.2 基于bigram的混合标注方式 |
3.3 联合CTC-Attention解码模型 |
3.3.1 共享编码器模块 |
3.3.2 CTC模块 |
3.3.3 Attention模块 |
3.3.4 损失函数 |
3.4 实验 |
3.4.1 实验设置 |
3.4.2 实验结果与分析 |
3.5 小结 |
4 基于降低词汇依赖的CTC-Attention互监督训练方法 |
4.1 引言 |
4.2 乱序文本语料的生成 |
4.3 CTC-Attention互监督训练策略 |
4.3.1 互监督训练框架 |
4.3.2 损失函数 |
4.4 实验 |
4.4.1 实验设置 |
4.4.2 实验结果与分析 |
4.5 小结 |
5 不定长中文文本图像识别系统 |
5.1 引言 |
5.2 系统设计 |
5.2.1 服务器端设计 |
5.2.2 前端Web设计 |
5.3 系统开发与运行环境 |
5.4 效果展示 |
5.5 小结 |
6 总结与展望 |
6.1 工作总结 |
6.2 未来展望 |
参考文献 |
作者简历及攻读硕士学位期间取得的研究成果 |
学位论文数据集 |
(3)基于视觉特征的多类型表单关键信息识别研究(论文提纲范文)
致谢 |
摘要 |
ABSTRACT |
1 引言 |
1.1 研究背景及意义 |
1.2 多类型表单结构化抽取研究现状 |
1.2.1 文字识别研究现状 |
1.2.2 关键信息抽取研究现状 |
1.3 本文主要内容和安排 |
1.3.1 主要研究内容 |
1.3.2 论文各章安排 |
2 文本检测与识别技术 |
2.1 文本检测算法 |
2.1.1 基于候选区域的文本行检测算法 |
2.1.2 基于图像分割的文本行检测算法 |
2.2 文本识别算法 |
2.2.1 基于Dense Net的图像特征提取 |
2.2.2 基于LSTM的序列特征提取 |
2.2.3 CTC字符序列解码机制 |
2.3 实验结果与分析 |
2.3.1 实验环境 |
2.3.2 数据集与算法评价指标 |
2.3.3 文本检测实验结果与分析 |
2.3.4 文字识别实验结果与分析 |
2.4 本章小结 |
3 表单分类与框架提取 |
3.1 表单框架提取算法 |
3.1.1 基于图像处理的表单框架检测方法 |
3.1.2 基于图像分割的表单框架检测算法 |
3.2 表单分类 |
3.2.1 基于机器学习的分类器 |
3.2.2 基于深度学习的分类网络 |
3.3 表单分类、框架提取与文本检测多任务网络 |
3.4 实验结果与分析 |
3.4.1 数据集 |
3.4.2 实验设计 |
3.4.3 表单框架提取实验结果与分析 |
3.4.4 表单分类实验结果与分析 |
3.4.5 文本检测实验结果与分析 |
3.5 本章小结 |
4 关键信息抽取 |
4.1 背景介绍 |
4.1.1 基于绝对位置模板匹配的关键信息抽取模型 |
4.1.2 基于规则词典的关键信息抽取模型 |
4.1.3 基于文本分类的关键信息抽取模型 |
4.2 关键信息抽取算法设计 |
4.2.1 文本分块与分类 |
4.2.2 基于相对位置模板的关键信息抽取算法 |
4.2.3 基于信息关联对匹配的通用关键信息抽取算法 |
4.3 实验结果与分析 |
4.3.1 数据集 |
4.3.2 实验设计与评价指标 |
4.3.3 实验结果与分析 |
4.4 本章小结 |
5 建立多类型表单关键信息识别系统 |
5.1 系统整体设计 |
5.2 模块功能介绍 |
5.3 实验结果及分析 |
5.3.1 数据集 |
5.3.2 实验结果及分析 |
5.4 本章小结 |
6 总结与展望 |
6.1 主要研究成果与创新 |
6.2 展望 |
参考文献 |
作者简历及攻读硕士学位期间取得的研究成果 |
学位论文数据集 |
(4)基于卷积神经网络的场景文本定位与识别算法(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景及意义 |
1.2 自然场景图像文本定位与识别研究现状 |
1.2.1 场景图像文本定位研究现状 |
1.2.2 场景图像文本识别研究现状 |
1.3 本文主要研究内容 |
第2章 相关理论与研究 |
2.1 基于卷积神经网络的定位算法 |
2.1.1 CTPN算法 |
2.1.2 Pixel Link算法 |
2.2 算法评价标准 |
2.2.1 文本定位算法评价标准 |
2.2.2 文本识别算法评价标准 |
2.3 EAST模型 |
2.3.1 训练标签的生成 |
2.3.2 损失函数 |
2.3.3 EAST网络模型 |
2.3.4 EAST模型的不足 |
2.4 本章小结 |
第3章 结合CBAM的 EAST改进场景文本定位算法 |
3.1 CBAM注意力模块 |
3.1.1 通道注意力机制 |
3.1.2 空间注意力机制 |
3.2 结合CBAM的 EAST算法改进 |
3.3 实验过程与结果分析 |
3.3.1 实验数据集 |
3.3.2 实验环境及训练参数 |
3.3.3 量化评价标准比对 |
3.3.4 直观视觉效果分析 |
3.4 本章小结 |
第4章 结合BAM的 EAST改进场景文本定位算法 |
4.1 BAM注意力机制 |
4.2 EAST-BAM改进网络 |
4.3 实验过程与结果分析 |
4.3.1 实验环境及相关参数 |
4.3.2 量化评价标准对比 |
4.3.3 直观视觉效果分析 |
4.4 本章小结 |
第5章 文本识别算法研究 |
5.1 文本识别相关概述 |
5.1.1 CRNN网络 |
5.1.2 Bi-LSTM介绍 |
5.2 识别网络的实现 |
5.2.1 编码器的实现 |
5.2.2 解码器的实现 |
5.2.3 损失函数选择 |
5.3 数据集及相关处理 |
5.4 实验与分析 |
5.4.1 实验训练设置 |
5.4.2 识别结果展示与分析 |
5.5 本章小结 |
结论 |
参考文献 |
攻读硕士学位期间发表的学术论文及获得成果 |
致谢 |
(5)面向金融业务的表单票据通用识别系统研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景和意义 |
1.1.1 深度学习OCR在金融业务中应用的研究背景和意义 |
1.1.2 表格和印章识别的研究背景和意义 |
1.2 国内外研究现状 |
1.2.1 基于深度学习的文字检测模型现状 |
1.2.2 基于深度学习的文字识别模型现状 |
1.2.3 基于深度学习的表格识别模型现状 |
1.3 论文的主要研究工作 |
1.4 论文的组织结构 |
第二章 相关理论及关键技术 |
2.1 基于语义分割的文本检测 |
2.2 文本识别相关技术 |
2.2.1 基于CRNN+CTC的文字识别模型 |
2.2.2 基于Attention机制的序列文字识别模型 |
2.3 表格识别相关模型 |
2.4 本章小结 |
第三章 扭曲文档矫正 |
3.1 扭曲文档矫正模型 |
3.1.1 图像矫正网络 |
3.1.2 scSE模块 |
3.2 扭曲文档样本生成方法 |
3.2.1 扰动网格生成 |
3.2.2 扰动图像生成 |
3.2.3 数据增强 |
3.3 矫正结果展示 |
3.4 本章小结 |
第四章 印章定位与识别 |
4.1 印章定位与去除 |
4.1.1 印章定位 |
4.1.2 印章去除 |
4.1.3 实验结果 |
4.2 弯曲文本检测模型 |
4.2.1 基础网络结构 |
4.2.2 可微分二值化模块 |
4.2.3 可变形卷积模块 |
4.2.4 空洞卷积模块DBlock |
4.2.5 金字塔池化模块PPM |
4.2.6 反卷积模块DCBlock |
4.3 弯曲文本识别模型 |
4.3.1 STN矫正网络 |
4.3.2 文字识别网络 |
4.3.3 识别结果矫正模型 |
4.4 实验与分析 |
4.4.1 文字检测结果 |
4.4.2 文字识别结果 |
4.4.3 分析与改进 |
4.5 本章小结 |
第五章 表格定位与识别 |
5.1 表格定位 |
5.1.1 表格定位网络 |
5.1.2 Attention模块 |
5.1.3 后处理 |
5.1.4 实验与分析 |
5.2 表格线提取 |
5.2.1 表格线提取网络 |
5.2.2 分割结果几何分析 |
5.2.3 文字检测结果 |
5.2.4 还原表格结构 |
5.2.5 匹配文字内容 |
5.2.6 实验与分析 |
5.3 本章小结 |
第六章 表单票据通用识别系统实现 |
6.1 表单票据通用识别系统总体概述 |
6.2 系统运行效果 |
6.3 本章小结 |
第七章 总结与展望 |
参考文献 |
致谢 |
攻读硕士学位期间发表的学术论文目录 |
(6)自然场景采集的卡证票据精准识别方法(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 背景及意义 |
1.2 国内外相关研究与发展现状 |
1.2.1 卡证检测 |
1.2.2 可见水印去除 |
1.2.3 光学字符识别 |
1.3 本文的主要研究内容 |
1.4 论文组织结构 |
第二章 相关技术分析 |
2.1 图像特征点匹配 |
2.1.1 图像特征点匹配概述 |
2.1.2 图像特征点匹配算法 |
2.2 生成式对抗网络 |
2.2.1 生成对抗网络 |
2.2.2 条件生成对抗网络 |
2.3 OCR识别引擎 |
2.3.1 Tesseract-OCR |
2.3.2 Paddle OCR |
2.4 本章小结 |
第三章 基于SIFT特征点匹配的卡证定位方法 |
3.1 证件定位方法概述 |
3.2 特征点检测算法对比实验 |
3.3 定位点选择算法 |
3.3.1 自定义模板图及特征点描述文档 |
3.3.2 速度优先定位点选择算法 |
3.3.3 精度优先定位点选择算法 |
3.4 证件定位实验设计 |
3.4.1 证件定位实时观测程序 |
3.4.2 实验结果分析 |
3.5 本章小结 |
第四章 基于条件生成对抗网络的卡证去水印方法 |
4.1 去水印总体方案 |
4.2 基于特征点匹配的可见水印检测 |
4.3 基于条件生成对抗网络的可见水印去除 |
4.3.1 去水印CGAN网络原理 |
4.3.2 CGAN成对训练集扩充方法 |
4.4 水印去除实验 |
4.5 本章小结 |
第五章 卡证文本的识别增强方法 |
5.1 字段细粒度提纯 |
5.1.1 异常字段的提取 |
5.1.2 印刷体清晰化处理 |
5.2 文字识别优化方法 |
5.2.1 字段存储结构设计 |
5.2.2 字段合并方法 |
5.2.3 Tesseract-OCR自定义手写数字语言包快速生成方法 |
5.2.4 黑白名单配置 |
5.3 本章小结 |
第六章 总结与展望 |
6.1 工作总结 |
6.2 展望 |
参考文献 |
攻读学位期间的研究成果目录 |
致谢 |
(7)基于深度学习的藏文古籍木刻本文字识别研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 研究背景及意义 |
1.2 研究现状 |
1.2.1 国外研究现状 |
1.2.2 国内研究现状 |
1.3 传统藏文OCR技术 |
1.3.1 藏文字符字符归一化 |
1.3.2 藏文字符预分类 |
1.3.3 藏文文本切分 |
1.4 基于深度学习OCR技术 |
1.4.1 文字检测 |
1.4.2 文字识别 |
1.5 主要研究内容 |
1.6 创新点 |
1.7 本文组织结构 |
第2章 藏文古籍木刻本数据集构建与生成 |
2.1 藏文文字与版式特点 |
2.1.1 藏文古籍文字特点 |
2.1.2 梵音藏文转写体特点 |
2.1.3 藏文古籍文献版式特点 |
2.2 字符集创建 |
2.3 藏文古籍木刻本图像标注方法 |
2.3.1 标注规范 |
2.3.2 文本位置编号 |
2.3.3 文本内容标注 |
2.4 稀缺训练集扩充方法 |
2.5 小结 |
第3章 藏文古籍木刻本图像预处理 |
3.1 低质量古籍图像二值化方法 |
3.2 藏文古籍木刻本复杂背景去噪方法 |
3.2.1 空间滤波去噪 |
3.2.2 非局部去噪 |
3.3 藏文古籍木刻本倾斜校正方法 |
3.3.1 倾斜角检测 |
3.3.2 Radon变换 |
3.4 小结 |
第4章 藏文古籍木刻本复杂版式文本检测 |
4.1 文本检测方法 |
4.2 基于CTPN的藏文古籍文本检测 |
4.2.1 文本区域构建 |
4.2.2 竖向文本行检测 |
4.3 实验 |
4.3.1 实验数据 |
4.3.2 实验系统配置 |
4.3.3 实验结果 |
4.4 小结 |
第5章 基于深度学习的藏文古籍木刻本文字识别 |
5.1 藏文古籍木刻本超长行识别 |
5.1.1 水平投影 |
5.1.2 垂直投影 |
5.1.3 超长行切分 |
5.2 藏文古籍木刻本串识别模型 |
5.2.1 古籍图像特征提取方法 |
5.2.2 古籍序列图像前后关系学习方法 |
5.2.3 序列合并 |
5.2.4 模型训练 |
5.3 实验 |
5.3.1 实验数据 |
5.3.2 评测指标 |
5.3.3 实验结果与分析 |
第6章 藏文古籍木刻本文字识别后处理 |
6.1 藏文相似字符分类 |
6.2 字符相似度计算方法 |
6.3 识别错误检测方法 |
6.4 错误纠正方法 |
6.4.1 基于隐马尔科夫模型的识别错误纠正 |
6.4.2 语言模型的藏文识别错误纠正 |
6.5 原型系统架构 |
6.6 小结 |
第7章 总结与展望 |
7.1 总结 |
7.2 展望 |
参考文献 |
攻读博士学位期间发表的论文及科研成果 |
1、发表/投稿论文 |
2、发明专利 |
3、软件着作权 |
4、主持和参与科研项目 |
5、获奖 |
致谢 |
(8)基于深度学习的甲骨文偏旁与合体字识别的研究与实现(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 研究背景和意义 |
1.2 国内外研究现状 |
1.3 本文研究内容和难点 |
1.4 本文组织结构 |
第2章 相关技术概述 |
2.1 MSER+NMS算法 |
2.2 深度学习相关技术 |
2.3 模型优化策略 |
2.4 本章小结 |
第3章 甲骨文偏旁与合体字数据集介绍 |
3.1 构建甲骨文单偏旁数据集ORCD |
3.2 构建甲骨文合体字数据集OCCD |
3.3 本章小结 |
第4章 甲骨文单偏旁检测与识别框架(ORERF) |
4.1 甲骨文单偏旁标注数据生成 |
4.2 基于U-NET模型甲骨文单偏旁检测 |
4.3 甲骨文单偏旁识别网络 |
4.4 本章小结 |
第5章 甲骨文合体字识别网络 |
5.1 网络总体框架 |
5.2 甲骨文合体字识别预训练网络的具体步骤 |
5.3 实验结果与分析 |
5.4 本章小结 |
第6章 甲骨文单偏旁和合体字图像识别原型系统 |
6.1 系统概述 |
6.2 结果展示 |
6.3 本章小结 |
第7章 总结与展望 |
参考文献 |
致谢 |
攻读硕士期间参与的科研工作及取得的成果 |
(9)基于深度学习的医疗化验单图像智能识别研究与实现(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景与意义 |
1.2 国内外研究现状 |
1.3 本文主要研究内容 |
1.4 本文组织结构 |
第二章 传统数字图像处理 |
2.1 倾斜矫正 |
2.1.1 投影法 |
2.1.2 最近邻簇法 |
2.1.3 马赛克检测 |
2.2 数据合成 |
2.3 直线检测 |
2.4 旋转变换 |
2.5 实验仿真 |
第三章 化验单图像的检测与识别 |
3.1 传统文本检测方法 |
3.2 基于深度学习的化验单文本检测 |
3.2.1 标签制作 |
3.2.2 常见的文本检测模型 |
3.2.3 改进的化验单文本检测模型 |
3.2.4 模型训练验证实验 |
3.3 基于深度学习的化验单文本识别 |
3.3.1 标签制作 |
3.3.2 常用文本识别模型 |
3.3.3 文本识别模型迁移学习 |
3.3.4 化验单文本识别训练过程 |
3.3.5 化验单文本识别结果评估 |
3.4 模型部署 |
第四章 图像版面分割 |
4.1 二次倾斜矫正 |
4.2 行列分割 |
4.3 结构化输出 |
第五章 总结与展望 |
5.1 总结 |
5.2 展望 |
参考文献 |
致谢 |
(10)基于深度学习的发票识别研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 课题的研究背景及意义 |
1.2 国内外研究现状及分析 |
1.2.1 传统发票识别技术研究现状 |
1.2.2 基于深度学习的票据文本识别研究现状 |
1.2.3 论文主要研究工作 |
1.3 章节安排 |
第二章 定位与识别相关工作分析 |
2.1 引言 |
2.2 文本定位相关工作分析 |
2.2.1 传统文本定位方法 |
2.2.2 基于目标检测的文本定位方法 |
2.3 文本识别相关工作分析 |
2.3.1 传统基于字符切分的文本识别 |
2.3.2 CRNN端到端的识别 |
2.4 本章小结 |
第三章 图像采集、预处理及校正 |
3.1 引言 |
3.2 图像采集 |
3.3 图像预处理 |
3.3.1 图像二值化 |
3.3.2 图像倾斜校正 |
3.4 基于像素点的表格框线检测 |
3.5 本章小结 |
第四章 待识别区域定位 |
4.1 引言 |
4.2 发票定位问题的解决思路 |
4.3 损失函数 |
4.4 实验结果与分析 |
4.5 本章小结 |
第五章 基于深度学习的文字识别 |
5.1 发票文本识别网络结构与算法 |
5.1.1 DenseNet网络结构搭建 |
5.1.2 识别算法主要思想 |
5.2 识别数据采集与生成 |
5.3 数据集训练 |
5.4 发票文本识别 |
5.4.1 实验准备 |
5.4.2 实验结果及分析 |
5.5 本章小结 |
第六章 总结与展望 |
参考文献 |
附录1 攻读硕士学位期间撰写的论文 |
附录2 攻读硕士学位期间申请的专利 |
致谢 |
四、特殊票据字符识别预分类特征的提取及分类字典的建立(论文参考文献)
- [1]图像文本识别的关键技术研究[D]. 吴湘平. 哈尔滨工业大学, 2021(02)
- [2]不定长中文文本图像的识别算法研究[D]. 蔡斯琪. 北京交通大学, 2021(02)
- [3]基于视觉特征的多类型表单关键信息识别研究[D]. 杨茜. 北京交通大学, 2021(02)
- [4]基于卷积神经网络的场景文本定位与识别算法[D]. 王强. 哈尔滨理工大学, 2021(02)
- [5]面向金融业务的表单票据通用识别系统研究[D]. 任多. 北京邮电大学, 2021(01)
- [6]自然场景采集的卡证票据精准识别方法[D]. 王家亮. 东华大学, 2021(09)
- [7]基于深度学习的藏文古籍木刻本文字识别研究[D]. 仁青东主. 西藏大学, 2021(11)
- [8]基于深度学习的甲骨文偏旁与合体字识别的研究与实现[D]. 林小渝. 西南大学, 2021(01)
- [9]基于深度学习的医疗化验单图像智能识别研究与实现[D]. 左玉伟. 山东师范大学, 2021(12)
- [10]基于深度学习的发票识别研究[D]. 谢阳. 南京邮电大学, 2020(02)