5个小众图片处理工具,图像处理需要哪些基础知识

相应算法的详细介绍大家可以关注我头条号之前发布的文章.文字识别OCROCR（Optical Character Recognition, 光学字符识别）传统上指对输入扫描文档图像进行分析处理，识别出图像中文字信息。场景文字识别（Scene Text Recognition，STR）指识别自然场景图片中的文字信息。

我这里主要介绍难度更大的场景文字识别的发展.自然场景图像中的文字识别，其难度远大于扫描文档图像中的文字识别，因为它的文字展现形式极其丰富：·允许多种语言文本混合，字符可以有不同的大小、字体、颜色、亮度、对比度等。 ·文本行可能有横向、竖向、弯曲、旋转、扭曲等式样。 ·图像中的文字区域还可能会产生变形(透视、仿射变换)、残缺、模糊等现象。

·自然场景图像的背景极其多样。如文字可以出现在平面、曲面或折皱面上；文字区域附近有复杂的干扰纹理、或者非文字区域有近似文字的纹理，比如沙地、草丛、栅栏、砖墙等。文字识别其实主要包含两个步骤, 文字检测与文字识别, 但是近年来也有出现了以CRNN(具体可以关注华中科大白翔老师的研究)为代表的一步到位的端到端的识别模型,效果也还不错.文本检测工作目前可以大致分为三类：一是基于分割的思想，通过分割网络提取文本区域，然后采取一些后处理方法获取边界框。

代表性的工作是发表在CVPR2016的“Multi-oriented text detection with fully convolutional networks”;二是基于候选框的思想，直接用一个神经网络来检测文本边界框。代表性的工作是发表在CVPR2016的“Synthetic data for text localization in natural images”;三是混合思想，它采用多任务学习的框架，结合了分割和边界框检测的方法。

代表性的工作是发表在ICCV2017的“Deep Direct Regression for Multi-Oriented Scene Text Detection”。而文字识别大致分为两类思路：其一是从单词或字符层面入手，设计单词分类器或字符分类器，将每一个单词或字符作为一类目标，进行多类别分类任务。

而近来循环神经网络大放异彩，它可以将文本识别看作一个序列标签问题，并能够直接输出标签序列。因此，第二种思路从序列层面入手，将文本看作一个字符序列，通过设计序列特征提取器,结合循环神经网络（RNN）和CTC模型，将文本序列作为一个整体进行识别。目前OCR方面比较经典的算法有CTPN,RRPN,DMPNet,SegLink,TextBoxes,FTSN,WordSup等, 具体可以关注我头条号,我后面会推出详细介绍.总结以上内容总结了目前计算机视觉方向比较流行的方向,以及一些经典的算法.能力有限,难免有总结的不到位地方,欢迎指正.最后,欢迎大家关注我的头条号,会有大量深度学习相关资源不间断放送.。

文章TAG：个小众图像处理基础知识工具 5个小众图片处理工具图像处理需要哪些基础知识

5个小众图片处理工具,图像处理需要哪些基础知识

大家都在看

相关文章推荐