场景文本检测(Scene text detection) -- CTPN

　　印刷字体的OCR技术现在已经相当成熟.腾讯Tim手机版自带图像文本提取功能;Microsoft Office lens具备扫描功能.虽然不能说100%正确，但基本上可以做到95%以上的打印字体识别基本可以完成.所以现在的技术关注更多的是"场景文本识别",表示在复杂的环境中进行字符识别.如下图所示的两种环境:

技术图片

　　复杂场景的字符识别的操作主要包含两步:文本检测和文本识别.CTPN便是一种效果不错的提取场景文本的算法,它可以检测文本信息在自然环境中的位置.

　　在选择图像中的位置信息时，很容易想到用于目标检测的R-CNN模型（从一副图中寻找RoI）.毕竟，近几年中，谈起图像处理，人们会想到CNN.

　　基于这种处理方式，可以将"字符位置"进行标记，然后将截取的图片放入CNN模型中进行处理? 然而，现实并非如此. 大量文本信息的文本、字体、位置等各种情况直接对R-CNN方法造成了干扰，造成了严重偏差。鉴于这种情况,CTPN便是通过结合CNN的优点，针对环境文本信息做出反应的模型.

CTPN 网络结构

　　文本信息的字符是一个序列，是一个由"字符、部分字符、多字符"组成的序列。如下图所示,待检测的文本信息具备"序列"这样的特征. 很显然,基于这样的特征,文本检测识别的目标不同于一般的目标检测,可以独立的针对各个目标进行检测.同时,基于"序列"的特征,会比较容易的想到利用上下文的语境,利用上下文确定文本的位置. 这自然会想到RNN系列的模型.

技术图片

　　值得注意的是，作者认为预测文本水平方向的位置要比预测文本垂直方向的位置困难得多。

　　因此，在检测过程中，可以引入数学上类似的"微分"思想。首先检测一个固定宽度的小文本段。在后处理部分，将这些小文本段连接起来，得到一条文本行，如下图所示。

技术图片

　　通过将CNN和RNN，以及数学上"微分"的思想作用于处理文本。CTPN的网络结构如下图所示：

技术图片

　　绘制结构图：http://ethereon.github.io/netscope/#/editor

　　结构代码：https://github.com/tianzhi0549/CTPN/blob/master/models/deploy.prototxt

　　具体操作可以划分为5步：

　　1. 首先，使用VGG-16模型中的前5个Conv获得feature map，大小为N*C*W*H。VGG网络结构如下图所示，使用的网络结构如红色框体内。由于红色框体内共包含4个池化操作，因此，此时输出的feature map 为原图的1/16。

技术图片

　　2. 利用3*3滑动窗口从上一步得到的feature map中提取特征，生成3*3*C的特征向量。输出N*9C*H*W的feature map。并利用这些特征预测多个anchor。这里anchor的定义与Faster-Rcnn中的相同。

　　3*3滑动窗口的操作如下图所示，即提取每个点附近的9个临近点，每行都如此处理，也就使得特征提取前后分辨率不发生变化。即feature map维度的变化如下：

技术图片

　　3. 将上一步得到的特征输入到Bi-LSTM中，输出W*256的结果（128双向整合结果），再将结果输入到512维全连接层(FC)中。结构输出节点数量可参照下图。

技术图片

　　这里会有一个转换，就是如何将图像形状（N*9C*H*W）转化为LSTM可以输入的向量(一维向量)？如下图im2col_transpose操作所示，将feature map(N*9C*H*W)进行reshape操作。

技术图片

　　reshape的具体操作如下所示：

技术图片

　　基于此，作者以NH=Batch，W作为LSTM的最大时间长度，9C作为LSTM网络输入节点的个数。此时，数据维度符合LSTM输入的要求。

技术图片

　　4. 最后，通过分类或回归得到的输出主要分为三个部分。根据网络结构图，从上到下依次为：

vertical coordinates（2k）：锚框的高度和中心点y轴坐标；
scores （2k）：锚框的类别得分，即表示当前锚框中包含的内容为是否是一个字符的得分。
side-refinement （k）：表示水平偏移量。

其中，k表示锚框的数量。在实验中，锚框的水平宽度为16 像素，

　　这一部分是通过Faster R-CNN中的RPN网络获得text proposals，也就是上述三部分的过程。

技术图片

　　5. 获得text proposals后，使用文本构造算法，将得到的细长矩形合并到一个文本序列框中。

技术图片

细节补充

01. Detecting Text in Fine-scale proposals

　　CTPN与RPN和Faster R-CNN主要区别在于引入了"微分"思想，即将候选区域切割成细小的条状进行处理。其采用了一组(10个)等宽度的anchor，高度从11到283变化（by ÷0.7 each time）。宽、高可以清晰的表示为：

技术图片

　　RPN与Fine-scale text proposals对比结果如下所示：

技术图片

　　文献中返回y轴坐标的方法如下所示，其中，*表示真实值；vc， vh表示预测的中心y坐标和高度，vc*，vh*表示Ground Truth；cya，ha表示anchor的中心y坐标和高度（pre-computed）。cy和h表示预测的中心y坐标和高度。

技术图片

02. Recurrent Connectionist Text Proposals

　　该方法对应于前一个过程中"Bi-LSTM"的细节，上下文信息用于文本位置的定位。Bi-LSTM具有128个隐含层节点，输入是由3*3的滑动窗口构成的3*3*C的特征，由于是双向，最终形成256的输出。如下图所示：

技术图片

　　使用RNN和不使用RNN的对比结果如下图所示，第一行是不使用RNN的CTPN；第二行是使用RNN的CTPN。

技术图片

03. side-refinement

　　side-refinement是最后的优化过程，通过合并和汇总已定位的"小矩形"，得到所需文本信息的位置信息。即合并下图中的红色小矩形，最后生成一个黄色大矩形。"小矩形"是否保留直接通过有无文本信息的得分是否大于0.7来判断。

技术图片

　　对于将一系列红色小矩形合并成最终的黄色大矩形的方法遵循以下规则（下面简称文本线构造方法）：

技术图片

　　因为它指定返回框的宽度为固定的16像素，所以它将导致一些位置错误。定义公式如下:

技术图片

　　其中，*表示GroundTruth；Xside表示回归的左/右边界，cxa表示锚点中心的横坐标，wa为16像素的固定宽度。所以O的定义相当于一个缩放比例，这有助于我们对回归后的方框结果进行拉伸，从而更好地匹配实际文本的位置。对比图如下，红色方框为使用side-refinement，黄色方框为未使用side-refinement的结果:

技术图片