Machine Learning第十一周笔记：photo OCR

时间：2017-08-20 22:36:51 阅读：322 评论：0 收藏：0 [点我收藏+]

博客已经迁移至Marcovaldo’s blog (http://marcovaldong.github.io/)

刚刚完毕了Cousera上Machine Learning的最后一周课程。这周介绍了machine learning的一个应用：photo OCR（optimal character recognition，光学字符识别），以下将笔记整理在以下。

Photo OCR

Problem Description and Pipeline

最后几小节介绍机器学习的一个应用——photo OCR（optimal character recognition。光学字符识别），这一样例的内容也能够应用于计算机视觉（computor vision）。photo OCR要解决的问题是怎样让计算机识别出图像中的文字。给定一张图像，photo OCR首先要做的是确定当中文字的位置，例如以下图所看到的：

技术分享

然后将当中的文字正确转录下来。

photo OCR仍是机器学习的难点之中的一个。它能够帮助盲人“看到”面前的事物，能够帮助汽车自己主动识别道路上的物体。促进自己主动驾驶技术的实现。

为了实现photo OCR，我们要做的几个过程例如以下：
- 文本探測（text detection），确定文本在图像中的位置
- 字符分割（character segmentation），将含有文本的图像片段分割出来，并按一个一个字符切分
- 字符识别（character classification），将图像中的字符准确的识别出来
当然实际的操作可能要复杂得多，但整体上就是这几步，这被称为photo OCR pipeline

技术分享

Sliding Windows

这一小节介绍photo OCR的一个细节——滑动窗体（sliding windows）。我们使用的路人探測（pedestrain detection）的样例来引出滑动窗体，下图中含有多个路人，随着路人与相机距离的大小。代表路人的矩形尺寸不同，但原理一样。

技术分享

我们在路人探測中使用监督式学习，我们的数据是一个个图像片段，尺寸为 $82\times36$ （实际尺寸依据须要选择）。下图给出了分类为 $y=1$ 的positive example和分类为 $y=0$ 的negative example。

如果有这样的图像片段数千份。那我们就能够从中训练到一个hypothesis，用于推断新的图像片段中是否含有路人。我们拿上面的那张图像做test set，找出当中的路人。我们从图像的最最左上角选择一个尺寸为 $82\times36$ 的图像片段，成为窗体。推断当中是否有路人。

然后向右滑动窗体，假定步长为4（当然，步长为1精确度最高，但速度下降，依据实际情况调整）。每滑动一次推断一次。滑动最左側之后。再从最左側向下滑动一个步长再向右滑动。直至滑动到整个图像的最最右下角，就扫描完了整张图像。

技术分享

以下回到photo OCR，此问题的positive examples和negative examples例如以下图所看到的。

然后使用上面讲的滑动窗体去扫描整个图像。找到文本所在的图像片段。

技术分享

上图是整个过程的一个示意图。以下两张图像中的白色部分相应原始图像中的文本位置，当中右面这张是对左面那张的整合处理（大概应该就是将作图中挨着的白色片段整合成一大块）。接下来是字符分割，我们仍然使用滑动窗体。下图给出了positive examples和negative examples。注意，我们要的positive examples是这样的恰优点在两个字符中间的这样的位置，在这样的位置我们才干准确将字符切分开来。

技术分享

最后一步是进行字符的识别：

技术分享

Getting Lots of Data and Artificial Data

这一小节介绍人工数据合成（artificial data synthesis）。下图给出了实际遇到的数据，我们应该能够从这些图像（这里我们使用的都是灰度图像，比彩色的更好一些）片段中准确识别出字符。

另外字符可能会使用多种不同的字体，那怎样得到很多其它的训练样本呢？我们能够将不同字体的不同字符随机的粘贴到不同的背景上得到人工合成的训练样本，以下第二张图为示意。

通过这样的方法，我们能够获得大量与原始数据非常类似的合成数据。

技术分享

第二种方法是通过将原有的图像片段做扭曲处理来得到新的训练样本。详细例如以下图所看到的：

技术分享

视频还给出了语音识别通过引入扭曲来人工合成数据的样例，通过对原始录音（original audio）处理，得到以下合成数据：夹杂电话信号不好的杂音的录音（audio on bad cellphone connection）、嘈杂环境下的录音（audio on crowd background）、机器运转环境下的录音（audio on machinery background）。

最后，我们说全部的合成数据应该都是基于原始数据（即原始数据中必须包括有效信息）的，不能向数据集中加入没有意义的噪声。

在添加很多其它训练数据之前。我们应该确保模型是low bias的，由于仅仅有这样的模型才干通过增大training set来改善其性能。

比如，对于神经网络，我们能够通过添加特征数量，模型层数来确保模型是low bias的，然后再增大training set。

视频介绍的最后一个问题是获得数据的时间开销，在实际应用中，我们应该将其作为一个成本来考虑。详细就不写了。（我认为吧。没啥可写的。给出一张截图）

技术分享

Ceiling Analysis: What Part of the Pipeline to Work on Next

这一小节介绍上限分析（ceiling analysis）。上限分析能够帮助我们分析整个pipeline的哪一步更值得我们去优化，以获得更好的性能。如果我们在test set上測试我们的模型，得到72%的accuracy。第一步。我们用人工去做text detection部分的工作（此时，该部分的accuracy达到100%），此时模型的accuracy提升到89%。第二步，我们再用人工去完毕character segmentation部分的工作（此时该部分的accuracy也达到100%）。然后模型的accuracy达到90%。第三步。我们用人工去完毕character recognition的工作。终于模型的accuracy达到100%。我们得到以下这张表：

技术分享

分析上面这张表，我们发现通过对pipeline中三个步骤的提升，我们能够分别将模型的accuracy添加17%、1%、10%。前面我们对三个步骤的提升已经达到上限（三个步骤的性能均分别优化到了100%，不能更好），由此得到的三组数据也是上限，这就是上限分析。由此，我们知道对text detection和character recognition两个步骤的优化能够更大程度的改善整个pipeline的性能。所以我们要优先考虑优化这两个步骤。

下图给出了面部识别的pipeline，供我们加深理解。

技术分享