今天来总结一下Coursera Machine Learning最后一周week 11的内容:图像文字识别(photo OCR),这个问题是机器学习在计算机视觉(computer vision)领域里的一个很常见的应用。本章我们会介绍如何使用机器学习算法解决这个问题,以及什么是人工数据合成(artificial data synthesis)。
The Photo OCR problem
Photo OCR全称是:photo optical character recognition,照片光学字符识别,意思就是从照片里识别字符信息,比如我们有如下图片:

那么OCR解决的问题就是把照片中红框内的文字识别出来。
Photo OCR pipeline
这是一个较为复杂的机器学习应用,我们可以把它分为几个小模块,然后组成一个流水线(pipeline)来解决问题。具体地,分为以下几个步骤:




