今天总结下:Coursera-Deep Learning-Course3-Structuring Machine Learning Projects的内容,因为这节课里面有好多概念性的东西,不是很实用,因此跳过了很多。
Mismatched Data Distribution Problem
我们在之前的文章里说到dev和test set的data distribution必须一样,这里说的Mismatched Data Distribution,指的是training set和dev/test的数据来源(data distribution)不一样,而以下讨论的几个问题都是基于这个假设的。
先来看一个很常见的应用:
开发一个供用户在手机端使用的识别猫的服务,也就是用户通过手机上传猫的图片到服务器,然后通过训练好的模型来判定这张图片是否是一只猫。
这是一个很普通的应用,但它却存在一个问题:我们在训练时不可能获得大量的来自于用户自己上传的图片数据(移动端),所以这些训练数据只能通过爬虫从网上下载。这样一来,就导致了training set和dev/test的来源不一致的问题[……]
