人看东西是从轮廓到细节,而 CNN 是从细节到大体。
人识别车牌的过程大体是:看见车,到差不多的位置去看车牌,再阅读车牌的内容,某些看不清的字符还可以结合其他知识来辨识,比如所在城市。如果光线不好看不清车的轮廓,还可以因为看清了车牌而增强识别车的自信度。似乎不同的知识可以彼此增强。
CNN似乎是自底层向上传递信息,目前还没看到过上面的信息会增强底层信息的架构;这可能是一个很好的提升模型的切入点:能否设计出神经网络的结构类似于人脑处理视觉?
还有个问题是:人脑/眼真的是先识别轮廓吗?
Comments
Post a Comment