让计算机拥有一双眼睛,人工智能科学家已经努

  最近斯坦福大学一篇论文《Deep neural networks are more accurate than humans at detecting sexual orientation from facial images》一出,舆论哗然,该论文研究指出,计算机算法可以从面相判断一个人的性取向,引发了对隐私、道德、伦理问题的争议。然而回过头去看,这原本是一个卷积神经网络应用的技术文章,在人工智能领域,它是图像识别和机器人(行情300024,诊股)视觉的核心部分。

  图像识别技术,是人工智能道路上的一座高峰,如今你可以看到包括个人相册图片管理、刷脸解锁手机、刷脸上班打卡等广泛应用。你一定好奇,图像识别是什么?如何让机器理解一张图甚至一个动态的生物?背后又用到了哪些技术?

  今天,我们就从源头挖一挖图像识别的概念、技术和应用。

  什么是“图像识别”?

  从概念来看,图像识别是指利用计算机对图像进行处理、分析和理解,以识别不同模式的目标和对像(人物、场景、位置、物体、动作等)的技术。

  而图像识别算法一般采用机器学习方法,模拟人脑看图,随后计算机依靠大量的数据,理解图像,最后建立相关的标签和类别。整个识别过程的核心,就是神经网络,经过优胜劣汰,目前已经发展到卷积神经网络(CNN或ConvNets)。

  据不完全统计,科学家们从神经网络研究到卷积神经网络,就花了从20世纪60年代末到20世纪80年代末的时间。

  让计算机看见,经历了一个剥茧抽丝的神经网络演进过程

  我们先来看,人如何辨识物体。人脑的神经细胞(神经元)包括很多彼此相邻并相连的层,层数越多,网络越“深”。单个神经元从其他神经元接收信号——可能高达10万个,凯发k8娱乐,当其他神经元被触发时,它们会对相连的神经元施加兴奋或抑制作用,如果我们的第一个神经元输入加起来达到一定阈值电压(threshold voltage)时,它也会被触发。

  也就是说,人不但可以用眼看字,当别人在他背上写字时,他也认得出这个字来。就好比下图,人一眼看过去,就能感知到图片中存在某种层级(hierarchy)或者概念结构(conceptual structure),一层一层的:

  地面是由草和水泥组成,图中有一个小孩,www.k8.com,小孩在骑弹簧木马,弹簧木马在草地上。

  关键点是,我们知道这是小孩,无论小孩在哪种环境都认识,因此人类不需要重新学习小孩这个概念。

  但机器不同,它需要经过多次反复的学习过程。我们再来看,机器如何辨识物体。在人工神经网络中,信号也在“神经元”之间传播,但是,神经网络不是发射电信号,凯发k8娱乐,而是为各种神经元分配权重。 和权重较小的神经元相比,权重更大的神经元会对下一层神经元产生更多的作用,最后一层将这些加权输入放在一起,以得出答案。

  比如,要想让一个计算机认出“猫”,需要建立一组数据库,包含数千张猫的图像和数千张不含猫的图像,分别标记“猫”和“不是猫”,然后,将图像数据提供给神经网络,最终输出层将所有信息——尖耳朵、圆脸、胡须、黑鼻子、长尾巴——放在一起,并给出一个答案:猫。这种训练技术被称为监督学习(supervised learning)。

  还有一种技术叫做无监督学习(Unsupervised learning),就是使用未标记的数据,计算机必须自己看图识物,比如从“尖耳朵”辨别这是一只猫而不是其他动物。然而这些方法容易误导机器,误把“尖耳朵”猫识别成狗,或者把浣熊猫误认为暹罗猫。

  但是,如果图片是这样的呢?

  一个3岁小孩都能识别出猫的照片,计算机科学家们却花了多年时间教会计算机看图识物。

  直到20世纪80年代,来自加拿大多伦多大学的神经网络先驱Geoff Hinton领导的小组,提出了一种训练神经网络的方法,叫做卷积神经网络,意味着它不会陷入局部陷阱。

  于是强大的图形处理单元或GPU出现了,这意味着研究人员可以在台式机上运行、操纵和处理图像,而不用超级计算机了。

  同时大数据的加持,让卷积神经网络应用越来越广泛。2007年,一对计算机科学家——美国斯坦福大学计算机科学系副教授和美国工程院院士、普林斯顿大学李凯李凯——推出了ImageNet,这是一个来自互联网的数百万带有标签图像的数据库。漫长而艰巨的标签任务受到诸如Amazon Mechanical Turk等技术的帮助,用户每标注一个图像可以获得几美分的报酬。现在,ImageNet为神经网络提供了约1000万张图像和1000个不同的标签。