12月13日,由中共肥东县委、肥东县人民政府、亿达中国控股有限公司主办,肥东县投资促进中心、合肥东部新城核心区综合管理办公室、合肥东部新城建设投资有限公司、亿达合肥智慧科技城发展有限公司承办,中国高科技行业门户OFweek维科网协办的“2019中国(合肥 · 肥东)AIoT产业发展论坛”在肥东安徽水利和顺大酒店隆重开幕。
在本次大会中,南京大学人工智能学院教授、博士生导师申富饶给我们带来《机器学习应用于图像识别:发展与挑战》主题分享,详细介绍和分析了图像识别的实现原理、主要算法类型,以及面临的挑战等研究成果,让我们更清晰地了解人工智能的发展现状。
机器学习的原理
在生活当中,人类可以根据自身的经验进行总结,归纳出一些规律,当遇到新问题时,人类会利用这些规律来进行预测,从而做出适当的反应。
而机器学习中的历史数据就相当于人类的经验,将这些历史数据通过训练得到机器学习模型,当机器要解决实际问题时可以根据学习模型进行预测,从而得到关于未知数据的一些属性以做出恰当的反应。在现实生活中,机器学习有很多重要的应用,而图像识别是其中一个极其重要而又相当具有挑战性的课题。
图像识别的模式分类
图像识别是一个模式分类问题,它的目标是识别图像中的物体,划分到不同的类别,实现最小的分类误差。现实生活中的图像大致可分为语义级图像、细粒度图像、实例级图像3种,申教授认为,各个类别属于不同的物种,往往具有较大的类间方差,而类内则具有较小的类内误差。例如识别普适物体的小型数据集CIFAR-10,包含了6种动物与4种交通工具。
对于图像识别而言,人类可以轻易地判断出图像中的颜色、形状、部件等特征,作为识别目标的依据,然而图像在计算机中被保存为数字格式。申教授分析道:机器学习方法可行的前提条件是训练数据中包含对预测任务有意义的特征,这些特征隐藏在看似毫无意义的数字之中,因此必须先进行特征的提取。
深度卷积网络的发展
在图像识别的研究历程当中,最主流的算法当属卷积神经网络。卷积神经网络(CNN)以卷积核为基本结构单元,通过局部连接、权值共享,模拟生物视觉系统的感受野机制,自动学习图像的特征表示。
LeNet5是早期的卷积神经网络模型,共有 7 层,具备了卷积层、池化层等深度卷积网络中的核心结构;AlexNet对卷积神经网络的结构和训练算法进行了大量创新,奠定了深度学习在计算机视觉领域的优势地位;ResNet通过引入残差连接,基本消除了增加深度带来的退化现象,能够通过单纯地增加网络深度,来提高网络性能;DenseNet将残差连接的思想发展到极致,实现了资源的最大化利用和计算量的压缩;Google提出的MobileNets是一个轻量级的深层神经网络,面向移动应用设计,大幅提升了计算速度。
图像识别的三大挑战
在人眼看来,一张图片就是一幅彩色的图画,但是在机器看来,它就是一大串数字,在机器学习的各种应用中,图像识别是一个特别困难的任务,申教授认为主要面临以下三个挑战。
第一个挑战是嵌入式深度学习。深度卷积网络在图像识别算法中占据了统治地位,模型精度也在不断提升,然而相应地也带来了计算复杂度的提升。目前有很多嵌入式应用需要使用图像识别技术,但嵌入式平台往往受到芯片性能、内存容量等硬件资源的限制,无法运行当前主流的深度神经网络,或者无法满足速度要求。
第二个挑战是可解释性。申教授分析道:图像识别程序像是一个黑盒子,只给出结果,而不能说明结果是如何产生的。我们能做的就是把数据丢给识别算法,期望它能够给出正确的答案。但是当答案发生错误时,我们无法得知错误产生的原因,只能寄望于调节参数之类的手段能让程序得到改善。目前,算法的可解释性问题正在逐渐得到重视。
第三个挑战是对抗样本问题。深度学习中可解释性的缺失带来了另一个问题,在某些应用环境中,图像识别程序可能会受到恶意攻击,攻击者试图“欺骗”图像识别程序,使程序的预测出错。这就要求我们设计可靠的神经网络,能够具有防止恶意攻击的能力。
未来——不断发展与完善
总的来说,即便仍然面临着非常多的挑战,图像识别还是取得了很大的成功。现在的神经网络都是由人来设计,在未来,或许会让程序自己进行设计,让机器进行增量学习、终身学习,到那时,机器在应用的过程当中会不断感知环境的变化,然后不断调整自己的行为以适应环境需要。
总之,图像识别是人工智能的一个重要领域,随着技术的不断发展,图像识别也会不断进行完善以适应更多的需求。