深度学习(Deep Learning)这个词最近借着AlphaGO与李世石的人机大战又火了一把。深度学习其实是机器学习(Machine Learning)的一个分支学科,而机器学习是一门研究数据之间关联关系的学科,比如它可以用来挖掘收入和年龄,性别,职业,学历等因素的数学关系。但是传统的机器学习方法一般只能挖掘简单的线性关系。我们知道大千世界不是线性关系所能描述的,比如收入与年龄,性别,职业,学历的关系,这么一个简单的问题就不是一个线性关系所能表达清楚的。深度学习的出现改变了这种现状,深度学习使用复杂的多非线性模型表示数据之间的关系,然后使用大量的数据最终确定数据之间的关系究竟是什么。
深度学习的灵感来源于大脑神经网络,可以说我们的大脑就是一个极致复杂的深度学习模型。大脑里的神经网络是由数以千亿计的神经元连接而成,深度学习也使用同样的结构,每个人工神经元对输入进行简单的线性或非线性运算后将结果传递给后续的神经元,在经过这样十几层乃至上百层的传递后得到最终的预测结果。
深度学习这套方法并不是近几年提出的,早在80年代末Geoffrey Hinton和Yann LeCun等学者就使用深度学习的方法解决了手写体数字的识别问题。遗憾的是,进入90年代后深度学习的性能没有本质上的提升,甚至劣于很多简单的线性模型,深度学习的研究沉寂下来。直到2006年,Hinton教授在Science上发表了深度学习的里程碑一样的论文,重新审视深度学习方法,将深度学习的性能提升到了一个新的台阶。在此之后,深度学习在语音识别,计算机视觉,机器人,自然语言处理等领域均超过了传统的机器学习方法,甚至在人脸验证比赛LFW和自然图像分类比赛ImageNet上超过了人类的识别能力。这次,AlphaGO击败李世石又是一个深度学习超越人类的实例。
那么是什么让深度学习再次崛起并超越人类呢?
当然首先要归功于Hinton等学者几十年如一日的不懈研究。另外,有两个客观因素异常重要:
第一是大数据。
互联网将几十亿人连接在一起,同时也让海量数据连接在了一起。深度学习必须要有海量数据才能得到表现好的模型,深度学习和大数据的关系就像火箭和燃料一样,火箭虽然厉害,但是没有大数据这个燃料也只是一堆废铁。因为大数据的必不可少,我们也看到深度学习做的最好的地方是我们熟知的那些拥有大量数据的IT巨头,Google、Facebook、Microsoft、百度等。可以说,在深度学习时代,拥有数据就占领了人工智能的制高点。
第二是高性能计算。
摩尔定律揭示了计算能力增长速度的规律,过去这些年GPU,超级计算机和云计算等计算平台迅猛发展,让深度学习的实现成为可能,举个例子,2011年GoogleBrain用了1000台机器、16000个CPU处理的深度学习模型大概有10亿个神经元,而现在我们已经可以在几个GPU上完成同样的计算了。事实上,深度学习已经进入我们的口袋了,我们的智能手机上的GPU已经可以运行一些复杂度一般的深度学习方法了。我想过不了多久,我们每一个人都可以在手机上和AlphaGO对弈了,再过些年,我们的手机就就可以运行像人脑一样复杂的神经网络了。
在深度学习领域有很多非常优秀的华人科学家和中国企业。科学家方面,我们熟知的有百度首席科学家吴恩达,IDL的发起人余凯,Caffe的作者贾扬青,第一个把人脸验证LFW刷到99%以上的汤晓鸥、王晓刚教授,去年夺得ImageNet多项桂冠的孙剑和何凯明等等。企业方面,我们所熟知的BAT、360、搜狗、滴滴等均在深度学习方面有布局,同时国内也涌现出一批依赖深度学习的新企业,比如格灵深瞳(安防、自动驾驶)、旷世科技(人脸识别)、商汤科技(人脸识别)、地平线机器人(ADAS)等。
深度学习不只是和人下下棋这么简单。既然它是对人脑的一种模拟,它可以完成很多人脑的功能。
首先是视觉的功能。我们的相机可以像眼睛一样看到这个世界,却不能像大脑一样看懂这个世界,深度学习恰恰补上了这个短板。有了深度学习,Google Photo、百度识图、淘宝拍立淘才可以准确地识别照片中的物体类别,并对你的照片进行自动归类或搜索。有了深度学习,我们才可以很酷炫地在支付宝里刷脸付款。有了深度学习,格灵深瞳的行为特征分析系统可以检测场景内所有人员、车辆的行踪,对可疑和危险事件及时报警。有了深度学习,自动驾驶汽车识别周围路况时才足够准确。有了深度学习,FaceU这样的app才知道脸在哪里,五官又在哪里。
除了视觉功能,深度学习在语音识别方面应用也非常广泛。百度的Deep Speech 2在一些测试中也已经超过人类的听力。此外,Google、Apple、Microsoft以及国内的科大讯飞等也都推出了自己的语音识别产品。在深度学习的帮助下,计算机拥有了越来越强大的语音识别能力,这将逐渐改变目前目前以键盘为主的人机交互模式。
深度学习也深刻改变着机器人领域。刚才说的基于深度学习的视觉和语音识别的能力可以帮助机器人更好地感知世界。除此之外,深度学习还和增强学习(Reinforcement Learning)相结合。
所谓增强学习指机器人通过与环境交互中得到的奖赏和惩罚自主学习(Self Learning)更优策略。举个简单的例子,AlphaGO就是一个增强学习的产物,它通过跟其他棋手下棋或者和自己对弈的输赢情况自主学习更好的下棋策略。而深度学习的引入,使得增强学习方法可以找到更加复杂的策略。从AlphaGO完胜李世石可以看出,深度学习+增强学习已经有能力让机器人在相当复杂的环境下自主学习到高度优化的决策策略。
以上的这些应用只是我们平时看得见的,还有很多深度学习的应用则在我们的视线之外影响世界。互联网搜索、广告推荐、金融量化交易、机器翻译、医疗大数据分析、智能法律咨询……可以说凡是需要从大量数据中预测未知信息的领域都是深度学习可以一展拳脚的地方。未来,以深度学习为代表的人工智能技术也许会像蒸汽机、电动机、计算机、互联网一样推动新一轮科技革命,让生产力再上一个台阶。
当然,作为一个从业者,我同时害怕深度学习遭到捧杀,尤其是AlphaGO让大众熟知了这样一项技术后。深度学习才刚刚起步,就像婴儿刚刚学会走路,我们固然可以畅想他以后成为伟人,但毕竟很多技术还不成熟,相当一部分应用还难以让人满意,甚至在未来很长时间内都难以做到。人工智能的发展需要的不是大家一股脑的热情,而是持久的投入和努力。
按:作者潘争,格灵深瞳计算机视觉工程师,清华大学自动化系博士,师从智能技术与系统国家重点实验室副主任张长水。