何为视觉大数据?
简而言之可称之为为计算机配上一对“眼睛”,让它可以看懂世界,但可惜的是,机器视觉发展这么多年,目前世界上最聪明的机器如阿尔法go等虽然都取得了很不错的成绩,但令人遗憾的是它们都有一个共同的致命缺陷——瞎的,这其中最主要的问题在于看与看懂,如何让机器看懂也是摆在科技界的一道难题。
对此,发展视觉大数据就变得尤为重要,全宇晖教授表示,视觉大数据存在的前提是它要能够被人的视觉系统感知到,而现如今最主要的视觉大数据便是图像与视频。值得注意的是以上所提都需满足大数据的必备条件。
视觉大数据的核心内涵
一、视觉大数据的“大”,表现在数量、尺寸、维度三个方面,即数据的体积足够大。
二、视觉大数据的“数”传达的内涵是指我们接触到的数据是量化过,或者离散过的数字,人类肉眼观察到的图像,对于计算机来说其实是一种数字矩阵。
三、视觉大数据的“据”则表明这些数字不是纯粹的数字,它可以提供客观依据来进行行为决策。人们获取了视觉线索之后,需要对其进行信息提取、内容分析、知识学习、理解决策四个步骤,其核心是利用到数学工具与模型算法。
这三个方面表明,在以往人类的生活生产中,存在一些固定模式和变化方向,这些固定模式通过科学无法解释并存留至今;但变化方向则可通过大数据进行挖掘,找到适合人类发展、方便人类生活的方向,而由于应用方向的不同,因而在大数据挖掘本身也存在着不同,比如今天所谈的视觉大数据分析。
全宇晖教授进一步指出,视觉大数据的工作内容主要集中在三方面:分析识别、质量评估和质量提升。而在分析识别方面,全教授提出了三个工作案例,来帮助进一步了解视觉大数据的工作机理:一是静态纹理图像识别。它利用的是计算机的一种基本运行能力,在开展这一工作时,研究者提供给计算机不同的纹理图像,从而得到计算机对其识别处理后的反馈结果。二是动态纹理视频识别。全宇晖教授介绍到,具有特定纹理的物体,在运动时,会表现出特有的周期性运动规律,而研究者让计算机利用这些额外的信息,对不同的视频信息进行分析与分类。三是物体的识别。计算机根据形状与轮廓特征,对物体进行目标识别,可以实现原有工作方法在精度上的提升。
在质量评估工作方面,研究者主要是通过给予计算机一定的运行程序,使计算机能够给出符合人的认知的评价结果。质量提升工作的目标是,提出一些新的方法,来实现图像的质量提升,使得被外因干扰的图像得到最好的呈现效果。
视觉数据表征工作是视觉大数据核心
全宇晖教授表示,目前视觉大数据的工作是分开进行的,但最终的目的只有一个,就是把分析识别、质量评估和质量提升三方联合起来,要想连接这三块就需要进行视觉数据表征工作,这也是视觉大数据工作的核心。视觉大数据表征过程可以分为三个框架:局部特征提取、全局特征整合和高层特征优化。为了便于理解,现场全教授以猫为例,通俗易懂地介绍了视觉数据表征工作的内容:每一只猫都有不同的表征,就是说同一只猫也有不同的pose,所以这就需要建立一个三维空间,来帮助系统分析识别,而不是在原图上进行操作。 视觉数据表征工作目前有两种路线:一是物理驱动,研究者会考虑一些数学模型,或者图形本身的面积等物理属性,进而利用分形等数学工具,进行数学建模与算法设计;二是数据驱动,可以依据大数据,得到较好的视觉数据表征。
最后,全宇晖教授表示,视觉大数据工作的下一个重心就是建立有机联动框架,并引入多元多模态数据融合,进行变尺度视觉数据分析进而根据数据本身进行高阶视觉关联信息挖掘。