文/杨慧松 北京汉邦高科数字技术股份有限公司
前言
智能视频监控属于第四代视频安防监控技术,它是新技术发展推动下的必然结果。在这一历史性的技术演进中,计算机视觉技术扮演着核心的角色。从内涵上看,现代计算机视觉技术已经不再仅仅停留在光学几何(如2D和3D建模)和基于数字图像处理学的特征提取方面,它更建立在连同传统人工智能在内的建模、学习和推理等机器学习理论之上。从外延上看,传统的计算机视觉技术被称为机器视觉,主要应用在需要精密光学测量定位的自动化生产线等工业领域,而现代计算机视觉技术则已拓展到了更加广阔的应用领域,智能视频监控就是一个典型的实例。
视频监控智能化的核心问题
2013年3月中国国内报道了吉林省长春市婴儿被偷车贼残害的案例,有媒体质疑:“平安城市”这样的大范围安防监控项目为什么没有发挥应有的联动预警作用?类似的反思也针对同年4月在美国马萨诸塞州波士顿马拉松比赛中发生的爆炸案,犯罪嫌疑人不是被通过视频监控系统主动发现其异常行为锁定的,而是警方基于犯罪现场物证的反向推演在监控录像中圈定的。这些例证都说明了一个核心问题,即在提升智能视频监控的有效性方面,如何让系统在广域范围内产生针对同一个视频场景事件或特定行为的主动感知,并建立起一条高度关联的逻辑推理链条。
基于计算机网络技术和人工智能技术的最新成果,我们认为完全可以从技术上考虑实现一种有效的信息处理系统,用以满足上述来自实际应用领域对智能视频监控系统的需求。系统总体的架构是:分区域设立分布式的视频监控中心,采用智能前端设备和监控中心联合对本地化的视频数据进行存储及智能分析,这一层的功能主要是面向实时过程,发现局部和区域分布范围内整体的视频场景事件;在更广域的范围内(如市县级“智慧城市”工程的监控范围),由更高层的数据管理中心对来自分布式监控的视频数据进行存储、分析和集中管理,这一层主要是面向信息服务,同时非实时地兼顾个别没有智能视觉分析功能部署的区域过程,统筹全局的视频场景事件。
从单点到区域范围的智能化
智能视觉监控系统的“单点智能化”指的是使监控点的前端设备(也可能包括高清一体化摄像机)具备智能视觉分析和识别的能力。各个前端设备(包括前端的智能终端,如DVR、NVR、IPC等)的智能化功能根据监控业务的不同可能会有差别,但总的归纳起来应该包括:移动目标的检测和跟踪、目标的分类、人脸检测、跟踪和识别、车牌检测和牌号识别、场景事件检测、目标的特定行为识别。智能前端设备分析输出的结果是以元数据的形式存储和传递的。
当监控场景内的目标从一个视场中移出并进入另外一个部分重叠的视场时,为了实现连续的目标跟踪,通常需要在摄像机之间进行接力。对于一个完整意义上的智能视觉监控系统来说,能够通过前端设备的单点智能化分析单一场景内发生的事件和目标的行为是基本的要求,此外还必须在监控中心依靠摄像机传感网络内邻近的其他摄像机,从多通道、多区域中获取连续的视频序列,并对其进行视觉综合分析,这就是“区域范围的智能化”的含义。这是一种把单点智能通过元数据连接在一起构成的系统智能的能力。
分布式智能视觉监控系统基于大规模摄像机传感网络,为了提高系统在整体性能上对事件检测和行为识别的准确率,有必要把部署在监控中心的智能分析系统与各个监控现场独立通道上的智能分析结果进行集成,以构成一个自底向上和顶向下结构的反馈系统。系统在收集和记录海量视频数据的同时,也在时刻传递着、计算着描述场景内容特征的元数据。这种以元数据为中心的网络计算环境被称为“上下文环境”,简称上下文。
智能视觉监控系统中的元数据
元数据是一种特殊的二次信息,用来描述原始信息本身的内容、质量、状况和其它特性,通常用对于数据的自动检索和数据挖掘。分布式智能视觉监控系统中的元数据由两个层次组成,即基本属性信息,以及描述场景内容的信息。分布式智能视觉监控系统追求的目标就是构造一个完整的W6(发生了什么事?发生在哪里?发生在什么时间?发生时场景内都有谁?为什么会发生?怎么发生的?)系统,其中“时间和地点”是在非智能化系统中就固有的功能。对这些问题的回答就蕴藏在描述场景内容特征的元数据当中。元数据在系统中传递和进一步深层利用的过程就是所谓“上下文感知”的过程。其目的是:通过对元数据进行分层融合的处理,实现一个有效的分布式智能视觉分析系统。
元数据——基本的属性信息。基本层次的元数据无需经过智能视觉分析算法的输出即可得到。为了对场景事件和目标的行为有一个完备的属性记录,主要包括基本的属性信息,如:录像时间、地点信息、摄像机的参数、设备制造商、安装者、用户信息。
元数据——描述场景内容的信息。这部分元数据来自于对场景视频进行实时分析的结果,按照其描述的范围分类,主要有局部场景内的元数据(来自于智能前端设备的分析输出)和全局场景内的元数据(由分布式视频监控中心的上下文感知算法产生)。
上下文感知环境的建立
为了实现分布式智能视觉分析系统的“上下文感知”功能,首先需要构建一个强大的视觉信息传感网络,此外还需要一个支持元数据分层融合的逻辑路由。
视觉信息传感网络
在基于视觉信息传感网络的分布式视频监控系统中,监控摄像机获取足够清晰的视频输入可以提高监控系统对智能事件检测和行为识别的可靠性。视频数据(图像)的质量体现在如下三个方面的技术指标:图像的品质和高清效果;对视场环境中干扰因素的抑制;对摄像机视觉功能异常的检测和紧急处理。
摄像机成像的品质和高清效果一般通过摄像机前端镜头和传感器部分保证。对视场内干扰因素的抑制也是衡量摄像机性能高低的重要条件,这些因素主要包括:低照度条件、宽动态响应、景物色彩温度的改变和大气中的雾霾等。在这些因素条件下都需要摄像机对场景的视频质量进行增强。
在视觉监控系统中,摄像机的视觉功能异常通常意味着整个系统的原始视频输入受到严重干扰。无论是人为蓄意还是由设备或环境因素所致,视觉功能异常对系统的效能都有很大的影响,甚至隐含着对摄像机设备的安全威胁。产生所谓“摄像机视觉功能异常”的可能原因有:人用手至于摄像机前、在摄像机上喷漆或移动摄像机使其指向其他方向。这些行为一定会超过数秒,因此如何判断真正的摄影机异常而不是因为人群移动或是车辆震动或其他正常的原因是真正技术所在。图1所示是为一种因人为恶意遮挡导致的摄像机视觉功能异常。
对摄像机视觉功能异常的检测一旦实现,便可立即在视觉信息传感网络内部触发“传感器安全威胁”紧急事件管理,在监控中心端重新优化分布式系统的视觉跟踪进程图。
元数据的逻辑路由
在图2所示的分布式智能视频监控系统拓扑图中,黑色箭头表示元数据在系统网络上的流动情况。流动方向可以是双向的,即智能前端设备的元数据为监控中心提供全局场景分析所用的局部描述特征,而监控中心根据自己的计算结果补充前端智能结点在观测信息上的局限性。
描述本地场景特征的元数据在分布式智能视频监控系统的前端设备上计算生成后,需要先在视觉信息传感网络内部传递,然后在监控中心端被深度利用以生成描述广域监控范围场景的元数据。元数据的逻辑路由通常采用与海量视频数据相对独立的信息层,按照 “数据的分层传输方法”,在TCP/IP协议集中实现。
作为传输和利用元数据的另一种方案,在新一代面向智能视频监控的视频编码标准中,描述场景特征的元数据被封装在两个新型的信息层(对象层和分析层)中,不仅进一步在编码标准的基本层实现基于感兴趣区域的空域分辨率可调整编码,也为智能视觉分析算法提供了一个完整的元数据逻辑路由。
上下文感知算法
分布式智能视频监控系统的有效性是以具备上下文感知能力的视觉分析系统为前提的。上下文感知算法在分布式智能视频监控系统中扮演着重要角色,它关注的是对智能前端设备内产生的元数据的深度利用,而不关心局部场景的元数据在前端设备上如何产生。
传感网络环境下的摄像机定标
摄像机所处理的原始视频(图像)数据都可看作是3D世界坐标系下的真实数据在以该摄像机焦点为中心的2D图像坐标系中的投影。由于每台摄像机都有各自的2D图像坐标系,因此要正确地关联和融合来自传感网络中不同摄像机的元数据,必须先对各个摄像机进行定标。由于不同的摄像机之间可能存在色彩敏感度和空间分辨率上的差异,或者工作在不同的光照条件下,因此定标工作应不仅仅针对空域进行,还应当包括时域和颜色空间。严格地说,摄像机的定标不属于上下文感知算法的一部分,但是它是非常必要的,可为上下文感知算法提供前置的预处理。
对摄像机进行空域定标后,将会导出两个变换矩阵和,分别用于把不同视场内的元数据变换到统一的世界坐标系中以及把世界坐标系下的数据投影到2D图像坐标系中,这实际上为元数据在更广监控范围内的深度利用提供了可能。对摄像机进行时域定标时,需要针对不同摄像机观测到的同一个运动目标进行轨迹的匹配,以求出针对不同摄像机时钟的时间弯折曲线,在实际应用中比较复杂。对摄像机进行颜色空间上的定标还要考虑不同光照条件下的实验数据收集,应用操作起来更加繁琐。
在实际工程项目中,如果定标不准确或是略去对摄像机在时域和颜色空间的定标,必然会降低不同的视觉信息通道向监控中心提供元数据的可靠性,比如对场景内同一个目标的特征描述出现不一致甚至冲突的问题。这时为了得到可靠的元数据以描述全局监控场景的实时状态,可对元数据进行融合。有两种方法可以采用:其一,通过网络,在监控中心对元数据进行状态估计;其二,选择合适的场景事件模型,在监控中心对由元数据组成的事件进行推理。
全局场景的视觉跟踪
在基于摄像机传感网络的分布式视频监控系统中,监控中心收到来自各个前端设备的视频流及相关的元数据通常描述的是有限时空范围的视觉信息,由于摄像机定标不准确(详见前述内容)、场景的噪声和目标被遮挡等原因,分析得出的元数据存在不确定性的特点。为了实现在监控中心对全局区域内感兴趣目标可靠的视觉跟踪,可以采用一种分层式点对点的多摄像机元数据融合算法。
该数据融合算法基于一种策略,以监控中心的世界坐标系为参考,把来自不同智能摄像机或是智能视频分析通道的元数据合并为一个大的向量,使用分层Kalman预测器对场景内被智能前端设备锁定的多个视觉目标进行可靠跟踪,并从这个大向量的分量重发现场景中的异常事件。算法的底层指的是各个智能前端设备的监控层,上层指的是监控中心层。
全局场景的事件融合
在不同领域知识的背景下,元数据的组合可以构成事件;另一方面,事件具备多种由元数据表征的属性。元数据本身只是属性或特征的度量,而事件才能表达场景内的语义,事件具备原子性,由它可进一步构造对场景语义的句法描述。
多种原因,如:摄像机定标不准确(详见前述内容)、视频场景的噪声和目标被遮挡等,常会降低各个智能前端通道分析得出的元数据可靠性,这时为了依然保证监控中心对全局场景事件检测的准确性,可以在事件模型中对其属性(元数据)进行融合,然后得出优化的推理结果。图3 所示为在基于多摄像机传感网络的环境下,全局场景事件的检测和识别可以通过对多台摄像机传递的本地元数据进行融合而得到。
结语
本文提出了一种具备上下文感知功能的分布式智能视觉分析系统。对上下文和上下文感知给出了具体的物理意义和实现手段。
以元数据为中心设计的分布式系统,能够保证场景异常事件或特定行为发生时,在多台摄像机构成的多通道传感器网络内实现元数据的传递和数据融合,从而提高在监控中心全局意义上对场景事件识别的准确率。元数据的融合在监控中心进行,因而可在全局意义上得到所监控区域的场景视图。
一个典型的上下文感知智能视觉分析系统能够在场景内事件触发时,把元数据送入监控中心的事件队列,然后依据上下文感知算法对元数据进行融合,使事件队列优化,最终得出高可靠性的对全局事件的识别。