智能视频分析市场回顾
智能视频分析技术经过近十年发展,从最初的市场涌动,到现在的,市场上一直缺少理性的分析。投机者不停的转换角色,炒作概念,从智能视频到物联网到智慧城市。但是对于大量的直接用户和工程商来讲,实用的设备、可用的工具,是项目成功的基本底线。过去几年的现实是,大量的智能视频项目开展时轰轰烈烈,收尾时垂头丧气。
在宣传资料上的性能和实际性能相差太多,大量厂家的智能视频分析产品还停留在实验室阶段,售前对于用户的期望值理解错误,很多厂家的演示视频是精心挑选的片段,甚至有的公司直接复制其他公司的宣传视频,更为恶劣者甚至人工制作“精彩”的视频。
在整个事件中,有些确实属于用户的想象力太过于丰富,有些则属于厂家产品性能太差,无论如何,这几年智能视频应用下来的结论是:智能视频技术还不成熟。果真是这样吗?
同时,随着高清技术逐步成为市场主流,大量的智能视频分析还停留在CIF/D1的水平,落后于主流的监控技术,也是人们对于智能视频分析一个认知。从大量的CIF格式智能视频分析技术,能直接一步跨越到高清市场吗?
智能视频分析技术应用由来已久,最初应用主要集中在医疗、机器人、影视制作、工业检测、交通检测等领域,但其真正踏入安防应用,应该起源于美国国防部的VSAM大学研究项目以及一些国际大公司的图像实验室,其代表有:
CMU卡耐基梅隆机器人研究所体系(VSAM项目负责总成和地面静止平台):
· 美国Object Video公司(专利战策略);
· 美国VIdeoIQ公司(被GE收购后又于2008年分拆);
· 美国Guardian solution/Jtech (出售给一防务公司)。
· Sarnoff研究所体系(VSAM项目负责空中运动平台):
· 美国Cernium(前Sarnoff高管创建);
· Pyramid Vision(Sarnoff研究所子公司);
· L3(购买Sarnoff技术);
· Sightlogix(前Sarnoff高管创建)。
大企业研发中心:
· 美国ActiveEye(从飞利浦电子分拆,后被霍尼韦尔收购);
· 美国Vidient(于2010年关闭)。
以色列体系:
· Ioimage公司,现出售给DVtel;
· NICE(面向交钥匙项目)。
从以上各大主流智能视频分析厂商可以看出,智能视频技术经过近十年的发展,技术应用领域已经基本定型,但是整体走势并不乐观。笔者总结主要原因,还是智能视频分析技术在近十年来没有较大的技术突破,复杂的配置、繁琐的调试、基于CIF格式的分析导致的识别距离过短等等,不一而足,是智能视频分析技术远远落后于监控摄像机技术发展的主要原因。
虽然当前一些智能视频分析技术已经能够做到过滤大部分的误报源,如云、阴影、树枝晃动等,但离真正的自适应智能视频分析还有很大的差距,只有真正的自适应智能视频分析成为主流,智能视频监控时代才会真正到来,工程商、用户才能真正享受智能视频分析带来的价值,降低安装、运维成本。在高清时代,自适应智能视频分析主要体现在以下两点。
· 高清智能视频分析:实时分析高清视频画面,其分析比传统D1分析画面识别距离的2倍,识别区域是传统D1分析画面的6倍,同时因为可用像素高达2百万像素,系统的识别率也大大改进;
· 全自动自动标定:通过先进的神经元网络算法,对现实世界中大量的人、车、船样本库(高达20多万个不同观察角度/侧面的目标样本)进行学习,自适应智能视频分析算法能够自动标定3D镜头景深,完全省却传统智能视频分析中的人工标定环节,避免最耗时、最影响识别性能的环节。
同时,配合全分布式录像存储架构,智能视频分析就能够真正担当起智能报警管理的工作。视频码流、帧速率、分辨率可随着情势变化动态调整,板载高质量录像,回传低码流,可快速、方便的构建有加有效的监控系统。更重要的是,分布式录像存储架构+智能视频的组合能够真正帮助工程商和业主获得最佳的工程实践和投资回报:完全消除了网络带宽瓶颈、服务器处理能力瓶颈、录像存储瓶颈的同时,获得最佳的情势感知能力。
高清智能视频分析
HD高清技术的市场需求远远超过人们的预期,是当今安防市场最热的技术。相对于传统的D1画面,HD高清摄像机能够给用户带来6倍的像素细节,用户可以安装更少的点位,其成本优势和技术优势是毋庸置疑的。[nextpage]
高清智能视频分析的必要性
随着项目中直接一步到位采用高清监控的趋势越来越明显,而智能视频分析却一直停留在D1标清级别,甚至大量的厂家算法还处于CIF画面级别,当然就更不要提HD高清画面级别的视频分析能力。这已经远远落后于摄像机技术的发展,严重的制约了整体监控系统的应用潜力。所以,本文在伊始提到的自适应智能视频分析算法的实现就成为了解决该问题的关键。采用自适应智能视频分析算法,在HD高清画面级别实现智能视频分析,将为用户的高清体验带来质的飞跃。不仅是识别距离、识别范围的大大扩展;更重要的是,更加详尽的目标细节和像素能够帮助用户更加快速、有效的判断现场情势,做出正确的判断、采取正确的事件响应流程。
传统算法无法有效分析高清画面
DSP/CPU的处理能力、网络带宽一直是传统智能视频分析算法的2个不可逾越的障碍。为了分析D1标清像素,需要强大的DSP/CPU处理能力,而视频编码处理也需要很大的DSP/CPU计算资源,传统智能视频分析要想做到D1标清画面级别分析,一般需要2个独立的DSP分别完成视频分析和视频编码工作,多DSP编程增加了实现难度和成本。有些采用后台CPU的智能视频分析算法,则需要良好的图像质量,而图像质量和带宽成正比,高带宽又对计算机的解码和视频分析构成压力,所以会形成恶性循环,从而导致采用后端CPU分析架构的性价比急剧下降。
· 处理器局限性:按照当前的智能视频分析算法,在处理D1标清时,就需要1路单独的DSP(720Mhz),如果画面升为HD高清,像素数增加5倍,一个嵌入式设计的智能视频分析摄像机或编码器需要6个类似的DSP才能保证全高清画面分析。6路DSP进行并行运算不仅带来编程难度和成本劣势,同时电源消耗也远远超过了PoE以太网供电的能力,这基本上否定了该系统设计。采用后台CPU实现智能视频分析,貌似解决了CPU编程问题和电源问题,但是后台分析又带来了新的挑战,如网络带宽压力;
· 网络带宽局限性:为了利用HD高清画面来实现有效视频分析,必须获得高画质的高清画面,这将推动视频码流直接跳到6Mbps以上,并且必须保证网络的可靠性,这将大大推高网络建设成本。同时,高码流解码+HD智能视频分析将使得1个CPU只能分析1到2路,整体性价比相对非常低。
自适应智能视频分析算法优势
自适应智能视频分析算法和传统分析算法采用同样的DSP处理器、同样的摄像机成像器件,但是采用了低运算消耗的创新算法来实现同样的功能和性能,包括能够在HD高清画面级别实现视频分析。
· 先进的模式识别:传统算法是对每个像素进行图像分割,从而导致计算量居高不止。自适应智能视频分析算法采用先进的目标建模模型,通过神经元算法对20多万种不同角度、不同形式的目标(人、车、船)进行学习,从而获得比传统算法的像素分割模型高得多的识别率,还大大降低了DSP的计算资源;
· 反馈学习:传统算法中DSP消耗大户除了以上提到的图像分割,再有就是前后景分离。自适应智能视频分析算法放弃了传统算法中的概率前后景分离过程,而是采用一种新型的基于反馈学习的新方法,不仅实现效果远胜传统方法,而DSP资源消耗只是传统模式的1/3;
· 100%自动标定:减少了人工标定的步骤,极大的降低了安装和维护成本算法改进的结果是,一种采用标准DSP架构的嵌入式智能高清摄像机。通过在摄像机前端实现智能视频分析,获得最佳的原始图像,将最大可能的提高识别率、降低误报率。同时不影响回传图像的码流。通过这种新型的架构,用户可以首次实现低成本的、高清级别的智能视频分析,从而充分利用高清画面带来的监控距离和覆盖范围的优势。
100%自动标定技术
在智能视频分析市场上,标定的定义是指手动定义同一个人在视场中不同的距离/位置所占据的像素高度。如果主要目的是检测车辆、船或自行车,则需要对类似目标进行同样的手动设定。[nextpage]
手动标定
一般在摄像机安装后,有一个工程师手持一个固定高度的立杆进入摄像机视场,通过在不同位置走动,在后台管理软件的工程师可以手动在标定界面上标注出立杆占据的像素高度。立杆高度和像素高度的对应比例,可以反映出物理尺寸的人体高度和像素的对应关系,从而在类似高度的目标进入防区后,触发报警。这个标定理论的前提是摄像机视场角度不会发生大的改变,现场环境如地形、树木等不会发生大的变化,摄像机在维护过程中,不会被调整方向。人工标定过程是一个很浪费时间和人力的过程,至少2个人,标定成功后还要现场人员四处走动,以确认标定是准确的,如果标定不准确,物理尺寸和像素对应出现大的误差,那么人体高度识别就会出现大的误差,从而导致误报或漏报。因为它太过于依赖高度这个参数来做目标分类,所以人工标定的系统往往无法提供有效的目标识别。
例如,如果一个人只有部分可见,如走在车辆后边,被灌木遮挡部分身体,甚至可能只有目标的头部和肩膀可见,传统算法就会认为这个目标过小,从而导致漏报,如果为了检测到目标,设定检测的目标高度范围扩大,那么就有可能导致小动物误报。另外,一旦地形发生变化,或者摄像机角度偏移,目标物体尺寸和像素对应关系发生巨变,那么根据这个透视假设所识别的目标就完全不准确了。
自适应智能分析算法的不同
自适应智能分析算法不是简单地通过目标高度来判断目标属性,而是通过目标自有特征来自动实现目标分类,从而对某一目标其在场景不同位置的像素对应关系构建透视对应关系。反过来,准确的透视关系又改进目标的识别率。所以,工程商和用户可以直接安装智能摄像机,而无需考虑人工标定过程。摄像机安装当天,系统就开始自动学习背景和场景中的目标,从而实现自动标定。即便用户日后调整摄像机角度或地形发生变化,系统都会自动重新学习、自动再次标定。这大大降低了劳动强度和运作成本。
分布式存储 一体化架构
如何实现存储系统的可伸缩性一直是所有标书中所要求的,也是很多技术人员所讨论的核心之一,但是往往实现的不够完美。分布式存储近年来进入人们的视野,并逐步为用户所接受,主要在于其良好的可扩展性、简单、有效。
架构优势
现代网络设备的设计初衷是少对多的数据流分发模式,比如一台服务器由多台客户机访问。而且往往是数据突发的访问,并不是长期高带宽传输。而对于视频或大数据量的应用,有组播分发协议,从而控制整体数据流量。
而网络监控系统正好相反,是多对少的数据流集中模式,多个摄像机将数据传送到几台服务器,网络瓶颈和系统可靠性就成了系统设计关键。通过将录像存储和智能视频分析分布在各个摄像机前端,用户就可以智能的浏览各个摄像机的视频,而不会对网络产生过高的压力,对于网络可靠性的要求就会大大降低。
同时,采用分布式存储设计,不仅大大降低了以上提到的网络瓶颈和平台软件系统的可靠性要求,而且也大大降低了集中存储的可靠性要求。
一体化架构设计
实验室和实际环境测试表明,分布式录像存储架构可以降低90%的网络带宽,传统的集中式存储所要求的高可靠性网络需求和复杂的服务器、IPSAN存储系统,将不再成为设计的中心。另外,由于智能视频分析直接位于前端,可以根据不同规则进行不同码流的录像和回传,更加有效的、主动实现管理带宽。 如当有人或车辆违反规则时,前端摄像机进行1080P@30fps高清录像,保证事件调查时具有最好的图像,同时回传低码流的视频给后台软件。这样的系统设计可以保证网络和计算机资源的有效、合理分配,从安装1台摄像机到N台,完全的线性增长。
自适应智能视频分析迈向主流
自适应智能视频分析技术解决了智能高清监控技术的两大难题:识别率和成本。通过革命性的方法,将成像、录像、识别融为一体,从而应对最复杂的安防需求。完全的自动标定,真正将智能视频分析技术演进为即插即用的设备。
所以我们能够预见到,在不远的将来,高清智能视频分析将快速进入主流市场,而一体化设计的智能高清摄像机,也将快速进入工程商和用户的视野。