在现实生活中,我们经常可以看到普通手机拍摄的图像质量会优于多数公共部门的视频监控系统,这是为什么呢?本文从提出问题,到提供解决方案,论述了视频监控摄像系统的清晰度问题,供读者参考。
目前普遍从CCTV模拟视频系统中截取并放大用于识辨恐怖分子的图像非常不清晰,质量远远不如只有基本配置的、最简单的数码摄像机所提供的图像。在2006年德国举办世界杯足球赛期间,几乎所有球场都还在使用这些已经过时的模拟视频监控摄像机来提供安保。只有凯彻斯劳滕赛场采用了目前为止最先进的、高分辨率的数字视频监控系统。
只要把这两种系统提供的图像作一个简单比较,就能发现图像清晰度的差异有多大:即使一个最简单的数码照相机所存储的图像也能达到大约300万像素,而“传统”的视频技术所提供的像素只是它的1/30,即101000像素或0.1百万像素。如今有哪位即使是最新手的业余摄影爱好者还会购买如此低分辨率的模拟摄像机?尽管如此,这种系统直到现在仍然在95%的公共安防系统中被普遍使用。
症结所在
这些用于公共安防的图像质量之所以低劣,原因并不如人们所想像的那样,是因为受到当今技术水平的限制,而是因为人们人为地选用50年前的电视技术标准来部署系统。这种系统所提供的实时图像最高不会超过40万像素。再由于技术和成本的制约,这些系统的图像在存储时像素被进一步降低到1/4,即只有10万像素。这样一来,把图像局部放大用以识别罪犯面部特征就几乎不可能了。
不管是哪个厂家生产的,模拟视频摄像机能提供的最高分辨率是40万像素。既然如此,为什么我们不以40万像素的分辨率保存原始图像,而只有10万像素呢?虽然也有一些录像机可以按40万像素的分辨率保存图像,但这些设备成本太高,且清晰度也不足以用于人脸识别。这也归结于早已过时的电视技术标准——视频流以“半帧”传输。恰如其名,清晰度也只有一半。由这样隔行扫描生成的两个半帧组合起来的图像必然会导致快速移动物体的图像产生边缘模糊,也即梳状失真,而移动物体恰恰是安防监控所要重点关注的对象。
CIF格式图像的10万像素是怎样计算而来的?模拟视频摄像机提供的图像有576线,即纵向有576行。它由两个半帧组成。每个半帧为288线,隔行显示。这两个半帧被相继摄录后逐帧传输。由于技术和成本的限制,目前95%的系统只对一个半帧进行数字化处理并存储。为了使宽高比适中,288线中的每一行被分成352个水平像素。这样就生成了一个具有352×288=101000像素(相当于10万像素)的CIF格式图像。
[nextpage]
问题频出
那么使用2CIF或4CIF格式是否能使图像更清晰呢?答案是:2CIF或4CIF格式虽然成倍地增加了像素,但并不能有效地提高图像的清晰度。2CIF格式的图像纵向也只有288线,但每行的水平像素却翻了一倍,即704个水平像素。因此,图像像素大约为20万像素。虽然每一行的像素增加了,但由于整幅图像中每隔一行即被忽视,因此,仍然丢失了大量重要信息。所以,我们看到的图像恰如其名只是半帧或半图。
4CIF格式的图像由两个时间上连续的隔行扫描半图像拼合而成,这种格式的实际像素达到704×576=40万,但由于两个半帧是在不同瞬间生成的,所以行与行之间会发生错位(如图1所示)。这样会导致所谓的梳状失真,这就是4CIF格式很难在实际系统中得到应用的原因。即使在德国世界杯足球赛这样的重要场合,也只存储CIF或2CIF半帧图像。
现有的视频技术还存在一个问题,那就是回放或存储图像时刷新率(帧频)很低。同样由于技术和成本的原因,95%的现有系统不会超过每秒1到3帧的帧频范围。由于“快照”的刷新率太低,所以罪犯面对摄像机的瞬间很难碰巧有图像被拍摄下来,即很难找到可用于面部识别的图像。
帧频之所以这样低,是因为一个视频存储设备(通常是一台带视频管理软件的计算机)要负责对多台摄像机摄录的视频进行数字化和存储。一台计算机的计算能力一般只够两台模拟摄像机之用,因此当需要存储的摄像机超过两台时,帧频就必须相应降低。由于计算机有限的处理能力,所以MPEG-4视频格式也不适于摄录高分辨率视频——计算机的处理能力是绝对无法应对多台摄像机的。
为何不使用分辨率更高的摄像机?为什么传统摄像机生产商不在他们的摄像机中使用分辨率更高的图像传感器?答案很简单,但不令人愉快:这些系统所依托的技术标准已经有五十年的历史了,让传统的视频传输线缆处理高分辨率的图像,从技术角度讲是根本不可能的。这个过时的标准最后导致整个视频行业技术上停止不前,经济上蒙受损失。考虑到公众利益,技术革新势在必行。
数字产品带来契机
新兴的数字技术为年轻创新型企业带来了契机。他们开发了功能极高的微型计算机和相应软件,并将它们嵌入摄像机内。通过在高分辨率摄像机中集成多种智能,诸如视频处理﹑动态侦测和视频数据的存储管理等任务都可以由这个微型计算机系统独立完成。视频控制中心的计算机可得到大幅减荷。
图2便是一个令人信服的证据,它比较了某摄像机所存储的960线、130万像素和一个288线、10万像素图像的用于辨认车牌的局部放大图像的效果。
现代网络摄像机技术的一大优势是,用户可以随时随地通过网络远程管理所有摄像机的设置,并在摄像机摄录存储图像的同时,远程调取实时图像和存储在摄像机内部的历史图像。当然这些摄像机应连接在已有的公司局域网上,或通过防火墙安全连接于因特网中。这样,如果在火车站、机场等公共场所发生意外或有可疑情况,就可以立即通过网络将图像调取到控制中心来进行分析,而不必派遣人员到现场,也不必中止存储记录和实时监控。如果有新开发的或升级版的软件,可以通过网络方便地加载到摄像机中。
近年来,高分辨率智能网络摄像机得到越来越广泛的应用。人们不仅能在美国的大使馆、英国的机场、日本的水库大坝或以色列的邮政大楼中看到这种摄像机,也可在沙特阿拉伯的输油管道和麦加的停车场旁找到它们的身影。
2004年,Bosch公司为德国的第一家监狱(JVA)安装了多台此类摄像机。2006年在德国凯彻斯劳滕足球场安装了77台该厂家提供的摄像机。德国铁路公司已在许多火车站和铁路路段使用了该类产品。其应用极为广泛,有用于保障旅客安全的,有用于准确播报火车进出站时刻的,等等。
经过对系统总体成本的核算,可以发现,新兴的摄像机技术实际上比目前的标准视频技术更节省成本。通过使用960线(而不是传统的288线),该类摄像机中存储的图像清晰度要比一般系统的图像高12倍,这意味着,对于同样的监视面积,所需的摄像机用量更少。例如,一台这种摄像机可以监视体育场馆的多个转动式检票口。通过使用标准的90度广角镜头,仅用一台摄像机就能完成对整个房间的监控,而且清晰度比一般的系统更高。
[nextpage]
随着IT标准在全世界范围内的实施,价廉物美的标准连接元件可方便地用于摄像机连接:铜线、光纤或WLAN无线连接。由于该类摄像机不需加热保温防雾,所以可终年通过网线供电,而不需专门敷设电源。这就是为什么在凯彻斯劳滕的世界杯足球场安装的77台摄像机仅靠500W的中心稳压电源就能正常运转的原因。该类摄像机厂商开发的新型存储技术只需极少的存储计算机就能实现高清流畅视频流的存储。摄像机中的内部缓存可桥接数分钟的网络故障,避免信息遗失。系统能根据移动侦测的结果自动调整帧频,这更进一步节省了存储空间。由于该类摄像机避免使用机械活动部件和自动光圈镜头,整个系统的维护需求低,性能可靠。
将288线的CIF图像和960线的该类摄像机图像做个比较,两者在质量和清晰度上的差别便一目了然(如图3所示)。百万像素图像的清晰度要比CIF图像高12倍,因此,仅占图像面积1/40的面部仍能清晰可辨。如果再进行适当处理,图像质量还可以进一步提高。与之形成鲜明对比的是,从CIF图像中提取的图像不可辨识,因此没有使用价值。
与该类摄像机不同,市面上大多数所谓的数字IP摄像机(网络摄像机)在原理上使用的仍是陈旧的模拟技术,它只是通过计算机网络传输经数字化处理后的图像。它们的构造是,以模拟摄像部件采集图像模拟信号,再把模拟信号数字化。分辨率还是与以前没有两样。这真是难以置信,但事实上,大多数的IP系统还是处于这种只存储CIF、半帧的状态。
新型摄像机采用的分布型存储技术,使一台计算机就能同时记录约40路流畅的高分辨率视频流,这相当于旧技术中的4800帧/秒CIF图像。可是常用的集中存储型视频系统中,由于计算机的计算速度和处理能力有限,摄像机的许多高分辨率图像无法得以完整存储,其整体帧频往往不会超过100-200帧/秒的CIF图像。
[nextpage]
该类摄像机可采用价廉物美的标准IT存储设备来存储视频。一个容量为1.4TB的安全防故障磁盘阵列存储器(RAID),其存储空间足够让一台昼夜不间断运行的摄像机以全帧频记录百万像素高清视频附音频长达两个月,或者让10台摄像机连续记录六天。如果再由事件驱动自动调整记录帧频,那么摄录时间还可成倍增加。
虽然MPEG-4视频压缩编解码目前被广泛应用,但它需要消耗计算机大量的运算能力,从而妨碍了高分辨率摄像机的应用和普及。视频标准MPEG-4只适用于单一视频流(例如电影)的压缩和回放,而不适于同时实时显示多台摄像机的高分辨率视频流。用MPEG-4编解码存储的移动对象图像分辨率和质量都较低,只是由于人眼不能捕捉移动对象的所有细节,因此在看电影的时候我们感觉不到。正是出于这种原因,MPEG-4不适用于安防监控领域,因为恰恰是移动对象在安防领域尤为重要,必须保证它们足够清晰,能够辨认。
为满足安防监控领域的需要,该类摄像机厂商开发了视频编解码MxPEG,它只需要大约2Mbit/s的数据传输速率就可显示和存储流畅的高分辨率视频流,反应时间也比MPEG-4短得多。MxPEG标准正被越来越多的世界各地摄像机生产商和软件开发商采用和支持。整套编解码不需要购买许可证,人人可以免费使用。