这是在视频压缩技术基础研究方面的一次大胆尝试,研究人员冲破了对MPEG优化的主流思路的束缚,另辟蹊径,在二值动态视频压缩这个至今尚无人涉足的领域取得突破性进展,并做了一个实用程序供爱好者免费下载。
国庆中秋双节过后的一个阳光明媚的下午,记者如约来到位于西格玛大厦的微软中国研究院。刚从加拿大渥太华参加完2001年ACM多媒体年会的研究员李江博士递给记者一台康柏公司的掌上电脑iPAQ,让助手--助理研究员余可曼在PC机上启动了一个叫做"Microsoft Portrait"的程序,与掌上电脑版本的程序呼叫连通以后,助手的影像已经通过PC机的摄像头出现在掌上电脑的屏幕上:看上去象用黑色铅笔绘出的素描画,脸部的轮廓、表情清晰可见,连扬眉时出现的抬头纹都能显现,移动时也没有明显的滞后感。李江博士把此时无线带宽的统计数据显示给记者看:9.6Kbps!?
由于众所周知的带宽和计算能力的原因,记者只知道,目前在掌上电脑上只有能播放已加工好的视频的工具软件MediaPlayer,而对实时性要求极高的可视通讯系统至今还没有出现,这难道是掌上电脑版的NetMeeting吗?
看到记者一脸惊讶的表情,李江博士把我引到他的办公室,开始为我揭开其中的奥秘。
目前,有线网络和无线网络的迅猛发展给人们的通讯提供了极大的便利。但是,由于绝大部分无线网络仍处于低带宽状况,加之许多移动设备处理能力较弱,电池寿命较短,显示能力也非常有限,这大大制约了人们随时随地在任何设备上进行可视通讯的理想的实现。
李江博士从技术角度进一步分析道:目前,静态图像最好的压缩技术是JPEG。动态视频最成熟的压缩技术则是MPEG和H.263。但是,基于DCT变换的MPEG和H.263技术总是优先保护代表基本颜色信息的低频分量。当带宽下降到一定程度后,由这些技术生成的视频会出现运动不连贯和影像模糊甚至马赛克现象。显然,MPEG和H.263技术在现有低带宽无线网络中显得无用武之地。如何解决这一难题呢?只能期待宽带状况的改善吗?
李江博士通过实验发现:在可视通讯中,脸部表情的轮廓信息远比整个脸部的基本颜色信息来得重要。一个大胆的设想产生了,其核心思想是:当带宽有限,鱼和熊掌不能兼得时,优先保证传输场景的轮廓信息,而不是如传统的基于DCT的压缩方法那样优先保证传输场景的基本颜色信息。
如何表示场景的轮廓信息呢?李江博士想到了借鉴二值图像的压缩技术:JBIG。JBIG是Joint Bi-level Image experts Group的缩写,是二值图像压缩的国际标准。二值图像的每一个像素只用一位表示。JBIG技术已相当完善,并且被广泛应用于传真、印刷等领域。但是JBIG只考虑单幅二值图象压缩,没有考虑动态二值视频帧间的相关性。用JBIG直接做二值动态视频的压缩,数据量仍然很大。由于MPEG和H.263是目前最好的视频压缩技术,二值动态视频压缩的研究领域至今尚无人涉足。它可以达到我们想要的效果吗?
李江博士带领几个员工和学生,经过一年多的努力,通过分析相邻帧图像之间的时间相关性及场景表示的灵活性,使二值视频压缩算法达到了非常高的压缩率。由于以前没人涉足这个领域,他们为与JBIG对称,姑且称之为MBIG。基于二值视频技术,他们又开发出一套肖像视频电话系统,取名为"Microsoft Portrait"。实验表明,在低带宽下,二值视频提供了比MPEG和H.263编码更清晰的形状、更光滑的运动、更短的初始延时和更少的计算量(当然它没有彩色)。它可在9.6Kbps带宽下,提供每秒5-15帧QCIF(176*144)大小的视频,甚至可以通过HTTP代理传输。
今年8月份,李江博士把"Microsoft Portrait"放在互联网上。两个多月来,该软件已经被世界各国的爱好者下载了三万多次。世界各地的许多网站竞相介绍"Microsoft Portrait"。今日美国(USAToday)报道时称"微软肖像实现无线视频"。
李江博士介绍道:目前我们广泛使用的GSM带宽为9.6Kbps,今后,2.5代GPRS带宽大约几百Kbps,3G在几兆左右。但是,带宽和数据之间的关系就象公路和汽车一样,永远是一对难以消除的矛盾。这就是我们仍需研究甚低带宽下视频压缩技术的原因所在。
谈到它的应用价值,读者的想象力一定比我丰富。试想,如果一名医护人员,拿着掌上电脑就能随时观察到所监护病人的情况;在花园除草,低头就可以看到室内摇篮里小宝宝的笑容;一对恋人或者好朋友,用掌上电脑通话时还能够清晰地看到对方的音容笑貌!这不是梦想,到网上下载一个"Microsoft Portrait"软件,一分钟就能实现!更重要的是,它是完全免费的!为什么去不试一试呢? (http://research.microsoft.com/~jiangli/portrait/ )