【技术文章】

MPEG-4标准与应用
王刚
本文作者王刚先生,上海文化广播影视管理局技术中心电视制作部工程师。
MPEG简介
  运动图像专家组(MPEG)是国际标准组织(ISO)和国际电工委员会(IEC)下属专门制定运动图像及其相关音频与数据的编码标准的机构,成立于1988年。它每年在世界各主要城市举行几次为期一周的全体大会,对有关的编码算法和标准的制定进行讨论。MPEG曾经于2000年7月在北京举行了第53次会议,并将于2002年10月在上海举行第62次会议。
  MPEG已制定的编码标准包括:MPEG-1,主要用于数字存储媒体如VCD等;MPEG-2,主要用于数字电视和DVD等。目前正在制定的标准有MPEG-4、MPEG-7和MPEG-21。MPEG-4是MPEG继成功推出MPEG-1和MPEG-2后制定的新一代压缩编码国际标准。MPEG-7的全称是“多媒体内容描述接口”,是一种基于内容的多媒体节目与素材的存储与搜索标准。MPEG-21则试图定义一种新的通用多媒体通信框架体系。
  MPEG-4的基本特点与以前的压缩编码方法的主要不同之处在于,MPEG-4编码过程中不再把图像仅仅看作由象素的规则排列组成,而看作由分层的媒体对象组成。有关媒体对象(包括图像和声音)的编码、组合、描述、复用、传输、交互和相关辅助信息,是MPEG-4压缩编码的主要内容。
  MPEG-4编码的基本方法是,将一个由视频和音频信号组合成的场景分拆为许多基本的构成单元,称为“媒体对象”(Media Object),它们各自处于不同的层上,相对独立,可以分别对各个媒体对象进行编码,根据具体情况采用不同的编码工具和编码手段,因而可实现大码率压缩和交互功能。
  MPEG-4的这种编码方式带来两大好处:一是可以实现前所未有的高码率压缩;二是容易实现多媒体交互式操作。MPEG-4把由摄像机和话筒获得的图像与声音称作自然图像与声音,由计算机产生的则称作人工合成的图像与声音。它允许对自然图像与声音同合成的图像与声音混合编码,以组成一幅多媒体音像。这种特性与MPEG-4的其它编码特性结合起来,使之具有前所未有的压缩编码效率和多媒体交互能力,为未来的通信与广播开辟了广阔的前景。
为什么会有MPEG-4
  MPEG-1和MPEG-2虽然在各自的应用领域取得了极大的成功,但它们所能达到的最低码率和多媒体交互能力都很有限。MPEG-4标准的产生正是源于对更低码率和实现多媒体交互能力的需求,这种需要是与20世纪80、90年代网络的迅速发展密切相关的,也是与在电话线上传输视频图像以实现电视电话业务的研究密切相关的。
  MPEG专家组注意到网络业务和电视电话业务对新的编码标准的需求,在1993年7月于纽约举行的MPEG第23次大会上,正式决定开发一种“极低码率的音视频编码标准”,按MPEG的标准序列命名为MPEG-4。在以后的研究过程中,MPEG-4特有的基于内容的编码方式表现出极高的压缩效率和多媒体交互能力,其应用远远超出了窄带网上的低码率业务,扩展到数字电视、计算机图形和网络多媒体等方面。
MPEG-4标准的发展历程
  1993年7月,在纽约举行的MPEG第23次大会一致同意开始MPEG-4的研究;同年10月,在布鲁塞尔举行的MPEG第24次大会上,正式开始了制定MPEG-4标准的有关工作。1998年10月,MPEG在美国大西洋城举行的第45次大会上,通过了MPEG-4标准的第1版,它定义了构成MPEG-4标准基础的基本算法、语法及相关规定。1999年初,第一版被ISO正式命名为ISO/IEC 14496。2000年,MPEG-4标准的第2版获得通过,它在完全兼容第一版的基础上增加了一些新的编码工具、工具子集和语法。目前,MPEG-4标准的后续版本尚在制定中。
MPEG-4标准的构成
MPEG-4标准文件由以下八个部分组成:
  (1)系统。MPEG-4视像编码工具和音频编码工具分别能产生原始的图像与音频基本码流,MPEG-4的系统部分是从系统的层面定义如何处理这些基本码流,包括:码流的描述、同步、复用和传输;对解码器工作的预测和解码端缓存器的管理;对节目中由各种独立的多媒体“对像”单元组合而成的场景的描述;实现多媒体交互的方法;对知识产权的保护与管理等。此外,还定义了其他一些涉及整体的语法,如用于存储MPEG-4内容的文件格式、利用Java语言实现对MPEG-4相关功能的支持等。
  (2)视像(Visual)。图形图像的编码表示,基于图像内容的编码算法、语法和工具。
  (3)音频(Audio)。音频的编码表示。基于音频内容的编码算法、语法和工具。
  (4)符合性测试(Conformance Testing)。测试MPEG-4算法和语法规定的实际表现并定义相关的测试标准、方案和设备;通过对测试结果的研究,评估MPEG-4有关算法和语法的有效性和可行性。
  (5)技术报告(Technical Report)。MPEG-4技术有关的理论研究与实验结果的报告。
  (6)传输多媒体集成框架(Delivery Multimedia Integration Framework, DMIF)。利用MPEG-4码流可以进行网络远程交互、多媒体广播或对本地硬盘进行存取。这些都涉及对MPEG-4码流进行调用和传输。MPEG-4标准专门为此定义了一套方法——DMIF。它类似于文件传输协议(FTP)的通信协议,可以像从网上寻找和下载文件一样寻找和获得特定内容的MPEG-4码流。与此同时,DMIF还定义了一个通用的系统框架结构,使MPEG-4码流能在此框架结构中借助多种传输手段(远程网、广播、本地硬盘)实现指定内容的调用与传输。
  (7)用于MPEG-4工具的优化软件(Optimized Software for MPEG-4 Tools)。描述用于实现MPEG-4技术的相关软件。
  (8)基于IP框架(Based on IP Framework)。将MPEG-4技术无缝地运用于IP协议框架中。
  其中,系统、视像、音频和DMIF四个部分定义了图像和音频码流的产生、描述、复用和传输,是整个标准的基础和核心。
对知识产权的保护
  MPEG-4是把图像(或声音)按构成内容分拆后分别进行编码的,向接收端发送的不是“整机”而是一个个“零件”,接收端则把收到的“零件”按特定需要重新组装成“整机”。而把“零件”从“整机”中拆卸下来挪作它用也很方便。这就带来了有关知识产权的问题。
  MPEG与来自各行业的代表共同研究了支持识别知识产权的语法与工具。确定知识产权的方法是在素材单元的码流中储存特定的标记符。标记符由国际编号系统发放。这些号码可以用于识别一个素材单元(媒体对像)的现有产权者。标记符跟随各可分拆的素材单元走,相当于贴上了一张撕不去的数字标签。
MPEG-4标准的应用
  MPEG-4的特点是具有基于内容的编码、高效率的压缩和多媒体交互功能,这使得它将在未来的信息业务中得到广泛的应用,并将对未来社会信息框架的形成产生影响。
电视电话
  传统用于窄带电视电话业务的压缩编码标准,如H261,采用帧内压缩、帧间压缩、减少象素和抽帧等办法来降低码率,但编码效率和图像质量都难以令人满意。MPEG-4的压缩编码可以做到以极低码率传送质量可以接受的声像信号,使电视电话业务可以在窄带的公用电话网上实现。
移动音视频通信
  MPEG-4高效的码率压缩、交互和分级特性尤其适合在窄带移动网上实现多媒体通信,未来的手机将变成多媒体移动接收机,不仅可以打移动电视电话、移动上网,还可以移动接收多媒体广播和收看电视。
计算机图形、动画与仿真
  MPEG-4特殊的编码方式和强大的交互能力,使得基于MPEG-4的计算机图形和动画可以从各种来源的多媒体数据库中获取素材,并实时组合出所需要的结果。因而,未来的计算机图形可以在MPEG-4语法所允许的范围内向所希望的方向无限发展,产生出今天无法想象的动画及仿真效果。
电子游戏
  MPEG-4可进行自然图像与声音同人工合成的图像与声音的混合编码,在编码方式上具有前所未有的灵活性,并且能及时从各种来源的多媒体数据库中调用素材。这可以在将来产生象电影一样的电子游戏,实现极高自由度的交互式操作。
交互式多媒体网络
  MPEG-4最精彩的应用将在网上。由卫星和线缆组成的宽带网,由MPEG-4及其他有关标准构成的多媒体信息的产生、处理、传输、接收、再现、交互和存储手段,随着数字技术的不断发展,将创造出更加丰富而精彩的网上世界。
  来源:《世界广播电视》