|
|
在不丢失信息且失真容许的范围内,利用改变取样率、预测编码、变换编码等方法使表示信号所需的数据量大幅度减少的过程。在传送和存储中,可减少存储空间和通信媒体的带宽,增加传输速度,缩短传输时间,提高保密性和降低造价。 |
|
数据压缩是通过减少计算机中所存储数据或者通信传播中数据的冗余度,达到增大数据密度,最终使数据的存储空间减少的技术。
数据压缩在文件存储和分布式系统领域有着十分广泛的应用。数据压缩也代表着尺寸媒介容量的增大和网络带宽的扩展。
数据压缩就是将字符串的一种表示方式转换为另一种表示方式,新的表示方式包含相同的信息量,但是长度比原来的方式尽可能的短。
1. 数据压缩与编码
数据压缩跟编码技术联系紧密,压缩的实质就是根据数据的内在联系将数据从一种编码映射为另一种编码。压缩前的数据要被划分为一个一个的基本单元。基本单元既可以是单个字符,也可以是多个字符组成的字符串。称这些基本单元为源消息,所有的源消息构成源消息集。源消息集映射的结果为码字集。可见,压缩前的数据是源消息序列,压缩后的数据是码字序列。
若定义块为固定长度的字符或字符串,可变长为长度可变的字符或字符串,则编码可分为块到块编码、块到可变长编码、可变长到块编码、可变长到可变长编码等。应用最广泛的ascii编码就是块到块编码。
2. 数据压缩的分类
数据压缩按照映射是否固定可分为静态数据压缩和动态数据压缩。静态数据压缩是指压缩前源消息集到码字集之间的映射是固定的,出现在被压缩数据中的源消息每次都被映射为同一码字。动态数据压缩是指源消息集到码字集的映射会随着压缩进度的变化而变化。静态压缩编码需要两步,先计算出源消息出现的频率,确定源消息到码字之间的映射;然后完成映射。动态数据压缩则只需一步就能完成,它在压缩过程中只对源消息集扫描一次。有些数据压缩算法是混合型的,综合应用了静态数据压缩和动态数据压缩技术。
3. 评价数据压缩的标准
从实际应用来说,数据压缩可从两方面来衡量:数据压缩速度和数据压缩率。当数据压缩应用于网络传输时,主要考虑速度快慢;当数据压缩应用于数据存储中,主要考虑压缩率,即压缩后数据的大小。当然这两方面是相辅相成的。
常用的评价标准有冗余度、平均源信息长度、压缩率等。对于一种编码方式是否为较好的编码,主要看该编码的冗余度是否最小。
4. 常见的数据压缩工具
现在操作简单,使用方便,功能强大的数据压缩工具有很多。最常见的是winzip和winrar。
数据压缩通过减少数据的冗余度来减少数据在存储介质上的存储空间,而数据备份则通过增加数据的冗余度来达到保护数据安全的目的。两者在实际应用中常常结合起来使用。通常将要备份的数据进行压缩处理,然后将压缩后的数据用备份进行保护。当需要恢复数据时,先将备份数据恢复,再解压缩。
由于计算机中的数据十分宝贵又比较脆弱,数据备份无论对国家、企业和个人来说都非常重要。数据备份能在较短的时间内用很小的代价,将有价值的数据存放到与初始创建的存储位置相异的地方;当数据被破坏时,用较短的时间和较小的花费将数据全部恢复或部分恢复。
1. 对备份系统的要求
不同的应用环境有不同的备份需求,一般来说,备份系统应该有以下特性。
☆ 稳定性:备份系统本身要很稳定和可靠。
☆ 兼容性:备份系统要能支持各种操作系统、数据库和典型应用软件。
☆ 自动化:备份系统要有自动备份功能,并且要有日志记录。
☆ 高性能:备份的效率要高,速度要尽可能的快。
☆ 操作简单:以适应不同层次的工作人员的要求,减轻工作人员负担。
☆ 实时性:对于某些不能停机备份的数据,要可以实时备份,以确保数据正确。
☆ 容错性:若有可能,最好有多个备份,确保数据安全可靠。
2. 数据备份的种类
数据备份按所备份数据的特点可分为完全备份、增量备份和系统备份。
完全备份是指对指定位置的所有数据都备份,它占用较大的空间,备份过程的时间也较长。增量备份是指数据有变化时对变化的部分进行备份,它占用空间小,时间短。完全备份一般在系统第一次使用时进行,而增量备份则经常进行。系统备份是指对整个系统进行备份。它一般定期进行,占用空间较大,时间较长。
3. 数据备份的常用方法
数据备份根据使用的存储介质种类可分为软盘备份、磁带备份、光盘备份、优盘备份、移动硬盘备份、本机多个硬盘备份和网络备份。用户可以根据数据大小和存储介质的大小是否匹配进行选择。
数据备份是被动的保护数据的方法,用户应根据不同的应用环境来选择备份系统、备份设备和备份策略。 |
|
对于任何形式的通信来说,只有当信息的发送方和接受方都能够理解编码机制的时候压缩数据通信才能够工作。例如,只有当接受方知道这篇文章需要用英语字符解释的时候这篇文章才有意义。同样,只有当接受方知道编码方法的时候他才能够理解压缩数据。一些压缩算法利用了这个特性,在压缩过程中对数据进行加密,例如利用密码加密,以保证只有得到授权的一方才能正确地得到数据。
数据压缩能够实现是因为多数现实世界的数据都有统计冗余。例如,字母“e”在英语中比字母“z”更加常用,字母“q”后面是“z”的可能性非常小。无损压缩算法通常利用了统计冗余,这样就能更加简练地、但仍然是完整地表示发送方的数据。
如果允许一定程度的保真度损失,那么还可以实现进一步的压缩。例如,人们看图画或者电视画面的时候可能并不会注意到一些细节并不完善。同样,两个音频录音采样序列可能听起来一样,但实际上并不完全一样。有损压缩算法在带来微小差别的情况下使用较少的位数表示图像、视频或者音频。
由于可以帮助减少如硬盘空间与连接带宽这样的昂贵资源的消耗,所以压缩非常重要,然而压缩需要消耗信息处理资源,这也可能是费用昂贵的。所以数据压缩机制的设计需要在压缩能力、失真度、所需计算资源以及其它需要考虑的不同因素之间进行折衷。
一些机制是可逆的,这样就可以恢复原始的数据,这种机制称为无损数据压缩;另外一些机制为了实现更高的压缩率允许一定程度的数据损失,这种机制称为有损数据压缩。
然而,经常有一些文件不能被无损数据压缩算法压缩,实际上对于不含可以辨别样式的数据任何压缩算法都不能压缩。试图压缩已经经过压缩的数据通常得到的结果实际上是扩展数据,试图压缩经过加密的数据通常也会得到这种结果。
实际上,有损数据压缩也会最终达到不能工作的地步。我们来举一个极端的例子,压缩算法每次去掉文件最后一个字节,那么经过这个算法不断的压缩直至文件变空,压缩算法将不能继续工作。 |
|
事实上,多媒体信息存在许多数据冗余。例如,一幅图像中的静止建筑背景、蓝天和绿地,其中许多像素是相同的如果逐点存储,就会浪费许多空间,这称为空间冗余。又如,在电视和动画的相邻序列中,只有运动物体有少许变化,仅存储差异部分即可,这称为时间冗余。此外还有结构冗余、视觉冗余等,这就为数据压缩提供了件。
总之,压缩的理论基础是信息论。从信息的角度来看,压缩就是去除掉信息中的冗余,即去除掉确定的或可推知的信息,而保留不确定的信息,也就是用一种更接近信息本质的描述来代替原有的冗余的描述,这个本质的东西就是信息量。 |
|
一种非常简单的压缩方法是行程长度编码,这种方法使用数据及数据长度这样简单的编码代替同样的连续数据,这是无损数据压缩的一个实例。这种方法经常用于办公计算机以更好地利用磁盘空间、或者更好地利用计算机网络中的带宽。对于电子表格、文本、可执行文件等这样的符号数据来说,无损是一个非常关键的要求,因为除了一些有限的情况,大多数情况下即使是一个数据位的变化都是无法接受的。
对于视频和音频数据,只要不损失数据的重要部分一定程度的质量下降是可以接受的。通过利用人类感知系统的局限,能够大幅度得节约存储空间并且得到的结果质量与原始数据质量相比并没有明显的差别。这些有损数据压缩方法通常需要在压缩速度、压缩数据大小以及质量损失这三者之间进行折衷。
有损图像压缩用于数码相机中,大幅度地提高了存储能力,同时图像质量几乎没有降低。用于DVD的有损MPEG-2编解码视频压缩也实现了类似的功能。
在有损音频压缩中,心理声学的方法用来去除信号中听不见或者很难听见的成分。人类语音的压缩经常使用更加专业的技术,因此人们有时也将“语音压缩”或者“语音编码”作为一个独立的研究领域与“音频压缩”区分开来。不同的音频和语音压缩标准都属于音频编解码范畴。例如语音压缩用于因特网电话,而音频压缩被用于CD翻录并且使用 MP3 播放器解码。 |
|
压缩的理论基础是信息论(它与算法信息论密切相关)以及率失真理论,这个领域的研究工作主要是由 Claude Shannon 奠定的,他在二十世纪四十年代末期及五十年代早期发表了这方面的基础性的论文。Doyle 和 Carlson 在2000年写道数据压缩“有所有的工程领域最简单、最优美的设计理论之一”。密码学与编码理论也是密切相关的学科,数据压缩的思想与统计推断也有很深的渊源。
许多无损数据压缩系统都可以看作是四步模型,有损数据压缩系统通常包含更多的步骤,例如它包括预测、频率变换以及量化。
Lempel-Ziv(LZ)压缩方法是最流行的无损存储算法之一。DEFLATE是 LZ 的一个变体,它针对解压速度与压缩率进行了优化,虽然它的压缩速度可能非常缓慢,PKZIP、gzip 以及 PNG 都在使用 DEFLATE。LZW (Lempel-Ziv-Welch)是 Unisys 的专利,直到2003年6月专利到期限,这种方法用于 GIF 图像。另外值得一提的是 LZR (LZ-Renau) 方法,它是 Zip 方法的基础。LZ 方法使用基于表格的压缩模型,其中表格中的条目用重复的数据串替换。对于大多数的 LZ 方法来说,这个表格是从最初的输入数据动态生成的。这个表格经常采用霍夫曼编码维护(例如,SHRI、LZX)。 目前一个性能良好基于 LZ 的编码机制是 LZX,它用于微软公司的 CAB 格式。
最好的压缩工具将概率模型预测结果用于算术编码。算术编码由 Jorma Rissanen 发明,并且由 Witten、Neal 以及 Cleary 将它转变成一个实用的方法。这种方法能够实现比众人皆知的哈夫曼算法更好的压缩,并且它本身非常适合于自适应数据压缩,自适应数据压缩的预测与上下文密切相关。算术编码已经用于二值图像压缩标准 JBIG、文档压缩标准 DejaVu。文本 输入 系统 Dasher 是一个逆算术编码器。 |
|
shuju yasuo
数据压缩
data compression
见信息处理。
|
|
- : data compression, data compaction
|
|
计算机 | 图像 | 百科辞典 | 多媒体技术 | 百科大全 | 技术 | 软件 | 多媒体 | 国际标准 | 计算机技术 | 编码 | 信息论 | 浏览器 | opera | 数据传输 | 数据传输模式 | |
|
|
透明数据压缩 | 数据压缩导论 | 无损数据压缩 | 有损数据压缩 | 数据压缩技术 | 栅格数据压缩 | 数据压缩算法 | 语音数据压缩 | 数据压缩解压 | 分块数据压缩 | 空间数据压缩 | 栅格数据压缩编码 | 资料压缩数据压缩 | 数据压缩技术及应用 | 多媒体数据压缩技术 | |
|