数据压缩

技術 : 電子學 : 物理學類 : 農學 : 地圖學 : 互聯網 : 通信工程 : 建築 > 數據壓縮

·No. 1	·No. 2	·概要
·原理	·應用	·理論
·百科辭典	·英文解釋	·相關詞
·包含詞	·更多結果...

No. 1

　　在不丟失信息且失真容許的範圍內，利用改變取樣率、預測編碼、變換編碼等方法使表示信號所需的數據量大幅度減少的過程。在傳送和存儲中，可減少存儲空間和通信媒體的帶寬，增加傳輸速度，縮短傳輸時間，提高保密性和降低造價。

No. 2

　　數據壓縮是通過減少計算機中所存儲數據或者通信傳播中數據的冗餘度，達到增大數據密度，最終使數據的存儲空間減少的技術。
　　數據壓縮在文件存儲和分佈式係統領域有着十分廣泛的應用。數據壓縮也代表着尺寸媒介容量的增大和網絡帶寬的擴展。
　　數據壓縮就是將字符串的一種表示方式轉換為另一種表示方式，新的表示方式包含相同的信息量，但是長度比原來的方式盡可能的短。
　　1. 數據壓縮與編碼
　　數據壓縮跟編碼技術聯繫緊密，壓縮的實質就是根據數據的內在聯繫將數據從一種編碼映射為另一種編碼。壓縮前的數據要被劃分為一個一個的基本單元。基本單元既可以是單個字符，也可以是多個字符組成的字符串。稱這些基本單元為源消息，所有的源消息構成源消息集。源消息集映射的結果為碼字集。可見，壓縮前的數據是源消息序列，壓縮後的數據是碼字序列。
　　若定義塊為固定長度的字符或字符串，可變長為長度可變的字符或字符串，則編碼可分為塊到塊編碼、塊到可變長編碼、可變長到塊編碼、可變長到可變長編碼等。應用最廣泛的ascii編碼就是塊到塊編碼。
　　2. 數據壓縮的分類
　　數據壓縮按照映射是否固定可分為靜態數據壓縮和動態數據壓縮。靜態數據壓縮是指壓縮前源消息集到碼字集之間的映射是固定的，出現在被壓縮數據中的源消息每次都被映射為同一碼字。動態數據壓縮是指源消息集到碼字集的映射會隨着壓縮進度的變化而變化。靜態壓縮編碼需要兩步，先計算出源消息出現的頻率，確定源消息到碼字之間的映射；然後完成映射。動態數據壓縮則衹需一步就能完成，它在壓縮過程中衹對源消息集掃描一次。有些數據壓縮算法是混合型的，綜合應用了靜態數據壓縮和動態數據壓縮技術。
　　3. 評價數據壓縮的標準
　　從實際應用來說，數據壓縮可從兩方面來衡量：數據壓縮速度和數據壓縮率。當數據壓縮應用於網絡傳輸時，主要考慮速度快慢；當數據壓縮應用於數據存儲中，主要考慮壓縮率，即壓縮後數據的大小。當然這兩方面是相輔相成的。
　　常用的評價標準有冗餘度、平均源信息長度、壓縮率等。對於一種編碼方式是否為較好的編碼，主要看該編碼的冗餘度是否最小。
　　4. 常見的數據壓縮工具
　　現在操作簡單，使用方便，功能強大的數據壓縮工具有很多。最常見的是winzip和winrar。
　　數據壓縮通過減少數據的冗餘度來減少數據在存儲介質上的存儲空間，而數據備份則通過增加數據的冗餘度來達到保護數據安全的目的。兩者在實際應用中常常結合起來使用。通常將要備份的數據進行壓縮處理，然後將壓縮後的數據用備份進行保護。當需要恢復數據時，先將備份數據恢復，再解壓縮。
　　由於計算機中的數據十分寶貴又比較脆弱，數據備份無論對國傢、企業和個人來說都非常重要。數據備份能在較短的時間內用很小的代價，將有價值的數據存放到與初始創建的存儲位置相異的地方；當數據被破壞時，用較短的時間和較小的花費將數據全部恢復或部分恢復。
　　1. 對備份係統的要求
　　不同的應用環境有不同的備份需求，一般來說，備份係統應該有以下特性。
　　　☆　穩定性：備份係統本身要很穩定和可靠。
　　　☆　兼容性：備份係統要能支持各種操作係統、數據庫和典型應用軟件。
　　　☆　自動化：備份係統要有自動備份功能，並且要有日志記錄。
　　　☆　高性能：備份的效率要高，速度要盡可能的快。
　　　☆　操作簡單：以適應不同層次的工作人員的要求，減輕工作人員負擔。
　　　☆　實時性：對於某些不能停機備份的數據，要可以實時備份，以確保數據正確。
　　　☆　容錯性：若有可能，最好有多個備份，確保數據安全可靠。
　　2. 數據備份的種類
　　數據備份按所備份數據的特點可分為完全備份、增量備份和係統備份。
　　完全備份是指對指定位置的所有數據都備份，它占用較大的空間，備份過程的時間也較長。增量備份是指數據有變化時對變化的部分進行備份，它占用空間小，時間短。完全備份一般在係統第一次使用時進行，而增量備份則經常進行。係統備份是指對整個係統進行備份。它一般定期進行，占用空間較大，時間較長。
　　3. 數據備份的常用方法
　　數據備份根據使用的存儲介質種類可分為軟盤備份、磁帶備份、光盤備份、優盤備份、移動硬盤備份、本機多個硬盤備份和網絡備份。用戶可以根據數據大小和存儲介質的大小是否匹配進行選擇。
　　數據備份是被動的保護數據的方法，用戶應根據不同的應用環境來選擇備份係統、備份設備和備份策略。

概要

　　對於任何形式的通信來說，衹有當信息的發送方和接受方都能夠理解編碼機製的時候壓縮數據通信才能夠工作。例如，衹有當接受方知道這篇文章需要用英語字符解釋的時候這篇文章纔有意義。同樣，衹有當接受方知道編碼方法的時候他才能夠理解壓縮數據。一些壓縮算法利用了這個特性，在壓縮過程中對數據進行加密，例如利用密碼加密，以保證衹有得到授權的一方纔能正確地得到數據。
　　數據壓縮能夠實現是因為多數現實世界的數據都有統計冗餘。例如，字母“e”在英語中比字母“z”更加常用，字母“q”後面是“z”的可能性非常小。無損壓縮算法通常利用了統計冗餘，這樣就能更加簡練地、但仍然是完整地表示發送方的數據。
　　如果允許一定程度的保真度損失，那麽還可以實現進一步的壓縮。例如，人們看圖畫或者電視畫面的時候可能並不會註意到一些細節並不完善。同樣，兩個音頻錄音采樣序列可能聽起來一樣，但實際上並不完全一樣。有損壓縮算法在帶來微小差別的情況下使用較少的位數表示圖像、視頻或者音頻。
　　由於可以幫助減少如硬盤空間與連接帶寬這樣的昂貴資源的消耗，所以壓縮非常重要，然而壓縮需要消耗信息處理資源，這也可能是費用昂貴的。所以數據壓縮機製的設計需要在壓縮能力、失真度、所需計算資源以及其它需要考慮的不同因素之間進行折衷。
　　一些機製是可逆的，這樣就可以恢復原始的數據，這種機製稱為無損數據壓縮；另外一些機製為了實現更高的壓縮率允許一定程度的數據損失，這種機製稱為有損數據壓縮。
　　然而，經常有一些文件不能被無損數據壓縮算法壓縮，實際上對於不含可以辨別樣式的數據任何壓縮算法都不能壓縮。試圖壓縮已經經過壓縮的數據通常得到的結果實際上是擴展數據，試圖壓縮經過加密的數據通常也會得到這種結果。
　　實際上，有損數據壓縮也會最終達到不能工作的地步。我們來舉一個極端的例子，壓縮算法每次去掉文件最後一個字節，那麽經過這個算法不斷的壓縮直至文件變空，壓縮算法將不能繼續工作。

原理

　　事實上，多媒體信息存在許多數據冗餘。例如，一幅圖像中的靜止建築背景、藍天和緑地，其中許多像素是相同的如果逐點存儲，就會浪費許多空間，這稱為空間冗餘。又如，在電視和動畫的相鄰序列中，衹有運動物體有少許變化，僅存儲差異部分即可，這稱為時間冗餘。此外還有結構冗餘、視覺冗餘等，這就為數據壓縮提供了件。
　　總之，壓縮的理論基礎是信息論。從信息的角度來看，壓縮就是去除掉信息中的冗餘，即去除掉確定的或可推知的信息，而保留不確定的信息，也就是用一種更接近信息本質的描述來代替原有的冗餘的描述，這個本質的東西就是信息量。

應用

　　一種非常簡單的壓縮方法是行程長度編碼，這種方法使用數據及數據長度這樣簡單的編碼代替同樣的連續數據，這是無損數據壓縮的一個實例。這種方法經常用於辦公計算機以更好地利用磁盤空間、或者更好地利用計算機網絡中的帶寬。對於電子表格、文本、可執行文件等這樣的符號數據來說，無損是一個非常關鍵的要求，因為除了一些有限的情況，大多數情況下即使是一個數據位的變化都是無法接受的。
　　對於視頻和音頻數據，衹要不損失數據的重要部分一定程度的質量下降是可以接受的。通過利用人類感知係統的局限，能夠大幅度得節約存儲空間並且得到的結果質量與原始數據質量相比並沒有明顯的差別。這些有損數據壓縮方法通常需要在壓縮速度、壓縮數據大小以及質量損失這三者之間進行折衷。
　　有損圖像壓縮用於數碼相機中，大幅度地提高了存儲能力，同時圖像質量幾乎沒有降低。用於DVD的有損MPEG-2編解碼視頻壓縮也實現了類似的功能。
　　在有損音頻壓縮中，心理聲學的方法用來去除信號中聽不見或者很難聽見的成分。人類語音的壓縮經常使用更加專業的技術，因此人們有時也將“語音壓縮”或者“語音編碼”作為一個獨立的研究領域與“音頻壓縮”區分開來。不同的音頻和語音壓縮標準都屬於音頻編解碼範疇。例如語音壓縮用於因特網電話，而音頻壓縮被用於CD翻錄並且使用 MP3 播放器解碼。

理論

　　壓縮的理論基礎是信息論（它與算法信息論密切相關）以及率失真理論，這個領域的研究工作主要是由 Claude Shannon 奠定的，他在二十世紀四十年代末期及五十年代早期發表了這方面的基礎性的論文。Doyle 和 Carlson 在2000年寫道數據壓縮“有所有的工程領域最簡單、最優美的設計理論之一”。密碼學與編碼理論也是密切相關的學科，數據壓縮的思想與統計推斷也有很深的淵源。
　　許多無損數據壓縮係統都可以看作是四步模型，有損數據壓縮係統通常包含更多的步驟，例如它包括預測、頻率變換以及量化。
　　Lempel-Ziv（LZ）壓縮方法是最流行的無損存儲算法之一。DEFLATE是 LZ 的一個變體，它針對解壓速度與壓縮率進行了優化，雖然它的壓縮速度可能非常緩慢，PKZIP、gzip 以及 PNG 都在使用 DEFLATE。LZW （Lempel-Ziv-Welch）是 Unisys 的專利，直到2003年6月專利到期限，這種方法用於 GIF 圖像。另外值得一提的是 LZR (LZ-Renau) 方法，它是 Zip 方法的基礎。LZ 方法使用基於表格的壓縮模型，其中表格中的條目用重複的數據串替換。對於大多數的 LZ 方法來說，這個表格是從最初的輸入數據動態生成的。這個表格經常采用霍夫曼編碼維護（例如，SHRI、LZX）。目前一個性能良好基於 LZ 的編碼機製是 LZX，它用於微軟公司的 CAB 格式。
　　最好的壓縮工具將概率模型預測結果用於算術編碼。算術編碼由 Jorma Rissanen 發明，並且由 Witten、Neal 以及 Cleary 將它轉變成一個實用的方法。這種方法能夠實現比衆人皆知的哈夫曼算法更好的壓縮，並且它本身非常適合於自適應數據壓縮，自適應數據壓縮的預測與上下文密切相關。算術編碼已經用於二值圖像壓縮標準 JBIG、文檔壓縮標準 DejaVu。文本輸入係統 Dasher 是一個逆算術編碼器。

百科辭典

　　shuju yasuo
　　數據壓縮
　　data compression
　　　　見信息處理。
　　　　

英文解釋

: data compression, data compaction

相關詞

計算機	圖像	百科辭典	多媒體技術	百科大全	技術	軟件	多媒體
國際標準	計算機技術	編碼	信息論	瀏覽器	opera	數據傳輸	數據傳輸模式

包含詞

透明數據壓縮	數據壓縮導論	無損數據壓縮
有損數據壓縮	數據壓縮技術	柵格數據壓縮
數據壓縮算法	語音數據壓縮	數據壓縮解壓
分塊數據壓縮	空間數據壓縮	柵格數據壓縮編碼
資料壓縮數據壓縮	數據壓縮技術及應用	多媒體數據壓縮技術