技術 > djvu
目錄
djvu簡介
  djvu是用於一種保存圖書的文件格式,和acrobat pdf有相似之處。
  djvu是由at&t實驗室自1996年起開發的一種圖像壓縮技術,已發展成為標準的圖像文檔格式之一。國際上大量應用實例已證明,djvu可替代pdf成為網絡傳輸掃描文檔、數碼照片、圖像文件的主流技術!
  它的原理是把圖像分離成前景層和背景層進行壓縮。通過將文字和背景分離開來,djvu可以用高分辨率來還原文字,使銳利邊緣得以保留,並最大限度地提高可辨性;同時用較低的分辨率來壓縮背景圖片,從而使整個圖像的質量得到了保證。
  djvu 格式背後的一項主要技術是將圖像分為背景層 ( 紙的紋理和圖片 ) 和前景層 ( 文本和綫條 ) 。傳統的圖像壓縮格式對於簡單的圖片來說,還可以接受,但對於強對比色彩區域之間的色彩反差的表現則大打折扣,這也是為什麽它們對於文字的還原難以令人滿意的原因。一般來說,要確保文字和綫條的清晰度需要較高的分辨率 ( 通常為 300dpi) ,而反映連續色彩圖像和紙張的背景機理則不需要那麽高的分辨率 ( 通常為 100dpi) 。因此,要提高清晰度,最好的方法就是將這些元素分為不同的層來進行處理。通過將文字和背景分離開來, djvu 可以用高分辨率來還原文字,使銳利邊緣得以保留,並最大限度地提高可辨性,同時用較低的分辨率來壓縮背景圖片,從而使整個圖像的質量得到了保證。
  當今世界,超過90%的資料仍然是以紙張的形式保存,而無法在網絡上下載或存放於光盤中。由於這些資料多半是極具價值的歷史文件或是重要的記錄報告,因此往住必須花費許多的金錢與人力來加以保存。
  造成許多紙張資料無法數字化儲存的原因是:若要維持圖像的高品質及字體的清晰度,則檔案將會變得極大;但如果降低分辨率以達到較小的檔案及較快的下載速度,也就意味着必須喪失圖像的品質及清晰度。
  一般常見的jpeg、pdf、tiff壓縮技術都無法同時達成高分辨率及較小的圖像檔案。
  但djvu的壓縮技術則可以完全解决這些問題。
  1000:1高壓縮比
  使用djvu將沒有任何延遲的等待時間。若比較pdf格式及djvu格式的下載時間,對同一份50頁的彩色文件而言,當djvu下載完成後,pdf格式僅下載了一頁文件。djvu下載後的圖像直接儲存在計算機的內存中,並且可以在瀏覽器上快速地對文件進行實時的移動、縮放。換句話說,djvu能使人們衹花很少的時間來掃描、儲存及下載大量文件。
djvu的優勢
  文件容量更小
  利於文件的快速瀏覽,傳送和下載
  支持ie,ns等多種瀏覽器,插件免費下載
  支持多種格式文件的轉換(pdf,dwg,jpg,tif,bmp,doc等)
  支持網頁中的圖文打印
  能夠快速獲取檔案中的文字內容
  支持文本關鍵字搜索
  支持本地路徑和網絡路徑超鏈接
  支持水印、數字等多種圖像加密技術
  djvu應用範圍非常廣泛:圖書檔案、古籍數字化,政府單位、金融檔案單據的電子化管理,加工製造業相關說明書、維修手册、圖紙等的電子化,城市建設,地圖等。
djvu閱讀器
  一般使用windjview來閱讀,該軟件為緑色軟件,無需安裝,體積小(不到500k),打開文件速度極快。
格式轉換
  djvu ---> pdf
  利用adobe acrobat的虛擬打印機功能就可以將djvu轉化為pdf格式,如果用djvu的ie插件的話,可以直接利用插件中的一個打印按鈕(可以看見),而不是文件菜單中的打印功能,這樣效果最好,選擇打印,然後選擇虛擬打印機pdf。註意轉換以後的文件一般情況下要比djvu要大得多,有時甚至是原來的10倍之多,但也有差不多的,關鍵看djvu文件的來源。
  pdf ---> djvu
  常見的方法一般是安裝體積龐大的document express enterprise with djvu或者安裝lizardtech公司出的專門打印程序,但不太方便。
  pdf2djvugui: 是一個緑色軟件,使用簡單,每次衹須執行文件夾bin內的pdf2djvugui這個可執行文件就可以了,其他參數可自行設置,每次可轉換一個文件。但這個軟件也有不足之處,就是對一些語言(包括中文)文本識別過的pdf文件轉換成djvu時可能無法進行,必須選擇taxt extraction為no taxt extraction。
  什麽是djvu技術?
  djvu是由美國at&t實驗室於1996年開發成功的一項新的圖片壓縮技術。
  djvu的主要技術是將圖像分為背景層(紙的紋理和圖片)和前景層(文本和綫條)。通過將文字和背景分離開來,djvu可以用高分辨率來還原文字,使銳利邊緣得以保留,並最大限度地提高可辨性;同時用較低的分辨率來壓縮背景圖片,從而使整個圖像的質量得到了保證。使用djvu格式,用戶首先會很快得到頁面的一個最初版本,這個版本主要是含有文字的前景層。隨着後續信息的到達,圖像質量不斷提高(這一點與jpeg格式的逐級提高精度的方法有類似之處)。
  djvu的應用非常廣泛,任何掃描的高分辨率圖像和數字生成的文件都可以通過djvu的方式在網上進行發佈。有了djvu,網絡內容提供商們就可以將大量寶貴的書籍、雜志、索引、手稿、報紙和古代歷史資料通過掃描而在網上發佈了。原來被保存在這些物質載體上的信息,現在可以更高效率地被更為廣泛的受衆獲取。
  值得註意的是,雖然djvu的原始專利歸at&t所有,但是lizardtech公司已經獲得了相關專利的廣泛授權,可以把這些專利無矛盾地應用於gpl許可證中(lizardtech關於djvu開放源碼許可方式的聲明)。現在djvulibre實際上就是由它支持的一個gpl開放源碼軟件項目。
  隨着因特網的逐漸普及和掃描存儲設備的成本逐步降低,越來越多的文件開始以數字化的形式在網上處理、傳播和保存。人們對於信息的瞬間獲取需要使得電腦屏幕成為各種信息的最佳顯示媒介。然而世界上90%以上的信息仍然在紙上。大量紙質文件,包括經典印書籍、繪畫、彩色圖片和照片,都擁有十分珍貴的價值,而其中被發佈在網絡上的卻寥寥無幾。
  製約這些信息在網上發佈的一個瓶頸就在於掃描圖像的文件大小問題。現階段,如果要保證文字和影像的清晰效果,就必須要用較高的分辨率來進行掃描,其所得文件往往十分巨大,難以在網上下載。於是,為了達到差強人意的下載速度就不得不降低分辨率,這也意味着圖像質量和可辨性得不到保證。傳統的網絡圖像格式,如jpeg、gif和png等,在普通分辨率下的圖像大小都十分巨大。這也使得網絡內容開發者們面對現存的印刷材料寶庫衹能望洋興嘆。
  在過去數年中,人們對於有效處理彩色圖像文件的技術的需求越來越強烈,而這種技術實際上就是一種有效的彩色圖像的壓縮技術。當人們試圖建立古代或歷史文獻的網上數字圖書館,製作電子商務網站的網上購物索引,或進行網絡出版時,這種技術就顯得尤為重要。另外,低成本、高質量彩色掃描儀,以及高分辨率數碼相機的出現,也為這類技術的應用提供了契機。
  djvu(念作 "déjà vu"),就是在這種背景下由美國電報電話公司實驗室(at&t labs)於1996年開發成功的一項新的圖片壓縮技術。通過這項技術,幾乎所有的傳統印刷資料都可在網上以高速傳播。
  djvu的原理
  djvu格式背後的一項主要技術是將圖像分為背景層(紙的紋理和圖片)和前景層(文本和綫條)。傳統的圖像壓縮格式對於簡單的圖片來說,還可以接受,但對於強對比色彩區域之間的色彩反差的表現則大打折扣,這也是為什麽它們對於文字的還原難以另人滿意的原因。一般來說,要確保文字和綫條的清晰度需要較高的分辨率(通常為300dpi),而反映連續色彩圖像和紙張的背景機理則不需要那麽高的分辨率(通常為100dpi)。因此,要提高清晰度,最好的方法就是將這些元素分為不同的層來進行處理。通過將文字和背景分離開來,djvu可以用高分辨率來還原文字,使銳利邊緣得以保留,並最大限度地提高可辨性,同時用較低的分辨率來壓縮背景圖片,從而使整個圖像的質量得到了保證。使用djvu格式,用戶首先會很快得到頁面的一個最初版本,這個版本主要是含有文字的前景層。隨着後續信息的到達,圖像質量不斷提高。例如,一張普通雜志頁面上的文字在56kbps調製解調器的連接下衹須3秒鐘就可出現。在其後的1-2秒內,背景圖片的初級版本也將出現。然後,再過幾秒鐘,最後的完整頁面就可全部出現了。
  djvu的優勢
  通過djvu壓縮格式,以300dpi的分辨率掃描的彩色頁面可以從25 mb縮小到30 至 80 kb,而且圖像質量十分優秀。對於同時包括文字和圖像的彩色文件來說,djvu文件在同等質量下通常比jpeg文件小5到10倍。對於黑白頁面來說,djvu文件通常比jpeg文件小10到20倍,比gif文件小5倍。對於那些由掃描文件製作而成的黑白pdf圖像來說,djvu文件也要小3 到8倍。除了掃描文件之外,djvu也可用於電子生成的文件,如阿杜比的postscript 文件或pdf文件。以這些文件為對象壓縮而成的djvu文件,其每頁大小在300dpi的分辨率下通常在15到20kb之間。這使得高質量的彩色掃描頁面的大小直逼普通的html頁面(平均50kb)。通過插件,djvu頁面可以在瀏覽器窗口中任意放大和縮小,而無須占用25mb的內存來對圖像進行全解碼。通過將解碼的圖像部分存儲在一種衹占2mb內存的數據結構中,實際顯示在屏幕上的像素是在傳輸過程中被解碼的。這就使得圖片下載的功效達到大幅度提高。同時,由於采用分層顯示,而不是等到整副圖片都被解碼之後纔顯示,也使得圖片顯示的速度大大提高,用戶在兩三秒之內就能夠迅速看到文字,其他的圖像信息也會在幾秒鐘之內陸續顯示出來。這種網上高質量圖像發佈的體驗在傳統壓縮格式上是無法實現的。djvu的另一個優點是,它是一個公開標準。其解碼程序和部分編碼程序可在網上免費獲得。djvu網絡瀏覽器插件,也即djvu文件的解碼軟件,可直接在lizardtech公司的主頁上下載(http://www.lizardtech.com/downloadl),而且有針對linux, windows 95/98/nt, mac, 和各種 unix操作係統的不同版本可供選擇。
  djvu的應用
  djvu的應用非常廣泛,任何掃描的高分辨率圖像和數字生成的文件都可以通過djvu的方式在網上進行發佈。有了djvu,網絡內容提供商們就可以將大量寶貴的書籍、雜志、索引、手稿、報紙和古代歷史資料通過掃描而在網上發佈了。原來被保存在這些物質載體上的信息,現在可以通過比特的形式被更為廣泛的受衆所獲取了。具體來說,djvu的應用主要體現在以下幾個方面:
  1、商業方面,産品照片的網上發佈是一個重要用途。雖然電子商務正在逐漸普及,但網上産品的圖像質量卻另人難以滿意。一般來說,這些産品圖片不是衹有郵票大小,就是要花上幾分鐘來下載,而且對於局部的細節無法放大觀看。djvu則可以解决這些問題。通過分層逐步解碼,圖像可以很快顯示出來,而且還可以利用拖動和放大功能來觀察所有細節。這些特點也非常適用於拍賣物品的圖片發佈。商業應用的另一個方面是公司報告的網上發佈。目前,pdf格式是公司報告的一個主要發佈方式。一份60頁a4大小公司報告用pdf格式來發佈,其大小大概在4mb左右,而掃描之後以djvu格式保存,其文件大小則不超過800k。此外,其他公司文件,如技術手册、cad繪圖、財務文件、稅務和郵件等,都可通過djvu在公司內部網中保存。
  2、教育方面,djvu將成為電子圖書網上發行的最佳手段。即使已經有了完全電子生成的數字版本,djvu仍然是屏幕顯示的最佳選擇。例如,對於頁面上包括一定數量的顔色、圖片、公式、綫條和其它非文字對象(如大學教材)時,djvu的超強壓縮功能將大大縮小文件的尺寸,使其在性能上優於pdf格式。對於網頁設計者來說,djvu插件的壓縮界面和自動裝載功能,以及和網頁瀏覽器的完全兼容等也是可圈可點之處。另外,djvu格式的電子書也具有文字查找功能,對於讀者查找關鍵詞也非常方便。對於學術作品的網絡發佈來說,djvu也是很好的方式。目前,人們主要是將文字處理軟件完成的作品壓縮,然後在網上發佈。這樣做的缺點在於,必須先將整個文件下載,之後才能閱讀,而且一旦文件當中插有圖片時,文件又大得驚人。用djvu則可以將數字生成或掃描生成的任何文件進行有效的壓縮和快速的顯示,而且不受文件內容的限製,這也是為什麽越來越多的科學家、研究者和學生開始在網上利用djvu來發佈他們作品的原因。圖書館的資料保存和文件管理也將受益於djvu。原來以各種形態出現的文檔,現在都可通過掃描壓縮成djvu格式,並在網絡數據庫中保存。這樣一來,所有的資料都能十分逼真的轉化為數字形式。讀者也就可以更加便利地在網上獲取一些以前很難看到的珍貴材料。
  3、文學藝術方面,對人類早期的手稿和印刷品進行網上發佈是djvu的“殺手鐧”。迄今為止,djvu是唯一能夠將這些材料絲毫畢現地在網上發佈的壓縮技術。公衆以前基本無法接觸到的稀有珍藏,
  如𠔌登堡於1450-1455年間用他發明的金活字印刷機印刷的著名的42行《聖經》(http://www.djvuzone.org/djvu/uva/gutenbe/indexl)、
  文藝復興早期手工繪色的威尼斯木雕(http://www.djvuzone.org/djvu/rutgers/venetian/indexl),
  以及1776年7月4日頒布的美國獨立宣言(http://www.djvuzone.org/djvu/uva/dec/indexl)等,現在都可以毫無限製地在網上傳播,公衆衹需花幾秒鐘的時間就可以在自己傢裏的電腦屏幕上欣賞到這些珍貴的歷史資料,而歷史學家和研究者們則可以對所有的色彩和細節部分進行細緻的分析。除以文字為主的文獻資料外,繪畫作品也可通過djvu在網上發佈。雖然前文強調的是djvu對文字邊緣清晰呈現的能力,但對色彩的壓縮和還原,djvu的表現同樣出色。通過基於微波理論的連續色彩壓縮技術(continuous-tone image compression technology),djvu對繪畫圖像的處理要優於jpeg格式。特別對於高壓縮比例的圖像來說,djvu的優勢比較明顯。其連續顯示、放大和移動功能也使用戶的讀圖體驗超越傳統。而且,與文字資料不同的是,繪畫圖像的壓縮顯示沒有前景和背景的分層,因此整幅圖下載起來更為流暢。
  4、行政司法方面,地圖和土地登記文件可以通過djvu在網上發佈。由於地圖對圖例標記的清晰度要求極高,用傳統的圖像壓縮技術很難將地圖以高分辨率在網上發佈。人們目前在網上能看到的jpeg格式的地圖,要麽根本看不清上面的文字和標記,要麽就需要花很長的時間來下載,對電腦內存的要求也很高。通過djvu,則可以輕鬆地將地圖和各種土地登記文件在網上傳播。
  例如,美國國會圖書館的一張1915年出版的黃石國傢公園的地圖,原始文件為5900x6900 像素,大小為121mb,用djvu壓縮後衹有450kb,在當前任何一臺電腦上都可以毫不費力地清晰顯示(http://www.djvuzone.org/djvu/maps/loc/ye000009.djvu)。而用jpeg格式壓縮的文件則有2.1mb大小,如果沒有十分充裕的內存空間,是無法自如顯示的。另外,許多法律文件,如各種法庭記錄(口供書、判决書等)、不動産記錄(房屋平面圖、買賣合同、抵押證書等)以及稅收記錄等,都可以通過djvu方便地在網上保存和發佈,有利於提高文件管理效率和司法透明度。例如,佐治亞州科布縣剋拉剋最高法院就通過djvu將所有的司法文件在網上進行發佈(http://www.cobbgasupctclk.com/home.asp),用戶可以通過各種標準對文件進行搜索。
  djvu的意義
  djvu,作為一種新的彩色文件壓縮技術,在紙質世界和比特世界之間搭起了一座橋梁。它使得高質量的掃描圖像可以輕易地在因特網上進行發佈。專門針對網絡發行而設計的djvu技術,以其友好的用戶界面和網絡功能博得了越來越多的商業和非商業用戶的垂青,其應用將會使方興未艾的網絡傳播進入一個新的階段。
  1、使原有的網上圖片傳播更加便捷。隨着讀圖時代的到來,網上圖片傳播的地位將越來越高。原來以jpeg、gif和png等格式在網上發佈的圖片,不論是圖像質量還是下載時間,都難以令人滿意。djvu以其科學有效的壓縮模式,使網上圖片傳播的硬件和帶寬瓶頸得以突破。普通網民可以在普通的計算機上方便快速地進行圖片瀏覽和發佈。
  2、使原來無法上網的資料能夠在網上發佈。當人類網絡傳播逐步由初期的硬件建設發展為一種文化産業,網上內容的開發和建設成為當務之急。除了直接以數字方式進行網上內容生産(如直接在電腦上用字處理軟件和圖像製作軟件進行生産)之外,一個資源最豐富的渠道就是將人類傳統的紙質信息轉化成數字信息而在網上發佈,也就是將人類的文化遺産數字化。要成功地實現這一轉化,除了掃描技術之外,還必須要有高效的圖像壓縮技術。djvu技術就是解决這一問題的關鍵。它可以將以前由於掃描文件大小原因而難以在網上發佈的資料輕易地搬上因特網,從而使人類寶貴的知識遺産能夠得到更為廣泛的傳播。
  3、有利於推進電子商務和電子政務的發展。消費者在網上無法得到全方位的産品外觀,並對其細節進行研究,是製約電子商務發展的因素之一。djvu技術的出現,使得産品圖片的發佈輕而易舉,而且成本低廉,為電子商務的發展消除了這方面的障礙。對於電子政務來說,政府可以通過djvu技術方便地將各種文件在網上存檔和發佈,不僅可以提高行政管理效率,也有利於保護公衆的知情權。
  參考文獻:
  articlese cun, y. et al. djvu: a compression method for distributing scanned documents in color over the internet, color 6, ist, 1998.haffner, p. et al. color documents on the web with djvu, proceedings of the international conference on image processing, vol 1, pp 239-243, kobe, japan, october 1999.haffner, p. et al. djvu: analyzing and compressing scanned documents for internet distribution. proceedings of the international conference on document analysis and recognition. pp 625-628, 1999.
格式轉換
  djvu ---> PDF
  利用Adobe Acrobat的虛擬打印機功能就可以將djvu轉化為pdf格式,如果用djvu的ie插件的話,可以直接利用插件中的一個打印按鈕(可以看見),而不是文件菜單中的打印功能,這樣效果最好,選擇打印,然後選擇虛擬打印機pdf。註意轉換以後的文件一般情況下要比djvu要大得多,有時甚至是原來的10倍之多,但也有差不多的,關鍵看djvu文件的來源。
  PDF ---> djvu
  常見的方法一般是安裝體積龐大的Document Express Enterprise with djvu或者安裝LizardTech公司出的專門打印程序,但不太方便。
  pdf2djvugui: 是一個緑色軟件,使用簡單,每次衹須執行文件夾bin內的pdf2djvugui這個可執行文件就可以了,其他參數可自行設置,每次可轉換一個文件。但這個軟件也有不足之處,就是對一些語言(包括中文)文本識別過的pdf文件轉換成djvu時可能無法進行,必須選擇Taxt Extraction為No Taxt Extraction。
  什麽是djvu技術?
  djvu是由美國AT&T實驗室於1996年開發成功的一項新的圖片壓縮技術。
  djvu的主要技術是將圖像分為背景層(紙的紋理和圖片)和前景層(文本和綫條)。通過將文字和背景分離開來,djvu可以用高分辨率來還原文字,使銳利邊緣得以保留,並最大限度地提高可辨性;同時用較低的分辨率來壓縮背景圖片,從而使整個圖像的質量得到了保證。使用djvu格式,用戶首先會很快得到頁面的一個最初版本,這個版本主要是含有文字的前景層。隨着後續信息的到達,圖像質量不斷提高(這一點與JPEG格式的逐級提高精度的方法有類似之處)。
  djvu的應用非常廣泛,任何掃描的高分辨率圖像和數字生成的文件都可以通過djvu的方式在網上進行發佈。有了djvu,網絡內容提供商們就可以將大量寶貴的書籍、雜志、索引、手稿、報紙和古代歷史資料通過掃描而在網上發佈了。原來被保存在這些物質載體上的信息,現在可以更高效率地被更為廣泛的受衆獲取。
  值得註意的是,雖然djvu的原始專利歸AT&T所有,但是LizardTech公司已經獲得了相關專利的廣泛授權,可以把這些專利無矛盾地應用於GPL許可證中(LizardTech關於djvu開放源碼許可方式的聲明)。現在djvuLibre實際上就是由它支持的一個GPL開放源碼軟件項目。
  隨着因特網的逐漸普及和掃描存儲設備的成本逐步降低,越來越多的文件開始以數字化的形式在網上處理、傳播和保存。人們對於信息的瞬間獲取需要使得電腦屏幕成為各種信息的最佳顯示媒介。然而世界上90%以上的信息仍然在紙上。大量紙質文件,包括經典印書籍、繪畫、彩色圖片和照片,都擁有十分珍貴的價值,而其中被發佈在網絡上的卻寥寥無幾。
  製約這些信息在網上發佈的一個瓶頸就在於掃描圖像的文件大小問題。現階段,如果要保證文字和影像的清晰效果,就必須要用較高的分辨率來進行掃描,其所得文件往往十分巨大,難以在網上下載。於是,為了達到差強人意的下載速度就不得不降低分辨率,這也意味着圖像質量和可辨性得不到保證。傳統的網絡圖像格式,如JPEG、GIF和PNG等,在普通分辨率下的圖像大小都十分巨大。這也使得網絡內容開發者們面對現存的印刷材料寶庫衹能望洋興嘆。
  在過去數年中,人們對於有效處理彩色圖像文件的技術的需求越來越強烈,而這種技術實際上就是一種有效的彩色圖像的壓縮技術。當人們試圖建立古代或歷史文獻的網上數字圖書館,製作電子商務網站的網上購物索引,或進行網絡出版時,這種技術就顯得尤為重要。另外,低成本、高質量彩色掃描儀,以及高分辨率數碼相機的出現,也為這類技術的應用提供了契機。
  djvu(念作 "déjà vu"),就是在這種背景下由美國電報電話公司實驗室(AT&T Labs)於1996年開發成功的一項新的圖片壓縮技術。通過這項技術,幾乎所有的傳統印刷資料都可在網上以高速傳播。
  djvu的原理
  djvu格式背後的一項主要技術是將圖像分為背景層(紙的紋理和圖片)和前景層(文本和綫條)。傳統的圖像壓縮格式對於簡單的圖片來說,還可以接受,但對於強對比色彩區域之間的色彩反差的表現則大打折扣,這也是為什麽它們對於文字的還原難以另人滿意的原因。一般來說,要確保文字和綫條的清晰度需要較高的分辨率(通常為300dpi),而反映連續色彩圖像和紙張的背景機理則不需要那麽高的分辨率(通常為100dpi)。因此,要提高清晰度,最好的方法就是將這些元素分為不同的層來進行處理。通過將文字和背景分離開來,djvu可以用高分辨率來還原文字,使銳利邊緣得以保留,並最大限度地提高可辨性,同時用較低的分辨率來壓縮背景圖片,從而使整個圖像的質量得到了保證。使用djvu格式,用戶首先會很快得到頁面的一個最初版本,這個版本主要是含有文字的前景層。隨着後續信息的到達,圖像質量不斷提高。例如,一張普通雜志頁面上的文字在56Kbps調製解調器的連接下衹須3秒鐘就可出現。在其後的1-2秒內,背景圖片的初級版本也將出現。然後,再過幾秒鐘,最後的完整頁面就可全部出現了。
  djvu的優勢
  通過djvu壓縮格式,以300dpi的分辨率掃描的彩色頁面可以從25 MB縮小到30 至 80 KB,而且圖像質量十分優秀。對於同時包括文字和圖像的彩色文件來說,djvu文件在同等質量下通常比JPEG文件小5到10倍。對於黑白頁面來說,djvu文件通常比JPEG文件小10到20倍,比GIF文件小5倍。對於那些由掃描文件製作而成的黑白PDF圖像來說,djvu文件也要小3 到8倍。除了掃描文件之外,djvu也可用於電子生成的文件,如阿杜比的PostScript 文件或PDF文件。以這些文件為對象壓縮而成的djvu文件,其每頁大小在300dpi的分辨率下通常在15到20KB之間。這使得高質量的彩色掃描頁面的大小直逼普通的HTML頁面(平均50KB)。通過插件,djvu頁面可以在瀏覽器窗口中任意放大和縮小,而無須占用25MB的內存來對圖像進行全解碼。通過將解碼的圖像部分存儲在一種衹占2MB內存的數據結構中,實際顯示在屏幕上的像素是在傳輸過程中被解碼的。這就使得圖片下載的功效達到大幅度提高。同時,由於采用分層顯示,而不是等到整副圖片都被解碼之後纔顯示,也使得圖片顯示的速度大大提高,用戶在兩三秒之內就能夠迅速看到文字,其他的圖像信息也會在幾秒鐘之內陸續顯示出來。這種網上高質量圖像發佈的體驗在傳統壓縮格式上是無法實現的。djvu的另一個優點是,它是一個公開標準。其解碼程序和部分編碼程序可在網上免費獲得。djvu網絡瀏覽器插件,也即djvu文件的解碼軟件,可直接在LizardTech公司的主頁上下載(http://www.lizardtech.com/download.html),而且有針對Linux, Windows 95/98/NT, Mac, 和各種 UNIX操作係統的不同版本可供選擇。
  djvu的應用
  djvu的應用非常廣泛,任何掃描的高分辨率圖像和數字生成的文件都可以通過djvu的方式在網上進行發佈。有了djvu,網絡內容提供商們就可以將大量寶貴的書籍、雜志、索引、手稿、報紙和古代歷史資料通過掃描而在網上發佈了。原來被保存在這些物質載體上的信息,現在可以通過比特的形式被更為廣泛的受衆所獲取了。具體來說,djvu的應用主要體現在以下幾個方面:
  1、商業方面,産品照片的網上發佈是一個重要用途。雖然電子商務正在逐漸普及,但網上産品的圖像質量卻另人難以滿意。一般來說,這些産品圖片不是衹有郵票大小,就是要花上幾分鐘來下載,而且對於局部的細節無法放大觀看。djvu則可以解决這些問題。通過分層逐步解碼,圖像可以很快顯示出來,而且還可以利用拖動和放大功能來觀察所有細節。這些特點也非常適用於拍賣物品的圖片發佈。商業應用的另一個方面是公司報告的網上發佈。目前,PDF格式是公司報告的一個主要發佈方式。一份60頁A4大小公司報告用PDF格式來發佈,其大小大概在4MB左右,而掃描之後以djvu格式保存,其文件大小則不超過800K。此外,其他公司文件,如技術手册、CAD繪圖、財務文件、稅務和郵件等,都可通過djvu在公司內部網中保存。
  2、教育方面,djvu將成為電子圖書網上發行的最佳手段。即使已經有了完全電子生成的數字版本,djvu仍然是屏幕顯示的最佳選擇。例如,對於頁面上包括一定數量的顔色、圖片、公式、綫條和其它非文字對象(如大學教材)時,djvu的超強壓縮功能將大大縮小文件的尺寸,使其在性能上優於PDF格式。對於網頁設計者來說,djvu插件的壓縮界面和自動裝載功能,以及和網頁瀏覽器的完全兼容等也是可圈可點之處。另外,djvu格式的電子書也具有文字查找功能,對於讀者查找關鍵詞也非常方便。對於學術作品的網絡發佈來說,djvu也是很好的方式。目前,人們主要是將文字處理軟件完成的作品壓縮,然後在網上發佈。這樣做的缺點在於,必須先將整個文件下載,之後才能閱讀,而且一旦文件當中插有圖片時,文件又大得驚人。用djvu則可以將數字生成或掃描生成的任何文件進行有效的壓縮和快速的顯示,而且不受文件內容的限製,這也是為什麽越來越多的科學家、研究者和學生開始在網上利用djvu來發佈他們作品的原因。圖書館的資料保存和文件管理也將受益於djvu。原來以各種形態出現的文檔,現在都可通過掃描壓縮成djvu格式,並在網絡數據庫中保存。這樣一來,所有的資料都能十分逼真的轉化為數字形式。讀者也就可以更加便利地在網上獲取一些以前很難看到的珍貴材料。
  3、文學藝術方面,對人類早期的手稿和印刷品進行網上發佈是djvu的“殺手鐧”。迄今為止,djvu是唯一能夠將這些材料絲毫畢現地在網上發佈的壓縮技術。公衆以前基本無法接觸到的稀有珍藏,
  如𠔌登堡於1450-1455年間用他發明的金活字印刷機印刷的著名的42行《聖經》(http://www.djvuzone.org/djvu/uva/gutenbe/index.html)、
  文藝復興早期手工繪色的威尼斯木雕(http://www.djvuzone.org/djvu/rutgers/venetian/index.html),
  以及1776年7月4日頒布的美國獨立宣言(http://www.djvuzone.org/djvu/uva/dec/index.html)等,現在都可以毫無限製地在網上傳播,公衆衹需花幾秒鐘的時間就可以在自己傢裏的電腦屏幕上欣賞到這些珍貴的歷史資料,而歷史學家和研究者們則可以對所有的色彩和細節部分進行細緻的分析。除以文字為主的文獻資料外,繪畫作品也可通過djvu在網上發佈。雖然前文強調的是djvu對文字邊緣清晰呈現的能力,但對色彩的壓縮和還原,djvu的表現同樣出色。通過基於微波理論的連續色彩壓縮技術(continuous-tone image compression technology),djvu對繪畫圖像的處理要優於JPEG格式。特別對於高壓縮比例的圖像來說,djvu的優勢比較明顯。其連續顯示、放大和移動功能也使用戶的讀圖體驗超越傳統。而且,與文字資料不同的是,繪畫圖像的壓縮顯示沒有前景和背景的分層,因此整幅圖下載起來更為流暢。
  4、行政司法方面,地圖和土地登記文件可以通過djvu在網上發佈。由於地圖對圖例標記的清晰度要求極高,用傳統的圖像壓縮技術很難將地圖以高分辨率在網上發佈。人們目前在網上能看到的JPEG格式的地圖,要麽根本看不清上面的文字和標記,要麽就需要花很長的時間來下載,對電腦內存的要求也很高。通過djvu,則可以輕鬆地將地圖和各種土地登記文件在網上傳播。
  例如,美國國會圖書館的一張1915年出版的黃石國傢公園的地圖,原始文件為5900x6900 像素,大小為121MB,用djvu壓縮後衹有450KB,在當前任何一臺電腦上都可以毫不費力地清晰顯示(http://www.djvuzone.org/djvu/maps/loc/ye000009.djvu)。而用JPEG格式壓縮的文件則有2.1MB大小,如果沒有十分充裕的內存空間,是無法自如顯示的。另外,許多法律文件,如各種法庭記錄(口供書、判决書等)、不動産記錄(房屋平面圖、買賣合同、抵押證書等)以及稅收記錄等,都可以通過djvu方便地在網上保存和發佈,有利於提高文件管理效率和司法透明度。例如,佐治亞州科布縣剋拉剋最高法院就通過djvu將所有的司法文件在網上進行發佈(http://www.cobbgasupctclk.com/home.asp),用戶可以通過各種標準對文件進行搜索。
  djvu的意義
  djvu,作為一種新的彩色文件壓縮技術,在紙質世界和比特世界之間搭起了一座橋梁。它使得高質量的掃描圖像可以輕易地在因特網上進行發佈。專門針對網絡發行而設計的djvu技術,以其友好的用戶界面和網絡功能博得了越來越多的商業和非商業用戶的垂青,其應用將會使方興未艾的網絡傳播進入一個新的階段。
  1、使原有的網上圖片傳播更加便捷。隨着讀圖時代的到來,網上圖片傳播的地位將越來越高。原來以JPEG、GIF和PNG等格式在網上發佈的圖片,不論是圖像質量還是下載時間,都難以令人滿意。djvu以其科學有效的壓縮模式,使網上圖片傳播的硬件和帶寬瓶頸得以突破。普通網民可以在普通的計算機上方便快速地進行圖片瀏覽和發佈。
  2、使原來無法上網的資料能夠在網上發佈。當人類網絡傳播逐步由初期的硬件建設發展為一種文化産業,網上內容的開發和建設成為當務之急。除了直接以數字方式進行網上內容生産(如直接在電腦上用字處理軟件和圖像製作軟件進行生産)之外,一個資源最豐富的渠道就是將人類傳統的紙質信息轉化成數字信息而在網上發佈,也就是將人類的文化遺産數字化。要成功地實現這一轉化,除了掃描技術之外,還必須要有高效的圖像壓縮技術。djvu技術就是解决這一問題的關鍵。它可以將以前由於掃描文件大小原因而難以在網上發佈的資料輕易地搬上因特網,從而使人類寶貴的知識遺産能夠得到更為廣泛的傳播。
  3、有利於推進電子商務和電子政務的發展。消費者在網上無法得到全方位的産品外觀,並對其細節進行研究,是製約電子商務發展的因素之一。djvu技術的出現,使得産品圖片的發佈輕而易舉,而且成本低廉,為電子商務的發展消除了這方面的障礙。對於電子政務來說,政府可以通過djvu技術方便地將各種文件在網上存檔和發佈,不僅可以提高行政管理效率,也有利於保護公衆的知情權。
  參考文獻:
  Articlese Cun, Y. et al. djvu: a compression method for distributing scanned documents in color over the internet, Color 6, IST, 1998.Haffner, P. et al. Color Documents on the Web with djvu, Proceedings of the International Conference on Image Processing, vol 1, pp 239-243, Kobe, Japan, October 1999.Haffner, P. et al. djvu: Analyzing and Compressing Scanned Documents for Internet Distribution. Proceedings of the International Conference on Document Analysis and Recognition. pp 625-628, 1999.