|
|
所謂有損壓縮是對利用了人類是絶對圖像或聲波中的某些頻率成分不敏感的特性,允許壓縮過程中損失一定的信息;雖然不能完全回覆原始數據,但是所損失的部分對理解原始圖像的影響縮小,卻換來了大得多的壓縮比。有損壓縮廣泛應用於語音,圖像和視頻數據的壓縮。
常見的聲音、圖像、視頻壓縮基本都是有損的。
在多媒體應用中,常見的壓縮方法有:pcm(脈衝編碼調製),預測編碼,變換編碼,插值和外推法,統計編碼,矢量量化和子帶編碼等,混合編碼是近年來廣泛采用的方法。
mp3 divx xvidjpeg rm rmvb wma wmv等都是有損壓縮。
有損數據壓縮方法是經過壓縮、解壓的數據與原始數據不同但是非常接近的壓縮方法。有損數據壓縮又稱破壞型壓縮,即將次要的信息數據壓縮掉,犧牲一些質量來減少數據量,使壓縮比提高。這種方法經常用於因特網尤其是流媒體以及電話領域。在這篇文章中經常成為編解碼。它是與無損數據壓縮對應的壓縮方法。根據各種格式設計的不同,有損數據壓縮都會有generationloss:壓縮與解壓文件都會帶來漸進的質量下降。
有損壓縮可以減少圖像在內存和磁盤中占用的空間,在屏幕上觀看圖像時,不會發現它對圖像的外觀産生太大的不利影響。因為人的眼睛對光綫比較敏感,光綫對景物的作用比顔色的作用更為重要,這就是有損壓縮技術的基本依據。
有損壓縮的特點是保持顔色的逐漸變化,刪除圖像中顔色的突然變化。生物學中的大量實驗證明,人類大腦會利用與附近最接近的顔色來填補所丟失的顔色。例如,對於藍色天空背景上的一朵白雲,有損壓縮的方法就是刪除圖像中景物邊緣的某些顔色部分。當在·屏幕上看這幅圖時,大腦會利用在景物上看到的顔色填補所丟失的顔色部分。利用有損壓縮技術,某些數據被有意地刪除了,而被取消的數據也不再恢復。
無可否認,利用有損壓縮技術可以大大地壓縮文件的數據,但是會影響圖像質量。如果使用了有損壓縮的圖像僅在屏幕上顯示,可能對圖像質量影響不太大,至少對於人類眼睛的識別程度來說區別不大。可是,如果要把一幅經過有損壓縮技術處理的圖像用高分辨率打印機打印出來,那麽圖像質量就會有明顯的受損痕跡。 |
|
有兩種基本的有損壓縮機製:
一種是有損變換編解碼,首先對圖像或者聲音進行采樣、切成小塊、變換到一個新的空間、量化,然後對量化值進行熵編碼。
另外一種是預測編解碼,先前的數據以及隨後解碼數據用來預測當前的聲音采樣或者或者圖像幀,預測數據與實際數據之間的誤差以及其它一些重現預測的信息進行量化與編碼。
有些係統中同時使用這兩種技術,變換編解碼用於壓縮預測步驟産生的誤差信號。 |
|
有損方法的一個優點就是在有些情況下能夠獲得比任何已知無損方法小得多的文件大小,同時又能滿足係統的需要。
有損方法經常用於壓縮聲音、圖像以及視頻。有損視頻編解碼幾乎總能達到比音頻或者靜態圖像好得多的壓縮率(壓縮率是壓縮文件與未壓縮文件的比值)。音頻能夠在沒有察覺的質量下降情況下實現10:1的壓縮比,視頻能夠在稍微觀察質量下降的情況下實現如300:1這樣非常大的壓縮比。有損靜態圖像壓縮經常如音頻那樣能夠得到原始大小的1/10,但是質量下降更加明顯,尤其是在仔細觀察的時候。
當用戶得到有損壓縮文件的時候,譬如為了節省下載時間,解壓文件與原始文件在數據位的層面上看可能會大相徑庭,但是對於多數實用目的來說,人耳或者人眼並不能分辨出二者之間的區別。
一些方法將人體解剖方面的特質考慮進去,例如人眼衹能看到一定頻率的光綫。心理聲學模型描述的是聲音如何能夠在不降低聲音感知質量的前提下實現最大的壓縮。
人眼或人耳能夠察覺的有損壓縮帶來的缺陷稱為壓縮失真(en:compressionartifact)。 |
|
——mp3(mp3promp3surround)、aac(*.3gp/*.mp4/*.m4v)、atrac3/atrac3+(*.aa3)。
先來明白音頻壓縮的原理:利用人耳聽覺的心理聲學特性(頻譜掩蔽特性和時間掩蔽特性等)以及人耳對信號幅度、頻率、時間的有限分辨能力,編碼時凡是人耳感覺不到的頻率不編碼、不傳送,即凡是對人耳辨別聲音信號的強度、聲調、方位沒有貢獻的部分(稱為不相關部分或無關部分)都不編碼和傳送。對感覺不到的部分進行編碼時,允許有較大的量化失真、並使其處於聽閾(即人耳所能聽到的最低音量)以下,人耳仍然感覺不到。音頻的壓縮就是利用這些特點來工作的。
心理聲學的幾個基本概念
1、等響度麯綫
人的聽覺的靈敏度隨着頻率而改變。即通常兩個功率一樣但頻率不同的音調聽起來並不一樣響。通過等響度麯綫,我們可以看出,人耳對4KHz的頻率最靈敏,即在4KHz下能被察覺出來的聲音壓力水平(響度),在其他頻率下並不能被察覺。這就給在一些不太靈敏的頻率下失真提供了條件。
2、屏蔽
我們上高中物理時學過屏蔽。就是強的聲音信號把弱的聲音信號覆蓋,導致我們無法察覺。而且,當兩個聲音在時間和頻率上很接近時,屏蔽效應就會很強。因此,我們可以在編碼時對被屏蔽的部分不編碼、不傳送。這樣,音質依然沒有大的損失,人耳也不易察覺。
3、臨界頻帶
對於人類的聽覺來說,對聲音的感知特性並不是以綫形頻率為尺度來變化的(人的聽覺還沒那麽好),而是可以用被稱為臨界頻帶的一係列有限的頻段來表達。簡單的說,把整個頻帶劃分成幾段,在這每個頻段裏,人耳的聽覺感知是相同的,即心理聲學特性都是一樣的。
言歸正傳,編碼的精髓就是算法。
主流編碼及其算法
1、mp3(mp3promp3surround)
mp3應該算目前應用最廣泛的有損壓縮數字音頻格式了。它的全稱是mpeg(movingpictureexpertsgroup)audiolayer-3。1987年德國fraunhofer研究院研製成功的一種有損壓縮數字音頻格式,並於1989年取得專利。起初,它並不完善,它更像一個編碼標準框架,留待人們去完善。1992年,這一技術並入了mpeg規範,並有了正式名號——mp3。
mp3文件是由幀(frame)構成的,幀是mp3文件最小的組成單位。什麽是幀?還記得最初的動畫是怎麽做的嗎?不同的連續畫面切換以達到動態效果,每幅畫面就是一個“幀”,不同的是mp3裏面的幀記錄的是音頻數據而不是圖形數據。mp3的幀速度大概是30幀/秒。
每個幀又由幀頭和幀數據組成,幀頭記錄着該幀的基本信息,包括位率索引和采樣率索引(這對理解abr和vbr編碼方式很重要)。幀數據,顧名思義就是記錄着主體音頻數據。
上面說的都是mp3編碼的基礎,但事實上,早期的編碼器都非常不完善,壓縮算法近於粗暴,音質很不理想。mp3的音質達到現在的水平有兩次飛躍:人體聽覺心理學模型(perceptualmodel)的導入和vbr技術的應用。
ps:vbr是variablebitrate的縮寫,意思是可變比率,就是mp3文件壓製的時候聲音元素較多,比率較高時,將自動減低壓縮比特率,在比特率需求比較低時自動升高比特率,這樣做的目的是在保證音質基本不被損害的情況下增加文件在綫播放時的速度,和減少在本機播放時所占的係統資源……這是xing發展的算法,他們將一首歌的復雜部分用高bitrate編碼,簡單部分用低bitrate編碼。主意雖然不錯,可惜xing編碼器的vbr算法很差,音質與cbr相去甚遠。幸運的是,lame完美地優化了vbr算法,使之成為mp3的最佳編碼模式。這是以質量為前提兼顧文件大小的方式,推薦編碼模式。
mp3能生存到今天,它的發展仍未止步。2001年6月14日,法國湯姆森與美國rca兩傢公司聯合推出了一種新的壓縮格式:mp3pro。mp3pro是基於mp3技術改良而來,它利用了codingtechnologies公司開發的編解碼增強技術,該術稱為sbr(spectralbandreplication)。當製作mp3pro文件時,編碼器將音頻分為兩部分。一部分是將音頻數據中的低頻部分分離出來,通過傳統的mp3技術編碼得出正常的mp3音頻流。此舉使mp3編碼器專註於低頻段信號的壓縮從而獲得更好的質量,而且使原來的mp3播放器也能播放mp3pro文件。另一部分則是將分離出來的高頻信號進行編碼並嵌入mp3流中。傳統的mp3播放器會將其忽略掉,而新的mp3pro播放器會將其還原出來並進行組合,得到高質量的全帶寬的聲音。通過這項技術,使得mp3pro64kbps的編碼率便可提供128kbps的mp3相同的質量,且具有相差無幾的音質,而體積衹有mp3的一半大小。
psp就支持mp3pro,而且支持mp3pro的格式轉換軟件也很多,大傢可以去網上找找。有興趣的話可以試試,絶對比mp3強啊。
thomson在2004年12月初正式宣佈世界上最流行的音樂壓縮格式mp3邁進多聲道時代。mp3surround是由fraunhoferiis和agere聯合開發的,使用了binauralcuecoding(bcc)技術心理聲學編碼,可以在實現多聲道環繞的同時保證文件的大小。同時加入的ageresystems公司則主要負責將多聲道mp3格式——mp3surround進行推廣。mp3surround技術實現了5.1聲道環繞的高品質音頻,應用範圍相當廣泛,可以在網絡音樂發佈、廣播係統、pc視聽應用、遊戲音效、消費電子産品和車載音響等方面發揮作用。儘管集成了多個聲道,但是thomson表示mp3surround文件相對於普通mp3(采樣率相當)並沒有太大的增加,相對於其他環繞多聲道音頻格式就衹有它們的一半了。更為重要的,mp3surround提供了良好的兼容性,可以在現有的mp3軟件、mp3播放器上正常使用。
目前網上出現了mp3surround的專門網站(http://www.mp3surround-format.com),大傢從這裏可以下載到mp3surround的解碼/編碼工具以及已經做好的mp3文件,對mp3surround有興趣的朋友還可以下載到技術文檔。psp2.80支持7.1聲道,2.80的玩傢不妨體驗一下mp3surround的魅力!
2、aac(*.3gp/*.mp4/*.m4v)
aac是高級音頻編碼(advancedaudiocoding)的縮寫,它是由fraunhofer研究院、杜比和at&t共同研發的。aac是mpeg-2規範的一部分,它適用於從速率8kbps的單聲道電話音質到160kbps多聲道的超高質量音頻範圍內的編碼。aac與mp3相比,增加了諸如對立體聲的完美再現、碼流效果音掃描、多媒體控製、降噪優化等mp3音頻格式所沒有的特性,使得在音頻壓縮後仍能完美地再現cd音質。它還同時支持多達48個音軌、15個低頻音軌、更多種采樣率和比特率、多種語言的兼容性、更高的解碼效率。總之,aac可以在比mp3文件縮小30%的前提下提供更好的音質。
現將其中的幾個模塊作一些說明:
增益控製(gaincontrol)
增益控製模塊用在可變采樣率配置中,它由多相正交濾波器pqf(polyphasequadraturefilter)、增益檢測器(gaindetector)和增益修正器(gainmodifier)組成。這個模塊把輸入信號分離到4個相等帶寬的頻帶中。在解碼器中也有增益控製模塊,通過忽略pqf的高子帶信號獲得低采樣率輸出信號。
濾波器組(filterbank)
濾波器組是把輸入信號從時域變換到頻域的轉換模塊,它是mpeg-2aac係統的基本模塊。這個模塊采用了改進離散餘弦變換mdct,它是一種綫性正交交迭變換,使用了一種稱為時域混迭取消tdac(timedomainaliasingcancellation)技術。mdct使用kbd(kaiser-besselderived)窗口或者使用正弦(sine)窗口,正嚮mdct變換可使用下式表示:
逆嚮mdct變換可使用下式表示:
其中,
n=樣本號,
n=變換塊長度,
i=塊號,
以上兩個離散餘弦變換公式在《離散函數》和《數理方程》中有詳細介紹,衹為幫助有興趣的玩傢瞭解,不必深究。
瞬時噪聲定形tns
在感知聲音編碼中,tns模塊是用來控製量化噪聲的瞬時形狀的一種方法,解决掩蔽閾值和量化噪聲的錯誤匹配問題。這種技術的基本想法是,在時域中的音調聲信號在頻域中有一個瞬時尖峰,tns使用這種雙重性來擴展已知的預測編碼技術,把量化噪聲置於實際的信號之下以避免錯誤匹配。
聯合立體聲編碼
聯合立體聲編碼(jointstereocoding)是一種空間編碼技術,其目的是為了去掉空間的冗餘信息。mpeg-2aac係統包含兩種空間編碼技術:m/s編碼(mid/sideencoding)和聲強/耦合(intensity/coupling)。m/s編碼使用矩陣運算,因此把m/s編碼稱為矩陣立體聲編碼(matrixedstereocoding)。m/s編碼不傳送左右聲道信號,而是使用標稱化的“和”信號與“差”信號,前者用於中央m(middle)聲道,後者用於邊s(side)聲道,因此m/s編碼也叫做“和-差編碼(sum-differencecoding)”。聲強/耦合編碼的名稱也很多,有的叫做聲強立體聲編碼(intensitystereocoding),或者叫做聲道耦合編碼(channelcouplingcoding),它們探索的基本問題是聲道間的不相關性(irrelevance)。
預測(prediction)
這是在話音編碼係統中普遍使用的一種技術,它主要用來減少平穩(stationary)信號的冗餘度。
量化器(quantizer)
使用了非均勻量化器。
無噪聲編碼(noiselesscoding)
無噪聲編碼實際上就是霍夫曼編碼,它對被量化的譜係數、比例因子和方向信息進行編碼。
ps:我個人比較喜歡aac,所以寫的較為詳細,大傢也不妨試試,絶對比mp3優秀。大傢可以使用itunes6來轉換aac(*.m4v)。itunes6下載地址:http://www.apple.com.cn/itunes/download/aac的操作很簡單,你可以直接把aac(*.3gp*.mp4*.m4v)拷貝到[music]就能播。
3、atrac3/atrac3+(*.aa3)
早年玩md的朋友都知道sony專為md量身定做的atrac音頻格式算法,後來又廣泛應用於sony的networkwalkman和其他便攜音頻設備。“atrac3plus”代表“自適應轉換聲音編碼3+”,是一套基於心理聲學原理的音頻壓縮技術,從atrac3格式發展而來,到2002年這項技術纔日趨完美。這一技術是把md隨身聽的體積縮小到很小的理論基礎。
要分析atrac3/atrac3+,我們先要談談它的大哥——atrac算法。當數字音頻數據被壓縮時,通常都會把一定數量的量化噪音帶入信號。為了不讓這些信號被人耳感知,通常的做法是,音頻編碼把信號分解為一組單元,每組單元都對應着特定的時間頻率範圍。編碼器會依據前文提到的心理聲學原理來分析,對重要的單元進行高精度編碼,對不敏感的單元可以保留一些量化的噪音但不影響人耳的感知質量。解碼時,量化頻譜會根據比特分配重新建立,然後合成音頻信號。
atrac也不例外,但有一些改進。atrac還應用了子頻帶譯碼和轉換譯碼技術,輸入的信號被分配得到不均勻的強調重要低音區的頻率分割。另外,atrac使用一個可變塊長度改變輸入的信號,這可以確保在穩定通過時高效的譯碼,不會在瞬間通過時影響時間的分辨率。具體說,輸入的信號在5.5125khz和11.025khz被分為3個頻帶。子頻帶的分解使用qmf(quadraturemirrorfilters積分映射過濾器)來完成;這3個頻帶被mdct(modifieddiscretecosinetransform變址離散餘弦變換——類似於通常的快速傅裏葉變換,《高等數學二》和《數理方程》中有相關介紹。)轉換成頻譜值,mdct允許塊之間有達50%的交迭,使得在維持臨界采樣時能提高頻率解析度。塊的長度可以根據信號的種類改變,這就是atrac的自適應部分(這一做法主要是為了利用屏蔽掩蓋初始量化噪音)。
當atrac算法發展了10年,已經滿足不了市場的需求,sony於2002年8月推出了新的算法——
atrac3/atrac3+。其核心算法較atrac沒有本質的大改變,衹是采用了改進的頻帶分離過濾和mdct,並使用增益調節、音調成分分離、聯合立體聲(joint-stereo)等技術,使得音頻壓縮數據的體積進一步縮小。
下面我介紹一下用組棒聽atrac3音樂的最簡方法:
用sonicstagecp(或sonicstage3.4)將cd音軌(或mp3、wma文件)轉換為atrac文件,其中包括atrac3、atrac3plus兩種格式。註意:在轉換時千萬不要選擇添加復製保護,否則由於版權保護信息不正確,psp將不能播放文件。這是關鍵的操作。生成的atrac文件的後綴為.oma,我們衹要將後綴改為.aa3即可。然後將atrac文件拷貝到[music]目錄(或其子目錄)裏,這時你的psp將能夠完美播放atrac3音樂。
4、aal(atracadvancedlossless)
aal是atracadvancedlossless(自適應聲學轉換高級無損編碼)的縮寫,是sony新開發的一個音頻壓縮格式其特點是無損壓縮,不損失一點音頻信息,一張cd可以壓縮到原來的30%--80%但目前psp還不支持atracadvancedlossless,但我相信在psp3.0裏極有可能對其支持。目前,其技術資料我還沒有見到,所以暫不作分析。 |
|
一個音樂文件從錄製到播放,有3個重要環節:編碼(算法)、解碼(硬件解碼器)、輸出(耳機、耳塞)。這每個環節都對最終我們聆聽到的聲音音質有着重要的意義,缺一不可。今天,我談的是基礎的編碼(算法),希望大傢能找到最適合你的編碼,我個人的看法是aac256kbps和atrac3plus256kbps。aac的算法是“精緻”,atrac的算法是“巧妙”。 |
|
有損方法的一個優點就是在有些情況下能夠獲得比任何已知無損方法小得多的文件大小,同時又能滿足係統的需要。當用戶得到有損壓縮文件的時候,譬如為了節省下載時間,解壓文件與原始文件在數據位的層面上看可能會大相徑庭,但是對於多數實用目的來說,人耳或者人眼並不能分辨出二者之間的區別。
有損方法經常用於壓縮聲音、圖像以及視頻。
有損視頻編解碼幾乎總能達到比音頻或者靜態圖像好得多的壓縮率(壓縮率是壓縮文件與未壓縮文件的比值)。
音頻能夠在沒有察覺的質量下降情況下實現10:1的壓縮比,視頻能夠在稍微觀察質量下降的情況下實現如300:1這樣非常大的壓縮比。
有損壓縮圖像的特點是保持顔色的逐漸變化,刪除圖像中顔色的突然變化。生物學中的大量實驗證明,人類大腦會利用與附近最接近的顔色來填補所丟失的顔色。例如,對於藍色天空背景上的一朵白雲,有損壓縮的方法就是刪除圖像中景物邊緣的某些顔色部分。當在·屏幕上看這幅圖時,大腦會利用在景物上看到的顔色填補所丟失的顔色部分。利用有損壓縮技術,某些數據被有意地刪除了,而被取消的數據也不再恢復。
有損靜態圖像壓縮經常如音頻那樣能夠得到原始大小的1/10,但是無可否認,利用有損壓縮技術是會影響圖像質量,尤其是在仔細觀察的時候,質量下降更加明顯,。另外,如果使用了有損壓縮的圖像僅在屏幕上顯示,可能對圖像質量影響不太大,至少對於人類眼睛的識別程度來說區別不大,因為人的眼睛對光綫比較敏感,光綫對景物的作用比顔色的作用更為重要。可是,如果要把一幅經過有損壓縮技術處理的圖像用高分辨率打印機打印出來,那麽圖像質量就會有明顯的受損痕跡。
一些方法將人體解剖方面的特質考慮進去,例如人眼衹能看到一定頻率的光綫。心理聲學模型描述的是聲音如何能夠在不降低聲音感知質量的前提下實現最大的壓縮。 |
|
——MP3(MP3PROMP3SURROUND)、AAC(*.3gp/*.mp4/*.m4a)、ATRAC3/ATRAC3+(*.aa3)。
先來明白音頻壓縮的原理:利用人耳聽覺的心理聲學特性(頻譜掩蔽特性和時間掩蔽特性等)以及人耳對信號幅度、頻率、時間的有限分辨能力,編碼時凡是人耳感覺不到的頻率不編碼、不傳送,即凡是對人耳辨別聲音信號的強度、聲調、方位沒有貢獻的部分(稱為不相關部分或無關部分)都不編碼和傳送。對感覺不到的部分進行編碼時,允許有較大的量化失真、並使其處於聽閾(即人耳所能聽到的最低音量)以下,人耳仍然感覺不到。音頻的壓縮就是利用這些特點來工作的。
心理聲學的幾個基本概念
1、等響度麯綫
人的聽覺的靈敏度隨着頻率而改變。即通常兩個功率一樣但頻率不同的音調聽起來並不一樣響。通過等響度麯綫,我們可以看出,人耳對4KHz的頻率最靈敏,即在4KHz下能被察覺出來的聲音壓力水平(響度),在其他頻率下並不能被察覺。這就給在一些不太靈敏的頻率下失真提供了條件。
2、屏蔽
我們上高中物理時學過屏蔽。就是強的聲音信號把弱的聲音信號覆蓋,導致我們無法察覺。而且,當兩個聲音在時間和頻率上很接近時,屏蔽效應就會很強。因此,我們可以在編碼時對被屏蔽的部分不編碼、不傳送。這樣,音質依然沒有大的損失,人耳也不易察覺。
3、臨界頻帶
對於人類的聽覺來說,對聲音的感知特性並不是以綫形頻率為尺度來變化的(人的聽覺還沒那麽好),而是可以用被稱為臨界頻帶的一係列有限的頻段來表達。簡單的說,把整個頻帶劃分成幾段,在這每個頻段裏,人耳的聽覺感知是相同的,即心理聲學特性都是一樣的。
言歸正傳,編碼的精髓就是算法。
主流編碼及其算法
1、MP3(MP3PROMP3SURROUND)
MP3應該算目前應用最廣泛的有損壓縮數字音頻格式了。它的全稱是MPEG(MovingPictureExpertsGroup)AudioLayer-3。1987年德國Fraunhofer研究院研製成功的一種有損壓縮數字音頻格式,並於1989年取得專利。起初,它並不完善,它更像一個編碼標準框架,留待人們去完善。1992年,這一技術並入了MPEG規範,並有了正式名號——MP3。
MP3文件是由幀(frame)構成的,幀是MP3文件最小的組成單位。什麽是幀?還記得最初的動畫是怎麽做的嗎?不同的連續畫面切換以達到動態效果,每幅畫面就是一個“幀”,不同的是MP3裏面的幀記錄的是音頻數據而不是圖形數據。MP3的幀速度大概是30幀/秒。
每個幀又由幀頭和幀數據組成,幀頭記錄着該幀的基本信息,包括位率索引和采樣率索引(這對理解ABR和VBR編碼方式很重要)。幀數據,顧名思義就是記錄着主體音頻數據。
上面說的都是MP3編碼的基礎,但事實上,早期的編碼器都非常不完善,壓縮算法近於粗暴,音質很不理想。MP3的音質達到現在的水平有兩次飛躍:人體聽覺心理學模型(PerceptualModel)的導入和VBR技術的應用。
PS:VBR是variablebitrate的縮寫,意思是可變比率,就是MP3文件壓製的時候聲音元素較多,比率較高時,將自動減低壓縮比特率,在比特率需求比較低時自動升高比特率,這樣做的目的是在保證音質基本不被損害的情況下增加文件在綫播放時的速度,和減少在本機播放時所占的係統資源……這是Xing發展的算法,他們將一首歌的復雜部分用高Bitrate編碼,簡單部分用低Bitrate編碼。主意雖然不錯,可惜Xing編碼器的VBR算法很差,音質與CBR相去甚遠。幸運的是,Lame完美地優化了VBR算法,使之成為MP3的最佳編碼模式。這是以質量為前提兼顧文件大小的方式,推薦編碼模式。
MP3能生存到今天,它的發展仍未止步。2001年6月14日,法國湯姆森與美國RCA兩傢公司聯合推出了一種新的壓縮格式:MP3PRO。MP3PRO是基於MP3技術改良而來,它利用了CodingTechnologies公司開發的編解碼增強技術,該術稱為SBR(SpectralBandReplication)。當製作MP3PRO文件時,編碼器將音頻分為兩部分。一部分是將音頻數據中的低頻部分分離出來,通過傳統的MP3技術編碼得出正常的MP3音頻流。此舉使MP3編碼器專註於低頻段信號的壓縮從而獲得更好的質量,而且使原來的MP3播放器也能播放MP3PRO文件。另一部分則是將分離出來的高頻信號進行編碼並嵌入MP3流中。傳統的MP3播放器會將其忽略掉,而新的MP3PRO播放器會將其還原出來並進行組合,得到高質量的全帶寬的聲音。通過這項技術,使得MP3PRO64Kbps的編碼率便可提供128Kbps的MP3相同的質量,且具有相差無幾的音質,而體積衹有MP3的一半大小。
PSP就支持MP3PRO,而且支持MP3PRO的格式轉換軟件也很多,大傢可以去網上找找。有興趣的話可以試試,絶對比mp3強啊。
Thomson在2004年12月初正式宣佈世界上最流行的音樂壓縮格式MP3邁進多聲道時代。MP3SURROUND是由FraunhoferIIS和Agere聯合開發的,使用了binauralCueCoding(BCC)技術心理聲學編碼,可以在實現多聲道環繞的同時保證文件的大小。同時加入的AgereSystems公司則主要負責將多聲道MP3格式——MP3SURROUND進行推廣。MP3SURROUND技術實現了5.1聲道環繞的高品質音頻,應用範圍相當廣泛,可以在網絡音樂發佈、廣播係統、PC視聽應用、遊戲音效、消費電子産品和車載音響等方面發揮作用。儘管集成了多個聲道,但是Thomson表示MP3SURROUND文件相對於普通MP3(采樣率相當)並沒有太大的增加,相對於其他環繞多聲道音頻格式就衹有它們的一半了。更為重要的,MP3SURROUND提供了良好的兼容性,可以在現有的MP3軟件、MP3播放器上正常使用。
目前網上出現了MP3SURROUND的專門網站(http://www.mp3surround-format.com),大傢從這裏可以下載到MP3SURROUND的解碼/編碼工具以及已經做好的MP3文件,對MP3SURROUND有興趣的朋友還可以下載到技術文檔。psp2.80支持7.1聲道,2.80的玩傢不妨體驗一下MP3SURROUND的魅力!
2、AAC(*.3gp/*.mp4/*.m4a)
AAC是高級音頻編碼(AdvancedAudioCoding)的縮寫,它是由Fraunhofer研究院、杜比和AT&T共同研發的。AAC是MPEG-2規範的一部分,它適用於從速率8Kbps的單聲道電話音質到160Kbps多聲道的超高質量音頻範圍內的編碼。AAC與MP3相比,增加了諸如對立體聲的完美再現、碼流效果音掃描、多媒體控製、降噪優化等MP3音頻格式所沒有的特性,使得在音頻壓縮後仍能完美地再現CD音質。它還同時支持多達48個音軌、15個低頻音軌、更多種采樣率和比特率、多種語言的兼容性、更高的解碼效率。總之,AAC可以在比MP3文件縮小30%的前提下提供更好的音質。
現將其中的幾個模塊作一些說明:
增益控製(Gaincontrol)
增益控製模塊用在可變采樣率配置中,它由多相正交濾波器PQF(polyphasequadraturefilter)、增益檢測器(gaindetector)和增益修正器(gainmodifier)組成。這個模塊把輸入信號分離到4個相等帶寬的頻帶中。在解碼器中也有增益控製模塊,通過忽略PQF的高子帶信號獲得低采樣率輸出信號。
濾波器組(FilterBank)
濾波器組是把輸入信號從時域變換到頻域的轉換模塊,它是MPEG-2AAC係統的基本模塊。這個模塊采用了改進離散餘弦變換MDCT,它是一種綫性正交交迭變換,使用了一種稱為時域混迭取消TDAC(timedomainaliasingcancellation)技術。MDCT使用KBD(Kaiser-Besselderived)窗口或者使用正弦(sine)窗口,正嚮MDCT變換可使用下式表示:
逆嚮MDCT變換可使用下式表示:
其中,
n=樣本號,
N=變換塊長度,
i=塊號,
以上兩個離散餘弦變換公式在《離散函數》和《數理方程》中有詳細介紹,衹為幫助有興趣的玩傢瞭解,不必深究。
瞬時噪聲定形TNS
在感知聲音編碼中,TNS模塊是用來控製量化噪聲的瞬時形狀的一種方法,解决掩蔽閾值和量化噪聲的錯誤匹配問題。這種技術的基本想法是,在時域中的音調聲信號在頻域中有一個瞬時尖峰,TNS使用這種雙重性來擴展已知的預測編碼技術,把量化噪聲置於實際的信號之下以避免錯誤匹配。
聯合立體聲編碼
聯合立體聲編碼(jointstereocoding)是一種空間編碼技術,其目的是為了去掉空間的冗餘信息。MPEG-2AAC係統包含兩種空間編碼技術:M/S編碼(Mid/Sideencoding)和聲強/耦合(Intensity/Coupling)。M/S編碼使用矩陣運算,因此把M/S編碼稱為矩陣立體聲編碼(matrixedstereocoding)。M/S編碼不傳送左右聲道信號,而是使用標稱化的“和”信號與“差”信號,前者用於中央M(middle)聲道,後者用於邊S(side)聲道,因此M/S編碼也叫做“和-差編碼(sum-differencecoding)”。聲強/耦合編碼的名稱也很多,有的叫做聲強立體聲編碼(intensitystereocoding),或者叫做聲道耦合編碼(channelcouplingcoding),它們探索的基本問題是聲道間的不相關性(irrelevance)。
預測(Prediction)
這是在話音編碼係統中普遍使用的一種技術,它主要用來減少平穩(stationary)信號的冗餘度。
量化器(Quantizer)
使用了非均勻量化器。
無噪聲編碼(Noiselesscoding)
無噪聲編碼實際上就是霍夫曼編碼,它對被量化的譜係數、比例因子和方向信息進行編碼。
PS:我個人比較喜歡AAC,所以寫的較為詳細,大傢也不妨試試,絶對比MP3優秀。大傢可以使用iTunes6來轉換AAC(*.m4a)。iTunes6下載地址:http://www.apple.com.cn/itunes/download/AAC的操作很簡單,你可以直接把AAC(*.3gp*.mp4*.m4a)拷貝到[MUSIC]就能播。
可以說,aac是目前最好的有損壓縮方式。
最高質量的普較無損看(肉眼)不出區別。
3、ATRAC3/ATRAC3+(*.aa3)
早年玩MD的朋友都知道SONY專為MD量身定做的ATRAC音頻格式算法,後來又廣泛應用於SONY的NetworkWalkman和其他便攜音頻設備。“ATRAC3plus”代表“自適應轉換聲音編碼3+”,是一套基於心理聲學原理的音頻壓縮技術,從ATRAC3格式發展而來,到2002年這項技術纔日趨完美。這一技術是把MD隨身聽的體積縮小到很小的理論基礎。
要分析ATRAC3/ATRAC3+,我們先要談談它的大哥——ATRAC算法。當數字音頻數據被壓縮時,通常都會把一定數量的量化噪音帶入信號。為了不讓這些信號被人耳感知,通常的做法是,音頻編碼把信號分解為一組單元,每組單元都對應着特定的時間頻率範圍。編碼器會依據前文提到的心理聲學原理來分析,對重要的單元進行高精度編碼,對不敏感的單元可以保留一些量化的噪音但不影響人耳的感知質量。解碼時,量化頻譜會根據比特分配重新建立,然後合成音頻信號。
ATRAC也不例外,但有一些改進。ATRAC還應用了子頻帶譯碼和轉換譯碼技術,輸入的信號被分配得到不均勻的強調重要低音區的頻率分割。另外,ATRAC使用一個可變塊長度改變輸入的信號,這可以確保在穩定通過時高效的譯碼,不會在瞬間通過時影響時間的分辨率。具體說,輸入的信號在5.5125KHz和11.025KHz被分為3個頻帶。子頻帶的分解使用QMF(QuadratureMirrorFilters積分映射過濾器)來完成;這3個頻帶被MDCT(ModifiedDiscreteCosineTransform變址離散餘弦變換——類似於通常的快速傅裏葉變換,《高等數學二》和《數理方程》中有相關介紹。)轉換成頻譜值,MDCT允許塊之間有達50%的交迭,使得在維持臨界采樣時能提高頻率解析度。塊的長度可以根據信號的種類改變,這就是ATRAC的自適應部分(這一做法主要是為了利用屏蔽掩蓋初始量化噪音)。
當ATRAC算法發展了10年,已經滿足不了市場的需求,SONY於2002年8月推出了新的算法——
ATRAC3/ATRAC3+。其核心算法較ATRAC沒有本質的大改變,衹是采用了改進的頻帶分離過濾和MDCT,並使用增益調節、音調成分分離、聯合立體聲(Joint-Stereo)等技術,使得音頻壓縮數據的體積進一步縮小。
下面我介紹一下用組棒聽ATRAC3音樂的最簡方法:
用sonicstageCP(或sonicstage3.4)將CD音軌(或MP3、WMA文件)轉換為ATRAC文件,其中包括ATRAC3、ATRAC3plus兩種格式。註意:在轉換時千萬不要選擇添加復製保護,否則由於版權保護信息不正確,PSP將不能播放文件。這是關鍵的操作。生成的ATRAC文件的後綴為.oma,我們衹要將後綴改為.aa3即可。然後將ATRAC文件拷貝到[MUSIC]目錄(或其子目錄)裏,這時你的PSP將能夠完美播放ATRAC3音樂。
4、AAL(ATRACAdvancedLossless)
AAL是ATRACAdvancedLossless(自適應聲學轉換高級無損編碼)的縮寫,是SONY新開發的一個音頻壓縮格式其特點是無損壓縮,不損失一點音頻信息,一張CD可以壓縮到原來的30%--80%但目前PSP還不支持ATRACAdvancedLossless,但我相信在PSP3.0裏極有可能對其支持。目前,其技術資料我還沒有見到,所以暫不作分析。
5、Ogg
Ogg全稱應該是OGG Vobis(ogg Vorbis) 是一種新的音頻壓縮格式,類似於MP3等現有的音樂格式。但有一點不同的是,它是完全免費、開放和沒有專利限製的。OGG Vobis有一個很出衆的特點,就是支持多聲道,隨着它的流行,以後用隨身聽來聽DTS編碼的多聲道作品將不會是夢想。
Vorbis 是這種音頻壓縮機製的名字,而Ogg則是一個計劃的名字,該計劃意圖設計一個完全開放性的多媒體係統。目前該計劃衹實現了OggVorbis這一部分。
Ogg Vorbis文件的擴展名是.OGG。這種文件的設計格式是非常先進的。現在創建的OGG文件可以在未來的任何播放器上播放,因此,這種文件格式可以不斷地進行大小和音質的改良,而不影響舊有的編碼器或播放器。
較aac而言,低頻方面略有優勢,高頻方面比aac差。
最高質量的普較無損看(肉眼)不出區別。
最高質量,即Q10,體積比aac使用faac編碼最高質量Q500體積大差不多一倍。
編碼開源。 |
|
- : Loss Compression
|
|
有損壓縮概述 | 有損壓縮格式 | 有損壓縮的類型 | 圖像有損壓縮編碼 | 有損壓縮常見格式 | 無損、有損壓縮 | 無損有損壓縮對比 | |
|