單元測試是在軟件開發過程中要進行的最低級別的測試活動,在單元測試活動中,軟件的獨立單元將在與程序的其他部分相隔離的情況下進行測試。
在一種傳統的結構化編程語言中,比如c,要進行測試的單元一般是函數或子過程。在象c++這樣的面嚮對象的語言中, 要進行測試的基本單元是類。對ada語言來說,開發人員可以選擇是在獨立的過程和函數,還是在ada包的級別上進行單元測試。單元測試的原則同樣被擴展到第四代語言(4gl)的開發中,在這裏基本單元被典型地劃分為一個菜單或顯示界面。
單元測試不僅僅是作為無錯編碼一種輔助手段在一次性的開發過程中使用,單元測試必須是可重複的,無論是在軟件修改,或是移植到新的運行環境的過程中。因此,所有的測試都必須在整個軟件係統的生命周期中進行維護。
經常與單元測試聯繫起來的另外一些開發活動包括代碼走讀(code review),靜態分析(static analysis)和動態分析(dynamic analysis)。靜態分析就是對軟件的源代碼進行研讀,查找錯誤或收集一些度量數據,並不需要對代碼進行編譯和執行。動態分析就是通過觀察軟件運行時的動作,來提供執行跟蹤,時間分析,以及測試覆蓋度方面的信息。
單元測試
中科永聯高級技術培訓中心(www.itisedu.com)
單元測試(模塊測試)是開發者編寫的一小段代碼,用於檢驗被測代碼的一個很小的、很明確的功能是否正確。通常而言,一個單元測試是用於判斷某個特定條件(或者場景)下某個特定函數的行為。例如,你可能把一個很大的值放入一個有序list 中去,然後確認該值出現在list 的尾部。或者,你可能會從字符串中刪除匹配某種模式的字符,然後確認字符串確實不再包含這些字符了。
單元測試是由程序員自己來完成,最終受益的也是程序員自己。可以這麽說,程序員有責任編寫功能代碼,同時也就有責任為自己的代碼編寫單元測試。執行單元測試,就是為了證明這段代碼的行為和我們期望的一致。
工廠在組裝一臺電視機之前,會對每個元件都進行測試,這,就是單元測試。
其實我們每天都在做單元測試。你寫了一個函數,除了極簡單的外,總是要執行一下,看看功能是否正常,有時還要想辦法輸出些數據,如彈出信息窗口什麽的,這,也是單元測試,老納把這種單元測試稱為臨時單元測試。衹進行了臨時單元測試的軟件,針對代碼的測試很不完整,代碼覆蓋率要超過70%都很睏難,未覆蓋的代碼可能遺留大量的細小的錯誤,這些錯誤還會互相影響,當bug暴露出來的時候難於調試,大幅度提高後期測試和維護成本,也降低了開發商的競爭力。可以說,進行充分的單元測試,是提高軟件質量,降低開發成本的必由之路。
對於程序員來說,如果養成了對自己寫的代碼進行單元測試的習慣,不但可以寫出高質量的代碼,而且還能提高編程水平。
要進行充分的單元測試,應專門編寫測試代碼,並與産品代碼隔離。老納認為,比較簡單的辦法是為産品工程建立對應的測試工程,為每個類建立對應的測試類,為每個函數(很簡單的除外)建立測試函數。首先就幾個概念談談老納的看法。
一般認為,在結構化程序時代,單元測試所說的單元是指函數,在當今的面嚮對象時代,單元測試所說的單元是指類。以老納的實踐來看,以類作為測試單位,復雜度高,可操作性較差,因此仍然主張以函數作為單元測試的測試單位,但可以用一個測試類來組織某個類的所有測試函數。單元測試不應過分強調面嚮對象,因為局部代碼依然是結構化的。單元測試的工作量較大,簡單實用高效纔是硬道理。
有一種看法是,衹測試類的接口(公有函數),不測試其他函數,從面嚮對象角度來看,確實有其道理,但是,測試的目的是找錯並最終排錯,因此,衹要是包含錯誤的可能性較大的函數都要測試,跟函數是否私有沒有關係。對於c++來說,可以用一種簡單的方法區隔需測試的函數:簡單的函數如數據讀寫函數的實現在頭文件中編寫(inline函數),所有在源文件編寫實現的函數都要進行測試(構造函數和析構函數除外)。
為什麽要使用單元測試
我們編寫代碼時,一定會反復調試保證它能夠編譯通過。如果是編譯沒有通過的代碼,沒有任何人會願意交付給自己的老闆。但代碼通過編譯,衹是說明了它的語法正確;我們卻無法保證它的語義也一定正確,沒有任何人可以輕易承諾這段代碼的行為一定是正確的。
幸運,單元測試會為我們的承諾做保證。編寫單元測試就是用來驗證這段代碼的行為是否與我們期望的一致。有了單元測試,我們可以自信的交付自己的代碼,而沒有任何的後顧之憂。
什麽時候測試?單元測試越早越好,早到什麽程度?xp開發理論講究tdd,即測試驅動開發,先編寫測試代碼,再進行開發。在實際的工作中,可以不必過分強調先什麽後什麽,重要的是高效和感覺舒適。從老納的經驗來看,先編寫産品函數的框架,然後編寫測試函數,針對産品函數的功能編寫測試用例,然後編寫産品函數的代碼,每寫一個功能點都運行測試,隨時補充測試用例。所謂先編寫産品函數的框架,是指先編寫函數空的實現,有返回值的隨便返回一個值,編譯通過後再編寫測試代碼,這時,函數名、參數表、返回類型都應該確定下來了,所編寫的測試代碼以後需修改的可能性比較小。
由誰測試?單元測試與其他測試不同,單元測試可看作是編碼工作的一部分,應該由程序員完成,也就是說,經過了單元測試的代碼纔是已完成的代碼,提交産品代碼時也要同時提交測試代碼。測試部門可以作一定程度的審核。
關於樁代碼,老納認為,單元測試應避免編寫樁代碼。樁代碼就是用來代替某些代碼的代碼,例如,産品函數或測試函數調用了一個未編寫的函數,可以編寫樁函數來代替該被調用的函數,樁代碼也用於實現測試隔離。采用由底嚮上的方式進行開發,底層的代碼先開發並先測試,可以避免編寫樁代碼,這樣做的好處有:減少了工作量;測試上層函數時,也是對下層函數的間接測試;當下層函數修改時,通過回歸測試可以確認修改是否導致上層函數産生錯誤。
在一種傳統的結構化編程語言中,比如c,要進行測試的單元一般是函數或子過程。在象c++這樣的面嚮對象的語言中, 要進行測試的基本單元是類。對ada語言來說,開發人員可以選擇是在獨立的過程和函數,還是在ada包的級別上進行單元測試。單元測試的原則同樣被擴展到第四代語言(4gl)的開發中,在這裏基本單元被典型地劃分為一個菜單或顯示界面。
單元測試不僅僅是作為無錯編碼一種輔助手段在一次性的開發過程中使用,單元測試必須是可重複的,無論是在軟件修改,或是移植到新的運行環境的過程中。因此,所有的測試都必須在整個軟件係統的生命周期中進行維護。
經常與單元測試聯繫起來的另外一些開發活動包括代碼走讀(code review),靜態分析(static analysis)和動態分析(dynamic analysis)。靜態分析就是對軟件的源代碼進行研讀,查找錯誤或收集一些度量數據,並不需要對代碼進行編譯和執行。動態分析就是通過觀察軟件運行時的動作,來提供執行跟蹤,時間分析,以及測試覆蓋度方面的信息。
一些流行的誤解
在明確了什麽是單元測試以後,我們可以進行"反調論證"了。在下面的章節裏,我們列出了一些反對單元測試的普遍的論點。然後用充分的理由來證明這些論點是不足取的。
它浪費了太多的時間
一旦編碼完成,開發人員總是會迫切希望進行軟件的集成工作,這樣他們就能夠看到實際的係統開始啓動工作了。 這在外表上看來是一項明顯的進步,而象單元測試這樣的活動也許會被看作是通往這個階段點的道路上的障礙, 推遲了對整個係統進行聯調這種真正有意思的工作啓動的時間。
在這種開發步驟中,真實意義上的進步被外表上的進步取代了。係統能夠正常工作的可能性是很小的,更多的情況是充滿了各式各樣的bug。在實踐中,這樣一種開發步驟常常會導致這樣的結果:軟件甚至無法運行。更進一步的結果是大量的時間將被花費在跟蹤那些包含在獨立單元裏的簡單的bug上面,在個別情況下,這些bug也許是瑣碎和微不足道的,但是總的來說,他們會導致在軟件集成為一個係統時增加額外的工期, 而且當這個係統投入使用時也無法確保它能夠可靠運行。
在實踐工作中,進行了完整計劃的單元測試和編寫實際的代碼所花費的精力大致上是相同的。一旦完成了這些單元測試工作,很多bug將被糾正,在確信他們手頭擁有穩定可靠的部件的情況下,開發人員能夠進行更高效的係統集成工作。這纔是真實意義上的進步,所以說完整計劃下的單元測試是對時間的更高效的利用。而調試人員的不受控和散漫的工作方式衹會花費更多的時間而取得很少的好處。
使用adatest和cantata這樣的支持工具可以使單元測試更加簡單和有效。但這不是必須的,單元測試即使是在沒有工具支持的情況下也是一項非常有意義的活動。
它僅僅是證明這些代碼做了什麽
這是那些沒有首先為每個單元編寫一個詳細的規格說明而直接跳到編碼階段的開發人員提出的一條普遍的抱怨, 當編碼完成以後並且面臨代碼測試任務的時候,他們就閱讀這些代碼並找出它實際上做了什麽,把他們的測試工作基於已經寫好的代碼的基礎上。當然,他們無法證明任何事情。所有的這些測試工作能夠表明的事情就是編譯器工作正常。是的,他們也許能夠抓住(希望能夠)罕見的編譯器bug,但是他們能夠做的僅僅是這些。
如果他們首先寫好一個詳細的規格說明,測試能夠以規格說明為基礎。代碼就能夠針對它的規格說明,而不是針對自身進行測試。這樣的測試仍然能夠抓住編譯器的bug,同時也能找到更多的編碼錯誤,甚至是一些規格說明中的錯誤。好的規格說明可以使測試的質量更高,所以最後的結論是高質量的測試需要高質量的規格說明。
在實踐中會出現這樣的情況: 一個開發人員要面對測試一個單元時衹給出單元的代碼而沒有規格說明這樣吃力不討好的任務。你怎樣做纔會有更多的收穫,而不僅僅是發現編譯器的bug?第一步是理解這個單元原本要做什麽, --- 不是它實際上做了什麽。 比較有效的方法是倒推出一個概要的規格說明。這個過程的主要輸入條件是要閱讀那些程序代碼和註釋, 主要針對這個單元, 及調用它和被它調用的相關代碼。畫出流程圖是非常有幫助的,你可以用手工或使用某種工具。 可以組織對這個概要規格說明的走讀(review),以確保對這個單元的說明沒有基本的錯誤, 有了這種最小程度的代碼深層說明,就可以用它來設計單元測試了。
我是個很棒的程序員, 我是不是可以不進行單元測試?
在每個開發組織中都至少有一個這樣的開發人員,他非常擅長於編程,他們開發的軟件總是在第一時間就可以正常運行,因此不需要進行測試。你是否經常聽到這樣的藉口?
在真實世界裏,每個人都會犯錯誤。即使某個開發人員可以抱着這種態度在很少的一些簡單的程序中應付過去。 但真正的軟件係統是非常復雜的。真正的軟件係統不可以寄希望於沒有進行廣泛的測試和bug修改過程就可以正常工作。
編碼不是一個可以一次性通過的過程。在真實世界中,軟件産品必須進行維護以對操作需求的改變作出反應, 並且要對最初的開發工作遺留下來的bug進行修改。你希望依靠那些原始作者進行修改嗎? 這些製造出這些未經測試的原始代碼的資深專傢們還會繼續在其他地方製造這樣的代碼。在開發人員做出修改後進行可重複的單元測試可以避免産生那些令人不快的負作用。
不管怎樣, 集成測試將會抓住所有的bug
我們已經在前面的討論中從一個側面對這個問題進行了部分的闡述。這個論點不成立的原因在於規模越大的代碼集成意味着復雜性就越高。如果軟件的單元沒有事先進行測試,開發人員很可能會花費大量的時間僅僅是為了使軟件能夠運行,而任何實際的測試方案都無法執行。
一旦軟件可以運行了,開發人員又要面對這樣的問題: 在考慮軟件全局復雜性的前提下對每個單元進行全面的測試。 這是一件非常睏難的事情,甚至在創造一種單元調用的測試條件的時候,要全面的考慮單元的被調用時的各種入口參數。在軟件集成階段,對單元功能全面測試的復雜程度遠遠的超過獨立進行的單元測試過程。
最後的結果是測試將無法達到它所應該有的全面性。一些缺陷將被遺漏,並且很多bug將被忽略過去。
讓我們類比一下,假設我們要清洗一臺已經完全裝配好的食物加工機器!無論你噴了多少水和清潔劑,一些食物的小碎片還是會粘在機器的死角位置,衹有任其腐爛並等待以後再想辦法。但我們換個角度想想,如果這臺機器是拆開的, 這些死角也許就不存在或者更容易接觸到了,並且每一部分都可以毫不費力的進行清洗。
它的成本效率不高
一個特定的開發組織或軟件應用係統的測試水平取决於對那些未發現的bug的潛在後果的重視程度。這種後果的嚴重程度可以從一個bug引起的小小的不便到發生多次的死機的情況。這種後果可能常常會被軟件的開發人員所忽視(但是用戶可不會這樣),這種情況會長期的損害這些嚮用戶提交帶有bug的軟件的開發組織的信譽,並且會導致對未來的市場産生負面的影響。相反地,一個可靠的軟件係統的良好的聲譽將有助於一個開發組織獲取未來的市場。
很多研究成果表明,無論什麽時候作出修改都要進行完整的回歸測試,在生命周期中盡早地對軟件産品進行測試將使效率和質量得到最好的保證。bug發現的越晚,修改它所需的費用就越高,因此從經濟角度來看, 應該盡可能早的查找和修改bug。在修改費用變的過高之前,單元測試是一個在早期抓住bug的機會。
相比後階段的測試,單元測試的創建更簡單,維護更容易,並且可以更方便的進行重複。從全程的費用來考慮, 相比起那些復雜且曠日持久的集成測試,或是不穩定的軟件係統來說,單元測試所需的費用是很低的。
一些圖表
這些圖表摘自<<實用軟件度量>>(capers jones,mcgraw-hill 1991),它列出了準備測試,執行測試,和修改缺陷所花費的時間(以一個功能點為基準),這些數據顯示單元測試的成本效率大約是集成測試的兩倍 係統測試的三倍(參見條形圖)。
(術語域測試(field test)意思是在軟件投入使用以後,針對某個領域所作的所有測試活動)
這個圖表並不表示開發人員不應該進行後階段的測試活動,這次測試活動仍然是必須的。它的真正意思是盡可能早的排除盡可能多的bug可以減少後階段測試的費用。
其他的一些圖表顯示高達50%的維護工作量被花在那些總是會有的bug的修改上面。如果這些bug在開發階段被排除掉的話,這些工作量就可以節省下來。當考慮到軟件維護費用可能會比最初的開發費用高出數倍的時候,這種潛在的對50%軟件維護費用的節省將對整個軟件生命周期費用産生重大的影響。
結論
經驗表明一個盡責的單元測試方法將會在軟件開發的某個階段發現很多的bug,並且修改它們的成本也很低。在軟件開發的後期階段,bug的發現並修改將會變得更加睏難,並要消耗大量的時間和開發費用。無論什麽時候作出修改都要進行完整的回歸測試,在生命周期中盡早地對軟件産品進行測試將使效率和質量得到最好的保證。 在提供了經過測試的單元的情況下,係統集成過程將會大大地簡化。開發人員可以將精力集中在單元之間的交互作用和全局的功能實現上,而不是陷入充滿很多bug的單元之中不能自拔。
使測試工作的效力發揮到最大化的關鍵在於選擇正確的測試策略,這其中包含了完全的單元測試的概念,以及對測試過程的良好的管理,還有適當地使用象adatest和cantata這樣的工具來支持測試過程。這些活動可以産生這樣的結果:在花費更低的開發費用的情況下得到更穩定的軟件。更進一步的好處是簡化了維護過程並降低了生命周期的費用。有效的單元測試是推行全局質量文化的一部分,而這種質量文化將會為軟件開發者帶來無限的商機。
單元測試的優點
1、它是一種驗證行為。
程序中的每一項功能都是測試來驗證它的正確性。它為以後的開發提供支緩。就算是開發後期,我們也可以輕鬆的增加功能或更改程序結構,而不用擔心這個過程中會破壞重要的東西。而且它為代碼的重構提供了保障。這樣,我們就可以更自由的對程序進行改進。
2、它是一種設計行為。
編寫單元測試將使我們從調用者觀察、思考。特別是先寫測試(test-first),迫使我們把程序設計成易於調用和可測試的,即迫使我們解除軟件中的耦合。
3、它是一種編寫文檔的行為。
單元測試是一種無價的文檔,它是展示函數或類如何使用的最佳文檔。這份文檔是可編譯、可運行的,並且它保持最新,永遠與代碼同步。
4、它具有回歸性。
自動化的單元測試避免了代碼出現回歸,編寫完成之後,可以隨時隨地的快速運行測試。
單元測試的範疇
如果要給單元測試定義一個明確的範疇,指出哪些功能是屬於單元測試,這似乎很難。但下面討論的四個問題,基本上可以說明單元測試的範疇,單元測試所要做的工作。
1、 它的行為和我期望的一致嗎?
這是單元測試最根本的目的,我們就是用單元測試的代碼來證明它所做的就是我們所期望的。
2、 它的行為一直和我期望的一致嗎?
編寫單元測試,如果衹測試代碼的一條正確路徑,讓它正確走一遍,並不算是真正的完成。軟件開發是一個項復雜的工程,在測試某段代碼的行為是否和你的期望一致時,你需要確認:在任何情況下,這段代碼是否都和你的期望一致;譬如參數很可疑、硬盤沒有剩餘空間、緩衝區溢出、網絡掉綫的時候。
3、 我可以依賴單元測試嗎?
不能依賴的代碼是沒有多大用處的。既然單元測試是用來保證代碼的正確性,那麽單元測試也一定要值得依賴。
4、 單元測試說明我的意圖了嗎?
單元測試能夠幫我們充分瞭解代碼的用法,從效果上而言,單元測試就像是能執行的文檔,說明了在你用各種條件調用代碼時,你所能期望這段代碼完成的功能。
不寫測試的藉口
到這裏,我們已經列舉了使用單元測試的種種理由。也許,每個人都同意,是的,該做更多的測試。這種人人同意的事情還多着呢,是的,該多吃蔬菜,該戒煙,該多休息,該多鍛煉……這並不意味着我們中的所有人都會這麽去做,不是嗎?
1、 編寫單元測試太花時間了。
我們知道,在開發時越早發現bug,就能節省更多的時間,降低更多的風險。
下圖表摘自<<實用軟件度量>>(capers jones,mcgraw-hill 1991),它列出了準備測試,執行測試,和修改缺陷所花費的時間(以一個功能點為基準),這些數據顯示單元測試的成本效率大約是集成測試的兩倍,是係統測試的三倍(參見條形圖)。
術語:域測試(field test)意思是在軟件投入使用以後,針對某個領域所作的所有測試活動。
如果你仍然認為在編寫産品代碼的時候,還是沒有時間編寫測試代碼,那麽請先考慮下面這些問題:
1)、對於所編寫的代碼,你在調試上面花了多少時間。
2)、對於以前你自認為正確的代碼,而實際上這些代碼卻存在重大的bug,你花了多少時間在重新確認這些代碼上面。
3)、對於一個別人報告的bug,你花了多少時間纔找出導致這個bug 的源碼位置。
回答完這些問題,你一定不再以“太花時間”作為拒絶單元測試的藉口。
2、 運行測試的時間太長了。
合適的測試是不會讓這種情況發生的。實際上,大多數測試的執行都是非常快的,因此你在幾秒之內就可以運行成千上萬個測試。但是有時某些測試會花費很長的時間。這時,需要把這些耗時的測試和其他測試分開。通常可以每天運行這種測試一次,或者幾天一次。
3、 測試代碼並不是我的工作。
你的工作就是保證代碼能夠正確的完成你的行為,恰恰相反,測試代碼正是你不可缺少的工作。
4、 我並不清楚代碼的行為,所以也就無從測試。
如果你實在不清楚代碼的行為,那麽估計現在並不是編碼的時候。如果你並不知道代碼的行為,那麽你又如何知道你編寫的代碼是正確的呢?
5、 但是這些代碼都能夠編譯通過。
我們前面已經說過,代碼通過編譯衹是驗證它的語法通過。但並不能保證它的行為就一定正確。
6、 公司請我來是為了寫代碼,而不是寫測試。
公司付給你薪水是為了讓你編寫産品代碼,而單元測試大體上是一個工具,是一個和編輯器、開發環境、編譯器等處於同一位置的工具。
7、 如果我讓測試員或者qa(quality assurance)人員沒有工作,那麽我會覺得很內疚。
你並不需要擔心這些。請記住,我們在此衹是談論單元測試,而它衹是一種針對源碼的、低層次的,為程序員而設計的測試。在整個項目中,還有其他的很多測試需要這些人來完成,如:功能測試、驗收測試、性能測試、環境測試、有效性測試、正確性測試、正規分析等等。
8、 我的公司並不會讓我在真實係統中運行單元測試。
我們所討論的衹是針對開發者的單元測試。也就是說,如果你可以在其他的環境下(例如在正式的産品係統中)運行這些測試的話,那麽它們就不再是單元測試,而是其他類型的測試了。實際上,你可以在你的本機運行單元測試,使用你自己的數據庫,或者使用mock 對象。
測試代碼編寫
多數講述單元測試的文章都是以java為例,本文以c++為例,後半部分所介紹的單元測試工具也衹介紹c++單元測試工具。下面的示例代碼的開發環境是vc6.0。
産品類:
class cmyclass
{
public:
int add(int i, int j);
cmyclass();
virtual ~cmyclass();
private:
int mage; //年齡
cstring mphase; //年齡階段,如"少年","青年"
};
建立對應的測試類cmyclasstester,為了節約編幅,衹列出源文件的代碼:
void cmyclasstester::casebegin()
{
//pobj是cmyclasstester類的成員變量,是被測試類的對象的指針,
//為求簡單,所有的測試類都可以用pobj命名被測試對象的指針。
pobj = new cmyclass();
}
void cmyclasstester::caseend()
{
_delete_ pobj;
}
測試類的函數casebegin()和caseend()建立和銷毀被測試對象,每個測試用例的開頭都要調用casebegin(),結尾都要調用caseend()。
接下來,我們建立示例的産品函數:
int cmyclass::add(int i, int j)
{
return i+j;
}
和對應的測試函數:
void cmyclasstester::add_int_int()
{
}
把參數表作為函數名的一部分,這樣當出現重載的被測試函數時,測試函數不會産生命名衝突。下面添加測試用例:
void cmyclasstester::add_int_int()
{
//第一個測試用例
casebegin();{ //1
int i = 0; //2
int j = 0; //3
int ret = pobj->add(i, j); //4
assert(ret == 0); //5
}caseend(); //6
}
第1和第6行建立和銷毀被測試對象,所加的{}是為了讓每個測試用例的代碼有一個獨立的域,以便多個測試用例使用相同的變量名。
第2和第3行是定義輸入數據,第4行是調用被測試函數,這些容易理解,不作進一步解釋。第5行是預期輸出,它的特點是當實際輸出與預期輸出不同時自動報錯,assert是vc的斷言宏,也可以使用其他類似功能的宏,使用測試工具進行單元測試時,可以使用該工具定義的斷言宏。
示例中的格式顯得很不簡潔,2、3、4、5行可以合寫為一行:assert(pobj->add(0, 0) == 0);但這種不簡潔的格式卻是老納極力推薦的,因為它一目瞭然,易於建立多個測試用例,並且具有很好的適應性,同時,也是極佳的代碼文檔,總之,老納建議:輸入數據和預期輸出要自成一塊。
建立了第一個測試用例後,應編譯並運行測試,以排除語法錯誤,然後,使用拷貝/修改的辦法建立其他測試用例。由於各個測試用例之間的差別往往很小,通常衹需修改一兩個數據,拷貝/修改是建立多個測試用例的最快捷辦法。
測試用例
下面說說測試用例、輸入數據及預期輸出。輸入數據是測試用例的核心,老納對輸入數據的定義是:被測試函數所讀取的外部數據及這些數據的初始值。外部數據是對於被測試函數來說的,實際上就是除了局部變量以外的其他數據,老納把這些數據分為幾類:參數、成員變量、全局變量、io媒體。io媒體是指文件、數據庫或其他儲存或傳輸數據的媒體,例如,被測試函數要從文件或數據庫讀取數據,那麽,文件或數據庫中的原始數據也屬於輸入數據。一個函數無論多復雜,都無非是對這幾類數據的讀取、計算和寫入。預期輸出是指:返回值及被測試函數所寫入的外部數據的結果值。返回值就不用說了,被測試函數進行了寫操作的參數(輸出參數)、成員變量、全局變量、io媒體,它們的預期的結果值都是預期輸出。一個測試用例,就是設定輸入數據,運行被測試函數,然後判斷實際輸出是否符合預期。下面舉一個與成員變量有關的例子:
産品函數:
void cmyclass::grow(int years)
{
mage += years;
if(mage < 10)
mphase = "兒童";
else if(mage <20)
mphase = "少年";
else if(mage <45)
mphase = "青年";
else if(mage <60)
mphase = "中年";
else
mphase = "老年";
}
測試函數中的一個測試用例:
casebegin();{
int years = 1;
pobj->mage = 8;
pobj->grow(years);
assert( pobj->mage == 9 );
assert( pobj->mphase == "兒童" );
}caseend();
在輸入數據中對被測試類的成員變量mage進行賦值,在預期輸出中斷言成員變量的值。現在可以看到老納所推薦的格式的好處了吧,這種格式可以適應很復雜的測試。在輸入數據部分還可以調用其他成員函數,例如:執行被測試函數前可能需要讀取文件中的數據保存到成員變量,或需要連接數據庫,老納把這些操作稱為初始化操作。例如,上例中 assert( ...)之前可以加pobj->openfile();。為了訪問私有成員,可以將測試類定義為産品類的友元類。例如,定義一個宏:
#define unit_test(cls) friend class cls##tester;
然後在産品類聲明中加一行代碼:unit_test(classname)。
下面談談測試用例設計。前面已經說了,測試用例的核心是輸入數據。預期輸出是依據輸入數據和程序功能來確定的,也就是說,對於某一程序,輸入數據確定了,預期輸出也就可以確定了,至於生成/銷毀被測試對象和運行測試的語句,是所有測試用例都大同小異的,因此,我們討論測試用例時,衹討論輸入數據。
前面說過,輸入數據包括四類:參數、成員變量、全局變量、io媒體,這四類數據中,衹要所測試的程序需要執行讀操作的,就要設定其初始值,其中,前兩類比較常用,後兩類較少用。顯然,把輸入數據的所有可能取值都進行測試,是不可能也是無意義的,我們應該用一定的規則選擇有代表性的數據作為輸入數據,主要有三種:正常輸入,邊界輸入,非法輸入,每種輸入還可以分類,也就是平常說的等價類法,每類取一個數據作為輸入數據,如果測試通過,可以肯定同類的其他輸入也是可以通過的。下面舉例說明:
正常輸入
例如字符串的trim函數,功能是將字符串前後的空格去除,那麽正常的輸入可以有四類:前面有空格;後面有空格;前後均有空格;前後均無空格。
邊界輸入
上例中空字符串可以看作是邊界輸入。
再如一個表示年齡的參數,它的有效範圍是0-100,那麽邊界輸入有兩個:0和100。
非法輸入
非法輸入是正常取值範圍以外的數據,或使代碼不能完成正常功能的輸入,如上例中表示年齡的參數,小於0或大於100都是非法輸入,再如一個進行文件操作的函數,非法輸入有這麽幾類:文件不存在;目錄不存在;文件正在被其他程序打開;權限錯誤。
如果函數使用了外部數據,則正常輸入是肯定會有的,而邊界輸入和非法輸入不是所有函數都有。一般情況下,即使沒有設計文檔,考慮以上三種輸入也可以找出函數的基本功能點。實際上,單元測試與代碼編寫是“一體兩面”的關係,編碼時對上述三種輸入都是必須考慮的,否則代碼的健壯性就會成問題。
白盒覆蓋
上面所說的測試數據都是針對程序的功能來設計的,就是所謂的黑盒測試。單元測試還需要從另一個角度來設計測試數據,即針對程序的邏輯結構來設計測試用例,就是所謂的白盒測試。在老納看來,如果黑盒測試是足夠充分的,那麽白盒測試就沒有必要,可惜“足夠充分”衹是一種理想狀態,例如:真的是所有功能點都測試了嗎?程序的功能點是人為的定義,常常是不全面的;各個輸入數據之間,有些組合可能會産生問題,怎樣保證這些組合都經過了測試?難於衡量測試的完整性是黑盒測試的主要缺陷,而白盒測試恰恰具有易於衡量測試完整性的優點,兩者之間具有極好的互補性,例如:完成功能測試後統計語句覆蓋率,如果語句覆蓋未完成,很可能是未覆蓋的語句所對應的功能點未測試。
白盒測試針對程序的邏輯結構設計測試用例,用邏輯覆蓋率來衡量測試的完整性。邏輯單位主要有:語句、分支、條件、條件值、條件值組合,路徑。語句覆蓋就是覆蓋所有的語句,其他類推。另外還有一種判定條件覆蓋,其實是分支覆蓋與條件覆蓋的組合,在此不作討論。跟條件有關的覆蓋就有三種,解釋一下:條件覆蓋是指覆蓋所有的條件表達式,即所有的條件表達式都至少計算一次,不考慮計算結果;條件值覆蓋是指覆蓋條件的所有可能取值,即每個條件的取真值和取假值都要至少計算一次;條件值組合覆蓋是指覆蓋所有條件取值的所有可能組合。老納做過一些粗淺的研究,發現與條件直接有關的錯誤主要是邏輯操作符錯誤,例如:||寫成&&,漏了寫!什麽的,采用分支覆蓋與條件覆蓋的組合,基本上可以發現這些錯誤,另一方面,條件值覆蓋與條件值組合覆蓋往往需要大量的測試用例,因此,在老納看來,條件值覆蓋和條件值組合覆蓋的效費比偏低。老納認為效費比較高且完整性也足夠的測試要求是這樣的:完成功能測試,完成語句覆蓋、條件覆蓋、分支覆蓋、路徑覆蓋。做過單元測試的朋友恐怕會對老納提出的測試要求給予一個字的評價:暈!或者兩個字的評價:狂暈!因為這似乎是不可能的要求,要達到這種測試完整性,其測試成本是不可想象的,不過,出傢人不打逛語,老納之所以提出這種測試要求,是因為利用一些工具,可以在較低的成本下達到這種測試要求,後面將會作進一步介紹。
關於白盒測試用例的設計,程序測試領域的書籍一般都有講述,普通方法是畫出程序的邏輯結構圖如程序流程圖或控製流圖,根據邏輯結構圖設計測試用例,這些是純粹的白盒測試,不是老納想推薦的方式。老納所推薦的方法是:先完成黑盒測試,然後統計白盒覆蓋率,針對未覆蓋的邏輯單位設計測試用例覆蓋它,例如,先檢查是否有語句未覆蓋,有的話設計測試用例覆蓋它,然後用同樣方法完成條件覆蓋、分支覆蓋和路徑覆蓋,這樣的話,既檢驗了黑盒測試的完整性,又避免了重複的工作,用較少的時間成本達到非常高的測試完整性。不過,這些工作可不是手工能完成的,必須藉助於工具,後面會介紹可以完成這些工作的測試工具。
單元測試工具
現在開始介紹單元測試工具,老納衹介紹三種,都是用於c++語言的。
首先是cppunit,這是c++單元測試工具的鼻祖,免費的開源的單元測試框架。由於已有一衆高人寫了不少關於cppunit的很好的文章,老納就不現醜了,想瞭解cppunit的朋友,建議讀一下cpluser 所作的《cppunit測試框架入門》,網址是:http://blog.csdn.net/cpluser/archive/2004/09/21/111522.aspx。該文也提供了cppunit的下載地址。
然後介紹c++test,這是parasoft公司的産品。[c++test是一個功能強大的自動化c/c++單元級測試工具,可以自動測試任何c/c++函數、類,自動生成測試用例、測試驅動函數或樁函數,在自動化的環境下極其容易快速的將單元級的測試覆蓋率達到100%]。[]內的文字引自http://www.superst.com.cn/softwares_testing_c_cpptest,這是華唐公司的網頁。老納想寫些介紹c++test的文字,但發現無法超越華唐公司的網頁上的介紹,所以也就省點事了,想瞭解c++test的朋友,建議訪問該公司的網站。華唐公司代理c++test,想要購買或索取報價、試用版都可以找他們。
最後介紹visual unit,簡稱vu,這是國産的單元測試工具,據說申請了多項專利,擁有一批創新的技術,不過老納衹關心是不是有用和好用。[自動生成測試代碼 快速建立功能測試用例 程序行為一目瞭然 極高的測試完整性 高效完成白盒覆蓋 快速排錯 高效調試 詳盡的測試報告]。[]內的文字是vu開發商的網頁上摘錄的,網址是:http://www.unitware.cn。前面所述測試要求:完成功能測試,完成語句覆蓋、條件覆蓋、分支覆蓋、路徑覆蓋,用vu可以輕鬆實現,還有一點值得一提:使用vu還能提高編碼的效率,總體來說,在完成單元測試的同時,編碼調試的時間還能大幅度縮短。算了,不想再講了,老納顯擺理論、介紹經驗還是有興趣的,因為可以滿足老納好為人師的虛榮心,但介紹工具就覺得索然無味了,畢竟工具好不好用,合不合用,要試過纔知道,還是自己去開發商的網站看吧,可以下載演示版,還有演示課件。 |