引言
前兩天一個朋友給我打電話,問我如何估計項目開發(fā)時間。對此我很詫異,問他以前他們是怎么估計的,他說以前基本都是大家開個會,大約都說說自己意見,后負責人一拍腦袋,給出一個時間。不過這次遇到一個非常認真的客戶,要求不但要估計出項目開發(fā)時間,還要明確說明具體的依據(jù)和估算方法,這下我這朋友有點犯難,才詢問我。后來我翻閱了一些數(shù)理統(tǒng)計和項目估算方面的資料,告訴了他利用一元線性回歸分析估計軟件項目開發(fā)時間的方法。想到這種估算需要在一些開發(fā)團隊很常見,所以在這里整理成文。
問題的定義及數(shù)學模型
這里我們僅考慮比較簡單的一元回歸問題,即通過單一的Proxy預測項目開發(fā)時間。這里先說一下什么叫Proxy。Proxy叫做代理變量,簡單來說是估計項目開發(fā)時間的數(shù)理依據(jù)。說白了,是我們預測開發(fā)時間,總要有個根據(jù),例如需求中用例個數(shù)、概要設計中的實體個數(shù)、數(shù)據(jù)庫中的表的數(shù)量等等。設Proxy為x,項目開發(fā)時間為y,那么可以得到y(tǒng)=f(x),學過初等數(shù)學的都可以看懂,是說開發(fā)時間是Proxy的一個函數(shù),如果我們既知道了新項目的x,又知道函數(shù)f,那么y出來了?上煜履挠羞@么好的事,我們現(xiàn)在既不知道f,又不知道x,別說x的值了,甚至我們都不知道該用哪個Proxy做x。
不過也不必悲觀,經(jīng)過上面分析,我們至少明確了我們奮斗的方向:
1、找出候選的Proxy。
2、選擇合適的Proxy作為x。
3、得到x的值。
4、確定函數(shù)f。
5、得出y。
下面我們一步一步解決各個問題。
找出候選的Proxy
雖然一個項目的特征量很多,不過可不是隨便一個特征量都可以當做Proxy的。要成為Proxy,至少要滿足如下四個條件。
1)Proxy的值應該和工作量緊密相關。
這個不用多解釋了吧,是說Proxy的值和y的值要有相關性。關于“相關性”的概念這里先定性說一下,定量分析后續(xù)會講到。
2)Proxy應該是能明確得出值的,沒有二義性。
這是說Proxy應該對應一個明確數(shù)值,是一是一,是二是二,不能取“不錯”、“挺多”這種值。
3)Proxy應該在項目開始階段可以得出或能較精確估計出。
這個開始階段晚不能晚于概要設計,因為估算都是一開始進行,所以Proxy一定要在起始階段能得出,否則項目結束了誰還搞估算,實際值都出來了。
4)Proxy對于不同的實施方案是敏感的。
是說當開發(fā)方法、開發(fā)過程等因素變化時,Proxy應該具有一定的敏感性。
經(jīng)過上述分析,我想選用什么作為Proxy大家心里都有點譜了。一般來說,在估算時常被作為Proxy的有需求分析中用例數(shù)量、需求分析中功能模塊數(shù)量、概要設計中實體數(shù)量和數(shù)據(jù)庫設計中表的數(shù)量。當然,各位也可以根據(jù)上述要求選擇自己的Proxy。在本文中,我們暫且選擇用例數(shù)量、實體數(shù)量和表數(shù)量三個Proxy作為候選。
選擇合適的Proxy作為x
這里所謂的“合適”,在數(shù)學上的意義是和開發(fā)時間y的相關性強。那么什么是相關性呢,從直觀意義上,兩個變量的相關性是指兩個變量關聯(lián)的緊密程度,數(shù)學上可以用相關系數(shù)表示。相關系數(shù)計算公式如下:
至于這個公式為什么能反映出兩個變量的相關性,可以去參考高等數(shù)理統(tǒng)計相關資料,本文不再贅述,只是順便說一下,r的范圍在-1~1之間,值越大代表相關性越強,如果為正值則表示兩個變量正相關,否則為負相關。知道了這個,我們這一步驟的目的是找出候選Proxy中與y相關系數(shù)大的作為x。
不過,這數(shù)據(jù)從哪里來呢?這要從以前做過的項目中提取了。查閱朋友所在團隊近做過的5個項目的數(shù)據(jù)資料(這里當然歷史項目越多越好,不過筆者這個朋友的團隊只有5個項目的記錄),得到如下數(shù)據(jù):
項目工期(y): 424 267 90 331 160 (人時)
用例數(shù)量(x1): 37 20 6 18 12
實體數(shù)量(x2): 15 9 4 11 14
數(shù)據(jù)表數(shù)量(x3): 25 18 7 16 18