金融数学

金融 > 金融數學

·No. 1	·金融中的數據挖掘	·相關詞
·包含詞	·更多結果...

No. 1

　　21世紀數學技術和計算機技術一樣成為任何一門科學發展過程中的必備工具。美國花旗
　　銀行副總裁柯林斯（collins）1995年3月6日在英國劍橋大學牛頓數學科學研究所的講演
　　中敘述到：“在18世紀初，和牛頓同時代的著名數學家伯努利曾宣稱：‘從事物理學研
　　究而不懂數學的人實際上處理的是意義不大的東西。’那時候，這樣的說法對物理學而
　　言是正確的，但對於銀行業而言不一定對。在18世紀，你可以沒有任何數學訓練而很好
　　地運作銀行。過去對物理學而言是正確的說法現在對於銀行業也正確了。於是現在可以
　　這樣說：‘從事銀行業工作而不懂數學的人實際上處理的是意義不大的東西’。”他還
　　指出：花旗銀行70%的業務依賴於數學，他還特別強調，‘如果沒有數學發展起來的工具
　　和技術，許多事情我們是一點辦法也沒有的……沒有數學我們不可能生存。”這裏銀行
　　傢用他的經驗描述了數學的重要性。在冷戰結束後，美國原先在軍事係統工作的數以千
　　計的科學家進入了華爾街，大規模的基金管理公司紛紛開始雇傭數學博士或物理學博士
　　。這是一個重要信號：金融市場不是戰場，卻遠勝於戰場。但是市場和戰場都離不開復
　　雜艱深，迅速的計算工作。
　　然而在國內卻不能回避這樣一個事實：受過高等教育的專業人士都可以讀懂國內經濟類
　　，金融類核心期刊，但國內金融學專業的本科生卻很難讀懂本專業的國際核心期刊《jo
　　urnal of finance》，證券投資基金經理少有人去閱讀《joural of portfolio manage
　　ment》，其原因不在於外語的熟練程度，而在於內容和研究方法上的差異，目前國內較
　　多停留在以描述性分析為主着重描述金融的定義，市場的劃分及金融組織等，或稱為描
　　述金融；而國外學術界以及實務界則以數量性分析為主，比如資本資産定價原理，衍生
　　資産的復製方法等，或稱為分析金融，即使在國內金融學的教材中，雖然涉及到了標的
　　資産（underlying asset）和衍生資産（derivative asset）定價，但對公式提出的原
　　文證明也予以回避，這種現象是不合理的，産生這種現象的原因有如下幾個方面：首先
　　，根據研究方法的不同，我國金融學科既可以歸到我國哲學社會科學規劃辦公室，也可
　　以歸到國傢自然科學基金委員會管理科學部，前者占主要地位，且這支隊伍大多來自經
　　濟轉軌前的哲學和政治學隊伍，因此研究方法多為定性的方法。而西方正好相反，金融
　　研究方向的隊伍具有很好的數理功底。其次是我國的金融市場的實際環境所决定。我國
　　證券市場剛起步，也沒有一個統一的貨幣市場，投資者隊伍主要由中小投資者構成，市
　　場投機成分高，因此不會産生對現代投資理論的需求，相應地，學術界也難以對此産生
　　研究的熱情。
　　然而數學技術以其精確的描述，嚴密的推導已經不容爭辯地走進了金融領域。自從1952
　　年馬柯維茨（markowitz）提出了用隨機變量的特徵變量來描述金融資産的收益性，不確
　　定性和流動性以來，已經很難分清世界一流的金融雜志是在分析金融市場還是在撰寫一
　　篇數學論文。再回到collins的講話，在金融證券化的趨勢中，無論是我們采用統計學的
　　方法分析歷史數據，尋找價格波動規律，還是用數學分析的方法去復製金融産品，誰最
　　先發現了內在規律，誰就能在瞬息萬變的金融市場中獲取高額利潤。儘管由於森嚴的進
　　入堡壘，數學進入金融領域受到了一定的排斥和漠視，然而為了追求利潤，未知的恐懼
　　顯得不堪一擊。
　　於是，在未來我們可以想象有這樣一個充滿美好前景的産業鏈：金融市場--金融數學--
　　計算機技術。金融市場存在巨大的利潤和高風險，需要計算機技術幫助分析，然而計算
　　機不可能大概，左右等描述性語言，它本質上衹能識別由0和1構成的空間，金融數學在
　　這個過程中正好扮演了一個中介角色，它可以用精確語言描述隨機波動的市場。比如，
　　通過收益率狀態矩陣在無套利的情形下找到了無風險貼現因子。因此，金融數學能幫助
　　it産業嚮金融産業延伸，並獲取自己的利潤空間

金融中的數據挖掘

　　1.什麽是關聯規則
　　在描述有關關聯規則的一些細節之前，我們先來看一個有趣的故事： "尿布與啤酒"的故事。
　　在一傢超市裏，有一個有趣的現象：尿布和啤酒赫然擺在一起出售。但是這個奇怪的舉措卻使尿布和啤酒的銷量雙雙增加了。這不是一個笑話，而是發生在美國沃爾瑪連鎖店超市的真實案例，並一直為商傢所津津樂道。沃爾瑪擁有世界上最大的數據倉庫係統，為了能夠準確瞭解顧客在其門店的購買習慣，沃爾瑪對其顧客的購物行為進行購物籃分析，想知道顧客經常一起購買的商品有哪些。沃爾瑪數據倉庫裏集中了其各門店的詳細原始交易數據。在這些原始交易數據的基礎上，沃爾瑪利用數據挖掘方法對這些數據進行分析和挖掘。一個意外的發現是："跟尿布一起購買最多的商品竟是啤酒！經過大量實際調查和分析，揭示了一個隱藏在"尿布與啤酒"背後的美國人的一種行為模式：在美國，一些年輕的父親下班後經常要到超市去買嬰兒尿布，而他們中有30%～40%的人同時也為自己買一些啤酒。産生這一現象的原因是：美國的太太們常叮囑她們的丈夫下班後為小孩買尿布，而丈夫們在買尿布後又隨手帶回了他們喜歡的啤酒。
　　按常規思維，尿布與啤酒風馬牛不相及，若不是藉助數據挖掘技術對大量交易數據進行挖掘分析，沃爾瑪是不可能發現數據內在這一有價值的規律的。
　　數據關聯是數據庫中存在的一類重要的可被發現的知識。若兩個或多個變量的取值之間存在某種規律性，就稱為關聯。關聯可分為簡單關聯、時序關聯、因果關聯。關聯分析的目的是找出數據庫中隱藏的關聯網。有時並不知道數據庫中數據的關聯函數，即使知道也是不確定的，因此關聯分析生成的規則帶有可信度。關聯規則挖掘發現大量數據中項集之間有趣的關聯或相關聯繫。Agrawal等於1993年首先提出了挖掘顧客交易數據庫中項集間的關聯規則問題，以後諸多的研究人員對關聯規則的挖掘問題進行了大量的研究。他們的工作包括對原有的算法進行優化，如引入隨機采樣、並行的思想等，以提高算法挖掘規則的效率；對關聯規則的應用進行推廣。關聯規則挖掘在數據挖掘中是一個重要的課題，最近幾年已被業界所廣泛研究。
　　2.關聯規則挖掘過程、分類及其相關算法
　　2.1關聯規則挖掘的過程
　　關聯規則挖掘過程主要包含兩個階段：第一階段必須先從資料集合中找出所有的高頻項目組(Frequent Itemsets)，第二階段再由這些高頻項目組中産生關聯規則(Association Rules)。
　　關聯規則挖掘的第一階段必須從原始資料集合中，找出所有高頻項目組(Large Itemsets)。高頻的意思是指某一項目組出現的頻率相對於所有記錄而言，必須達到某一水平。一項目組出現的頻率稱為支持度(Support)，以一個包含A與B兩個項目的2-itemset為例，我們可以經由公式(1)求得包含{A,B}項目組的支持度，若支持度大於等於所設定的最小支持度(Minimum Support)門檻值時，則{A,B}稱為高頻項目組。一個滿足最小支持度的k-itemset，則稱為高頻k-項目組(Frequent k-itemset)，一般表示為Large k或Frequent k。算法並從Large k的項目組中再産生Large k+1，直到無法再找到更長的高頻項目組為止。
　　關聯規則挖掘的第二階段是要産生關聯規則(Association Rules)。從高頻項目組産生關聯規則，是利用前一步驟的高頻k-項目組來産生規則，在最小信賴度(Minimum Confidence)的條件門檻下，若一規則所求得的信賴度滿足最小信賴度，稱此規則為關聯規則。例如：經由高頻k-項目組{A,B}所産生的規則AB，其信賴度可經由公式(2)求得，若信賴度大於等於最小信賴度，則稱AB為關聯規則。
　　就沃爾馬案例而言，使用關聯規則挖掘技術，對交易資料庫中的紀錄進行資料挖掘，首先必須要設定最小支持度與最小信賴度兩個門檻值，在此假設最小支持度min_support=5% 且最小信賴度min_confidence=70%。因此符合此該超市需求的關聯規則將必須同時滿足以上兩個條件。若經過挖掘過程所找到的關聯規則「尿布，啤酒」，滿足下列條件，將可接受「尿布，啤酒」的關聯規則。用公式可以描述Support(尿布，啤酒)>=5%且Confidence(尿布，啤酒)>=70%。其中，Support(尿布，啤酒)>=5%於此應用範例中的意義為:在所有的交易紀錄資料中，至少有5%的交易呈現尿布與啤酒這兩項商品被同時購買的交易行為。Confidence(尿布，啤酒)>=70%於此應用範例中的意義為:在所有包含尿布的交易紀錄資料中，至少有70%的交易會同時購買啤酒。因此，今後若有某消費者出現購買尿布的行為，超市將可推薦該消費者同時購買啤酒。這個商品推薦的行為則是根據「尿布，啤酒」關聯規則，因為就該超市過去的交易紀錄而言，支持了“大部份購買尿布的交易，會同時購買啤酒”的消費行為。
　　從上面的介紹還可以看出，關聯規則挖掘通常比較適用與記錄中的指標取離散值的情況。如果原始數據庫中的指標值是取連續的數據，則在關聯規則挖掘之前應該進行適當的數據離散化（實際上就是將某個區間的值對應於某個值），數據的離散化是數據挖掘前的重要環節，離散化的過程是否合理將直接影響關聯規則的挖掘結果。
　　2.2關聯規則的分類
　　按照不同情況，關聯規則可以進行分類如下：
　　1.基於規則中處理的變量的類別，關聯規則可以分為布爾型和數值型。
　　布爾型關聯規則處理的值都是離散的、種類化的，它顯示了這些變量之間的關係；而數值型關聯規則可以和多維關聯或多層關聯規則結合起來，對數值型字段進行處理，將其進行動態的分割，或者直接對原始的數據進行處理，當然數值型關聯規則中也可以包含種類變量。例如：性別=“女”=>職業=“秘書” ，是布爾型關聯規則；性別=“女”=>avg（收入）=2300，涉及的收入是數值類型，所以是一個數值型關聯規則。
　　2.基於規則中數據的抽象層次，可以分為單層關聯規則和多層關聯規則。
　　在單層的關聯規則中，所有的變量都沒有考慮到現實的數據是具有多個不同的層次的；而在多層的關聯規則中，對數據的多層性已經進行了充分的考慮。例如：IBM臺式機=>Sony打印機，是一個細節數據上的單層關聯規則；臺式機=>Sony打印機，是一個較高層次和細節層次之間的多層關聯規則。
　　3.基於規則中涉及到的數據的維數，關聯規則可以分為單維的和多維的。
　　在單維的關聯規則中，我們衹涉及到數據的一個維，如用戶購買的物品；而在多維的關聯規則中，要處理的數據將會涉及多個維。換成另一句話，單維關聯規則是處理單個屬性中的一些關係；多維關聯規則是處理各個屬性之間的某些關係。例如：啤酒=>尿布，這條規則衹涉及到用戶的購買的物品；性別=“女”=>職業=“秘書”，這條規則就涉及到兩個字段的信息，是兩個維上的一條關聯規則。
　　2.3關聯規則挖掘的相關算法
　　1.Apriori算法：使用候選項集找頻繁項集
　　Apriori算法是一種最有影響的挖掘布爾關聯規則頻繁項集的算法。其核心是基於兩階段頻集思想的遞推算法。該關聯規則在分類上屬於單維、單層、布爾關聯規則。在這裏，所有支持度大於最小支持度的項集稱為頻繁項集，簡稱頻集。
　　該算法的基本思想是：首先找出所有的頻集，這些項集出現的頻繁性至少和預定義的最小支持度一樣。然後由頻集産生強關聯規則，這些規則必須滿足最小支持度和最小可信度。然後使用第1步找到的頻集産生期望的規則，産生衹包含集合的項的所有規則，其中每一條規則的右部衹有一項，這裏采用的是中規則的定義。一旦這些規則被生成，那麽衹有那些大於用戶給定的最小可信度的規則纔被留下來。為了生成所有頻集，使用了遞推的方法。
　　可能産生大量的候選集,以及可能需要重複掃描數據庫，是Apriori算法的兩大缺點。
　　2.基於劃分的算法
　　Savasere等設計了一個基於劃分的算法。這個算法先把數據庫從邏輯上分成幾個互不相交的塊，每次單獨考慮一個分塊並對它生成所有的頻集，然後把産生的頻集合併，用來生成所有可能的頻集，最後計算這些項集的支持度。這裏分塊的大小選擇要使得每個分塊可以被放入主存，每個階段衹需被掃描一次。而算法的正確性是由每一個可能的頻集至少在某一個分塊中是頻集保證的。該算法是可以高度並行的，可以把每一分塊分別分配給某一個處理器生成頻集。産生頻集的每一個循環結束後，處理器之間進行通信來産生全局的候選k-項集。通常這裏的通信過程是算法執行時間的主要瓶頸；而另一方面，每個獨立的處理器生成頻集的時間也是一個瓶頸。
　　3.FP-樹頻集算法
　　針對Apriori算法的固有缺陷，J. Han等提出了不産生候選挖掘頻繁項集的方法：FP-樹頻集算法。采用分而治之的策略，在經過第一遍掃描之後，把數據庫中的頻集壓縮進一棵頻繁模式樹（FP-tree），同時依然保留其中的關聯信息，隨後再將FP-tree分化成一些條件庫，每個庫和一個長度為1的頻集相關，然後再對這些條件庫分別進行挖掘。當原始數據量很大的時候，也可以結合劃分的方法,使得一個FP-tree可以放入主存中。實驗表明，FP-growth對不同長度的規則都有很好的適應性，同時在效率上較之Apriori算法有巨大的提高。
　　3.該領域在國內外的應用
　　3．1關聯規則發掘技術在國內外的應用
　　就目前而言，關聯規則挖掘技術已經被廣泛應用在西方金融行業企業中，它可以成功預測銀行客戶需求。一旦獲得了這些信息，銀行就可以改善自身營銷。現在銀行天天都在開發新的溝通客戶的方法。各銀行在自己的ATM機上就捆綁了顧客可能感興趣的本行産品信息，供使用本行ATM機的用戶瞭解。如果數據庫中顯示，某個高信用限額的客戶更換了地址，這個客戶很有可能新近購買了一棟更大的住宅，因此會有可能需要更高信用限額，更高端的新信用卡，或者需要一個住房改善貸款，這些産品都可以通過信用卡賬單郵寄給客戶。當客戶打電話咨詢的時候，數據庫可以有力地幫助電話銷售代表。銷售代表的電腦屏幕上可以顯示出客戶的特點，同時也可以顯示出顧客會對什麽産品感興趣。
　　同時，一些知名的電子商務站點也從強大的關聯規則挖掘中的受益。這些電子購物網站使用關聯規則中規則進行挖掘，然後設置用戶有意要一起購買的捆綁包。也有一些購物網站使用它們設置相應的交叉銷售，也就是購買某種商品的顧客會看到相關的另外一種商品的廣告。
　　但是目前在我國，“數據海量，信息缺乏”是商業銀行在數據大集中之後普遍所面對的尷尬。目前金融業實施的大多數數據庫衹能實現數據的錄入、查詢、統計等較低層次的功能，卻無法發現數據中存在的各種有用的信息，譬如對這些數據進行分析，發現其數據模式及特徵，然後可能發現某個客戶、消費群體或組織的金融和商業興趣，並可觀察金融市場的變化趨勢。可以說，關聯規則挖掘的技術在我國的研究與應用並不是很廣泛深入。
　　3．2近年來關聯規則發掘技術的一些研究
　　由於許多應用問題往往比超市購買問題更復雜，大量研究從不同的角度對關聯規則做了擴展，將更多的因素集成到關聯規則挖掘方法之中，以此豐富關聯規則的應用領域，拓寬支持管理决策的範圍。如考慮屬性之間的類別層次關係，時態關係，多表挖掘等。近年來圍繞關聯規則的研究主要集中於兩個方面，即擴展經典關聯規則能夠解决問題的範圍，改善經典關聯規則挖掘算法效率和規則興趣性。

相關詞

經濟學

人文科學

財務管理

包含詞

金融數學技術	金融數學方法	金融數學-金融工程引論
金融數學:衍生産品定價引論