weifen duice
微分對策
differential game
研究兩個或多個决策人的控製作用同時施加於一個由微分方程描述的運動係統時實現各自最優目標的對策過程的理論。微分對策的最優策略所應滿足的必要條件,可象最優控製理論中的極大值原理那樣導出。微分對策實質上是一種雙(多)方的最優控製問題,而通常的最優控製問題可看成是單人微分對策。微分對策還可推廣到由差分方程描述的離散時間動態係統,因而常常更廣義地稱為動態對策。微分對策的研究始於20世紀40年代。R.艾薩剋斯在1965年對完全對抗的二人零和對策問題的研究,奠定了微分對策理論的基礎。微分對策已應用於軍事、公安、工業控製、航天航空、環境保護、海洋捕撈、經濟管理和市場競爭等方面。微分對策所提供的數學模型還可能應用於更多的方面。例如,在微分對策中,應用突變論的概念可導致對不連續性和奇異性進行分類研究。此外,還可探討當約束條件、控製策略或合作關係處於模糊情況時(見模糊控製)的微分對策問題。在對策問題中,决策人都以對方的行為模型作為自己决策的依據,因此微分對策的研究與心理學、人工智能、行為科學等學科都有密切的關係。
構成要素和分類 構成各類微分對策的要素可歸結為:①參與對策的各方(决策人)具有不同的利益。②决策人根據自己擁有的信息作决策。③按照對策規則,决策人的地位可能不同。④對策的結局由諸决策人的控製作用共同决定。對應這些要素的不同情況,可將微分對策作各種形式的分類。按照對策人的數目分類,如□人微分對策,□可取為2、3、…。按照結局分類,如結局的得失在連續範圍內變化的問題稱定量(程度)微分對策,結局取“贏”或“輸”二者居一的問題稱定性(種類)微分對策。也可按照决策人利益的性質分類,如决策人的利益為對抗時稱零和微分對策(即各方得失總和為零),决策人有競爭又有合作時稱非零和微分對策(如上下級之間,共同壟斷同一市場的幾個公司之間)。按照决策人間合作程度,又有組隊最優、納什平衡、帕雷托最優和協商策略等多種形式。在上下級多人决策問題中,通常要求上級决策人先宣佈自己的策略,下級按照自身利益作出響應。這種策略如能使下級的行動符合上級的目標,這類微分對策便稱為上下級對策(斯塔剋爾貝格對策)或激勵對策。此外,依對策問題中動態係統類型,還有偏微分對策(動態係統用偏微分方程描述)和隨機微分對策(存在隨機的幹擾或觀測誤差的微分對策)。在微分對策中,决策人擁有信息的多寡,對决策的自由度和結局的優劣有明顯的影響。定量地分析這些影響,並對用於信息採集和傳輸(或破壞對方的採集與傳輸)的費用與可能取得的收益進行權衡的問題,稱為信息分配和信息結構問題。
二人零和微分對策 這是研究最多和應用較廣的一種微分對策,其動態過程可用以下狀態方程(見狀態空間法)描述:
□式中各個變量的含義可用追躲問題為例來說明。狀態變量 □及其導數□ 表示追方和躲方間的相對位置和相對速度等;□為追方的控製作用,□為躲方的控製作用,它們共同决定□的變化;□表示時間。再用性能指標
□描寫追擊的總效果,它可能是脫靶量、命中時間等。式中□是對策終止時間,它由反映結局(例如擊中)的條件Ψ[□(□)]=0來確定。二人零和微分對策問題的求解,按提法的不同有兩種情況。
①在定量微分對策的提法中,追方選擇□使J盡量小,而躲方選擇□使J盡量大,因此問題的解□*、□*應滿足
J(□*,□)≤J(□*,□*)≤J(□,□*)這樣的(□*,□*)稱為鞍點策略。在一定條件下,最優控製理論 |