书城成功励志见机应当行动
21041300000011

第11章 行为的决策(2)

二、决策分析

研究决策者作出决策的过程的一种系统的理论和方法。目的是使决策过程符合科学的原则,并使所作出的决策最大限度地满足决策者的需求。是决策科学的应用分支。它在军事领域的许多方面,如制定军事战略、确定作战方案、进行兵力部署、实施作战指挥和保障以及对军队进行管理和武器装备的研制、采购等的运筹分析中有广泛的应用。这种决策分析起源于20世纪50年代美国学者A·瓦尔德奠基的统计决策理论。决策分析的一些基本概念如主观概率、贝叶斯分析方法、效用函数等,则和更早期的统计学和经济学的发展有密切关系。1961年,美国学者H·赖法与R·O·施莱弗的《应用统计决策理论》一书的出版,使决策分析具备了学科分支的雏形。1966年,美国学者R·霍华德在文献《决策分析:应用决策理论》中明确地将决策分析作为决策理论的应用分支。现代决策分析与行为科学、心理学、经济学等学科以及军事科学的其他领域交叉发展,其内容已远远超出这些经典文献所赋予决策分析的含义。决策分析与博奕论有其共同点也有不同点,共同点是在一个决策面前,必须寻找到尽可能多的决策方案,然后比较其优劣,找出最佳方案;不同点则是,博奕论是有明确的对手存在的,而决策分析没有明确的对手,只有预定的目标,即我们在寻找最佳方案的指导原则是如何能干方百计地达到我们的期望值。

经典的决策分析方法强调定量分析,强调建立问题的数学模型,强调数学模型的公理化基础及其内{的无矛盾性。其基本模型包含下列五个组成部分:可行方案(或称备择行动)集A,状态集0,后果集x,损益函数F,决策准则K。以指挥员选择作战进攻时间为例,可行方案集是所有可供选择的若干进攻时间的总体,状态集可以是与进攻时间有关的作战双方的态势、天候、地形等状况的总体。根据作战目的、目标的不同,后果集可以是作战终止时双方军力损失或阵地得失等不同状况的总体。损益函数是评估后果的指标。决策准则是依据后果的评估所选择的最终进行决策的准则。一般说来,后果依赖于方案与状态。损益函数值依赖于后果变量,因之依赖于方案与状态变量。决策准则既反映决策问题的要求和目的,也反映决策者的主观偏好或倾向。

决策准则依不同性质的决策问题而区分。以随机决策问题为例,部分可采取的准则有:①期望值准则,即使平均效益(损失)最大(小)。②悲观准则,即使可能产生的效益(损失)中之最小(大)者达到最大(小)。③乐观准则,即使可能产生的效益(损失)中之最大(小)者达到最大(小)。④风险准则,即使蒙受某种损失的风险最小。

决策分析所处理的决策问题的主要特征及类型有:①状态和结局具有非确定性,这形成非确定性决策问题。②要求达到的目标不是单一的,而且各目标间往往存在对立,这形成多目标决策问题。③决策须连串作出,存在依时间先后的序贯性,这形成序贯决策问题。④决策者不只一个,而且各决策者的目的和偏好有些可能大体一致,有些则可能不同甚至互相对立,这形成群决策问题。⑤决策是在上下存在隶属关系的多个层次上作出的,这形成递阶决策问题。决策分析的理论基础主要是指定量描述偶然性和模糊性的有关理论。目前在决策分析中考虑的非确定性主要是偶然性。此处偶然性可用建立于事件在重复试验下的出现频率的概念基础上的客观概率表示,也可用建立在决策者对事件发生可能性的估计的概念基础上的主观概率表示。由于决策分析中经常要处理一次性的偶然事件,这时客观概率的表示不适用,因之主观概率成为经典决策分析的基本概念。评定主观概率的方法很多,其中有模拟试验法。专家评定法,对决策者的直接询问或间接询问法等。为了保证估计性的主观概率的科学性,必须使该估计程序建立在与主观估计有关的科学的公理化基础之上。各种确定主观概率的方法所依据的公理化基础不尽相同,迄今尚没有一个公认的充分完善和普遍适用的确定主观慨率的公理化体系。在这方面,基础的概念首先是事件发生可能性大小的关系。以a≥b表示关系“事件a比事件b更可能或和b同样可能发生”,此关系应具备下列基本性质:①具有连通性,即对任意两事件a与b,或a≥b,或b≥a,或两者都成立。②具有传递性,即由a≥b与b≥a可推出吐≥c。③具有同等可能关系性,即a≥b与b≥a都成立表示a与b发生的可能性相等,并记之以a-b。对于若干确定主观概率的程序,在这些性质的基础上,再附加特定假设,可得出符合数学公理化定义的概率分布。

后果变量x的随机规律可用客观或主观概率的分布描述。设后果集为有限集{x1……,xr},相应的概率分布为{P1……,Pr},则l=

称为一抽奖。抽奖可以是复合的,即抽奖口中的某后果,XI(L≤i≤r),可以是另一抽奖Li。随机决策分析中的损益函数通常要依靠效用函数表示,一个定义完善的效用函数,即要反映最终后果的效益,又要反映决策者对于后果的偏好以及后果随机性所含风险的态度。尽管定义和构造效用函数的方法很多,但都建立在后果与抽奖的偏好序的概念上。

效用函数可定义为在结局集X上的实值函数。设在后果集x与抽奖集£上都定义了偏好关系≥:X1≥X2表示后果X1不劣于X1,L1≥L2表示抽奖L1。不劣于L2后果偏好关系表达决策者对后果的偏好,抽奖偏好关系则表达决策者对后果随机性所含风险的态度。策者对后果的偏好以及对风险的态度。

非确定性的另一种情况是模糊性,它与偶然性具有本质上的区别。由于人们对某些事物的某种特征只能获得不完备的信息,脑中不能形成关于此特征的精确知觉或概念,而只能形成模糊知觉或模糊概念。处理这一类非确定性决策问题可运用模糊决策分析,它的基础是模糊数学。在模糊决策分析中,通常可行方案集是确定的,而状态、后果和目标等可能都是模糊的。这样,就会提出在不同事物的各自的模糊描述的基础上建立统一的模糊定量描述以及有关的分析和运算的理论体系等基本问题。这些问题可以采用不同的理论框架去处理,但迄今尚未得到公认的完善的理论框架。

经典决策分析的程序。经典的决策分析的程序可归纳如下:①对需要作出决策的问题进行分析,构成模型咿的初步框架。②采用适当方法确定上述模型中的数量形式、关系、数据等。例如,对随机决策问题,确定主观概率分布,效用函数等。③根据须付出的代价来权衡,是否进一步主动搜取信息,以改善模型。④根据最终确定的模型,在可行方案集中确定最终决策。

决策树。在确定了主观概率和效用函数之后,对于偶然性决策问题,决策树是决策分析的常用的典型方式。以新武器的发展为例,设国防决策部门要发展达到某种战略目标的新武器,则它将面临一系列决策问题,如:在几种不同类型的新武器中选择一种类型;对研制成功的新武器确定投产规模;对已生产出来的新武器确定部署方式等。此决策过程可以用决策树图形来表示。图中方形表示决策点,圆形表示机会点。在决策点上,决策者须从方案集中选决策,因此由该点出发的分枝为决策枝。在机会点上,客观环境使之以不同概率出现不同的状态,因此由该点出发的分枝为机会分支。根据已知的主观概率和效用函数,可以求出图中决策树右端各分支的期望效用,由此可求出各决策点上的最优决策。

多目标决策。多目标决策中的最基本概念是优劣结构和非劣方案(或称有效方案)。优劣结构是确定不同的可行方案之间的优劣关系的基础。非劣方案定义为如下的可行方案:不存在任何劣于该方案的其他可行方案。

决策分析所处理的决策问题的主要特征中,最主要的是非确定性特征及多目标性特征。在非确定性决策问题中,具有较完善理论基础的是以客观概率描述的随机对象的决策问题。其他以主观概率描述的偶然性对象,以隶属度函数描述的模糊性对象,以不确定元素集描述的不确定性对象等三类非确定性决策问题,其决策分析所依赖的理论基础,尚待发展和完善化。在多目标决策问题中,决策者与分析者的交互在作出决策过程中已E1益显示其不可缺少的作用。由于决策者面临的问题大多数具有高度复杂性,计算机已成为决策分析的基本工具,由决策者与计算机组成的决策支持系统,为决策分析的发展提出了新的挑战性问题和强有力的手段。具有人工智能支持的模型库、知识库,以及用以提供灵活适当的人机交互形式的对话库及有关的管理系统,已成为决策支持系统与决策分析的重要新方向。在军事指挥中,指挥自动化系统的研制也日益强烈地依赖于现代决策分析方法。

三、马尔可夫决策规划

对由一系列决策控制的随机动态系统的优化问题进行研究的理论。亦称马尔可夫决策过程。马尔可夫决策规划要求决策者在一系列(离散的或连续的)时刻都要作出决策,且系统的状态转移是随机的,并具有马尔可夫性,即在已知它目前的状态(现在)的条件下,它未来的演变(将来)不依赖于它以往的演变(过去)。在每个观察时刻,决策者依据当时系统的状态,从可以采用的行动(措施、方案等)中选取其一(即作出决策)。系统下一时刻出现的状态,具有某种随机性(偶然性),决策者依据下次观察到的状态,再作出下一步的决策。如此一步一步地进行决策。同时,根据每次观察到的状态与采用的行动,决策者将获得一定的报酬(或费用等)。决策者在各时刻选用行动的目的在于使系统的全过程在某种准则意义下达到最优运行效果。

马尔可夫决策规划起源于20世纪50年代美国学者L·S·沙普利及R·贝尔曼所从事的研究工作。1957年,R·贝尔曼正式提出马尔可夫决策过程的名称并研究了利用最优性原理求解最优策略的方法。l960年,美国学者R·A·霍华德在动态规划基础上对一类马尔可夫决策过程模型提出了策略迭代法。此后许多专家在这一领域从事探索与研究,推动了马尔可夫决策规划理论的发展。

马尔可夫决策规划有离散时间的、连续时间的、状态全部可观察的或部分可观察的、自适应的等不同类型。其中最简单的是离散时间的马尔可夫决策规划。

马尔可夫决策规划在排队系统、可靠性工程、管理调度、最优控制、军事设施的维修、军用物资的存贮及目标搜索等方面都有广泛的应用。例如,在搜索领域中可用来解决活动目标的搜索问题。设一目标(如潜艇)在一有限区域C一{1,2,…,N}中按离散时间马氏链进行移动,具有转移矩阵户=(户i),搜索者每隔一时段搜索其中之一区域。设目标在i区域内被发现的概率为di(0≤么≤1),且下一时段搜索的所有可能区域为cc。利用马尔可夫决策规划可以寻找一个搜索策略(即搜索区域序列)使在有限时段丁内发现目标的概率最大。