[关闭]
@Preston 2016-05-25T01:36:30.000000Z 字数 13497 阅读 670

概率拾遗录

计然生


防御的主观构造

伊索寓言之中那只认为葡萄酸的狐狸,正是混淆了信仰分布和偏好分布的界限。
早在1641年,霍布斯(Hobbes)对笛卡尔(Descartes)发出了带有异国情调的责备:

“你如何知道我知道你知道我知道这件事呢?如果你不知道我知道你知道,那么你根本就什么都不知道”。

当然,现代的博弈论工作者已经要么皈依模态逻辑,亦即我不知道我不知道某件事那么我就已经知道了;或者信息集的提炼杖赖某种形式的“不动点”理论,确立了最终的共识,而且这种方法还完全排除了“求同存异”(agree to disagree)的乌有之境。
我们以前对套利的理解往往着眼于同质的时空之中,许多公平的定价都基于没有套利;或者说套利仅仅是一种时间概念。
另一方面,荷兰书的构造却又让我们时时自相矛盾。说具体点,也就是一种远古以来就有的传说“炼金术”。
举一个简化的例子:

A和B两人互相不认识,但是二人都有坚定的信仰分布,而且冥顽不灵。
A认为德国获胜的可能性是5/8,而巴西获胜的可能性是3/8;
所以她把注押在德国。
B信仰巴西获胜的可能性是3/4,而德国获胜的可能性是1/4;
所以他把注押在巴西。
A和B打赌:
如果下场比赛德国赢了,B给A 1000美金;
如果巴西赢了,A给B 1000美金。

很显然,不可忽略一个假设:正是因为A和B的期望收益都是正数,二人是一定愿意参加押注的。
然后,我们来构造一本荷兰书。

假设荷兰书H跟A做这样的赌注:
如果德国赢,H给A 2000美金;
如果巴西赢,A给H 2500美金。

由于A自己算出的期望收益是: 2000x5/8-2500x3/8=312.5美金,正收益;
根据冯·诺依曼的光滑效用假设环境,所以A愿意跟H打这个赌。

然后,荷兰书H又跟B做赌注:
如果德国赢,B给H 3000美金;
如果巴西赢,H给B 2000美金。

由于B自己算出的期望收益是:-3000x1/4+2000x3/4= 750美金,
所以B也愿意跟H打这个赌。

这时,我们看看荷兰书给我带来的收益:
如果德国赢了,我们付给A 2000美金,得到B 3000美金,净赚1000美金;
如果巴西赢了,我们付给B 2000美金,得到A 2500美金,净赚500美金。
总之,无论那边赢,荷兰书都让我们不吃亏。

有的时候,这类抱有异质信仰的人还会自己找上门来对冲自己的风险。
还是上面的例子,不过A和B主动想买一个保险,而作为保险的赌博期望收益等于零:

A与H打赌,并且打与不打这个赌没有差别
(这时A所采取的可能就是混合策略):
如果德国赢,H给A 1500美金;
如果巴西赢,A给H 2500美金。
B与H打赌,并且打与不打这个赌无差别:
如果德国赢,B给H 3000美金;
如果巴西赢,H给B 1000美金。

这时的荷兰书还是让我们在各种情况下都不吃亏:
如果德国赢了,我们付给A 1500美金,得到B 3000美金,净赚1500美金;
如果巴西赢了,我们付给B 1000美金,得到A 2500美金,净赚1500美金。
那么,对于信仰坚定的A和B来说,也许这不是件好事,主观概率有待调整。

调整这种信仰分布的贝叶斯适应,就是基于“我知道我知道我知道我知道某一件事”来完成的。这一类调整方法在冲击着数理统计学科,我们给了它一个非常有趣的名字:“靴襻”(bootstrap)。
“靴襻”的典故可以追述很远,最为著名的应该是吹牛大王敏豪生(Munchhausen)男爵把自己从湖底拉了起来的逸闻。
本质上讲不是一种演绎逻辑。模态的出现限定了,信仰是不确定性的信息,知识是确定的信息。理性的疆界就限制在前置信仰是否一致;如果一致,那么具有了知识内容的决策者才可以是理性的。
(“我知道你知道我知道……”的回路被合理地短路了,或者用不通俗的话讲无限个阶段的混合策略是收敛的)。

确定的偶然

如果说荷兰书是防御的主观构造,那么随着沟通的继续,求同存异的几率也是相当少的。最终的每一个人都确信“我知道我所知道的我知道我知道……”
(这个“靴襻”过程试图寻找低阶的随机性。)
这一类方法,也自然免去了某种俗套,正如康德在1787年讲述:

晚宴过后客人们无限渐慢地靠近大门,彼此通过说“再见”表示听到了“再见”。为确认对方听到我说了“再见”这一事实,并再报之以一声“再见”表明我听到了对方听到我那声“再见”的事实。最后,我说一句“再见”、你说一句“再见”;然后,你再说一句“再见”,我再说一句“再见”…… 如此似乎永远走不出主人的大门。
即便如此,客观构造也并不都是线条般的。

我们举个独立于经验的例子:

假设今天(t=0),美元$兑人民币¥一比一:

$1= ¥1.00,

我们设想,下周末(t=1)只有两种“等可能出现”的情形(几率平分50%):

情形1) 一美元贬值为:$1= ¥0.80;

情形2) 一美元升值为:$1= ¥1.25。

那么,这一美元在下周末的期望是兑多少呢?

$1= ¥(0.80x50% + 1.25x50%),

合:$1= ¥1.025 (也就是说美元要升值)。

我们对下周末的两个情形做一个恒等变形,用人民币计价:

情形1) =¥0.80可以写成:¥1 = ;
情形2) =¥1.25可以写成:¥1 = .

那么,一人民币在下周末的期望是:

¥1=$[(1/0.80)x50% + (1/1.25)x50%],

合:$1= ¥ 0.975 (也就是美元要贬值)。

那么,美元到底要升值?还是要贬值呢?

这个费解的问题, 被认定为是凹函数(convex,有时被译作凸,从形态上看“凹”比较像)在期望算子的作用下确实存在一个Jensen's不等式。

除了苏联人热衷的测度论,我们或许可以使用一些游戏来解释概率的本质。

休谟(Hume)那个时代的宇宙还没有混乱的平行起来,或许说最前沿的人仅仅是看到了空间上的平行。
然而,时间上的平行却是最简单的,比如说“我认为你可能认为我可能认为……” 就旨在构造一种平行。

游戏和欧几里得的演绎几何恰恰背道而驰,按照休谟一派,这却是一种由“个别到一般”的过程,或者称倒推的、归纳的。

直到上世纪30年代,Ville等人才让这种游戏成为必然的偶然支配(或者称偶然的必然支配)卷土重来。

波普(Popper)直接提出了“钟”与“云”两种观念 (Weltanschauung)的对立,可惜近代研究者们用“钟”来测量和描述陌生的“云”其熟悉的一面,不过是把每一朵“云”变成了“钟”。

每个围棋高手都明白棋上对弈的有且仅有两个人,没有其他人。而且对于围棋而言,总存在一个strategy-stealing的理论。日本的角谷先生提出过,围棋总存在一个获胜策略。更近一步,成败的关键完全在于谁先走第一步(当然棋盘必须是有限的、而且理性不能疲劳)。还有一个简便策略用于短路:我走的棋仅仅是对方的轴对称或者镜射。

回到前面这个例子的解决,与其说来自于植物学家的灵感,不如说是爱因斯坦1905年对上帝选择投骰子的怀疑。

德州扑克的玩家,往往以为扑克牌和棋一样人都在场,却忽略了一个参与者:机会先生。他是洗牌的手,在有的地方他是骰子、一枚硬币、或者石头剪子布。

无论如何,他的脚步如同喝醉了酒的。

若是他还牵着一条流浪狗的话,狗的脚步却有着信息量,毕竟狗最大活动范围的半径就是绳子,而且狗没有喝醉。如此而已。

我们先用美元$计价汇率来分析,类似互换的定价过程(亦即微分方程的通解):

.
t=0时,.

情形1) ;
情形2) .

期望是:,
方差是:.

用人民币¥计价汇率来分析:
t=0时,.

情形1) ;
情形2) .

期望是:,
方差是:.
相关系数:.
同时,, 或者 .

我们不妨把机会先生的事放在一边(醉汉的脚步)。

风险中性的随机过程自然是:

根据伊藤引理:

所以,

显然这样一来,二者的变化率()成了不对称的。
根据日经指数的quantos法则:
变换计价方式,单位变动会直接导致的期望变化率变动:

所以,.

如此,二者的变化就“对称”了。

不过,质疑主要来自于Jensen's不等式是否被违背了。

最好的解释是此处使用的不再是期望,而是条件期望,准确地讲这个游戏的魅力在于:条件期望把随机变量降解为数,Jensen's不等式就成为了等式。

德国数学家Kronecker攻击康拓(Cantor) 时说,“上帝只创造了整数,其余都是人做的工作”,居然划分出了“理性”(sanity)和癫狂的界限。而一部分癫狂可能是一种特殊的理性。

其实,“有理数”都可以看作是“纯策略”和一般的“混合策略”(即便无限循环,但循环节的长度有限),视为理性(神志清醒)的疆界。

把那些有理数转化为二进制更为清楚:

½=0.10000000...=1(½)+0(½)²+0(½)³+...

¼=0.01000000...=0(½)+1(½)²+0(½)³+...

2/3=0.1010101... =1(½)+0(½)²+1(½)³+...

(最后这个类似一种以牙还牙的摩尔机)

至于无理数,则是无限之无限的,没有规律可循,这便是一种随机发生的“竟然都不能纯化(purified)的混合策略”。我们果然也无法用分数的形式写出来,比如数集般的.

过化存神

钟和云的对立湮没在驯化和人工秩序之中。无事生非(much ado about nothing),我们肉眼看到的是驯化的结果。

众所周知,对称策略是一种信息缺失,其中一面不过是另一面的复制,没有提供任何新信息。自然有时也会采取这种策略,比如分型(fractals)。看似不规则而实则规则的分型也是观诸于钟的世界,甚至那些由发生器产生的随机数也并非真正的随机,所以也是钟王国里的臣民。如今计算的任务也虔诚的臣服于钟。

十年前在国内读到了一本读物,是两个得了诺奖的德国人Eigen 与Winkler
写的,被 Kimber夫妇(Kimber太太在2015年12月走完了人生的最后几天)翻译成了英文《游戏:自然规律支配偶然性》(Laws of the Game: How the Principles of Nature Govern Chance);它后来也有了多国文字的版本。
这本书提供了游戏的两个视角:随机性和规律性。可惜的是,它忽略了许多游戏并无随机性,比如国际象棋,除非下每一步前允许出拳或者扔骰子。

难得糊涂(Ignorance is bliss),这本荟萃般的读物忽略了游戏最重要的一点,所有游戏都有的共性,盈亏(payoff)。这是游戏区别于其他任何行为最直接的一点,而且最终这些盈亏成为了测度,最后的累积就是胜负。

参与游戏的初始资本就叫做概率,而其公平性也在于这场游戏是否被驯化(tamed)而非野生(wild)秩序。套马的僵起作用的叫做"鞅"(martingale),驯化万类,押注资本的变化过程可以被看作是鞅。
游戏的历史信息,都被这些盈亏的资本量俘获住了。盈亏高低和游戏规则,就是这些序结构。

我们只关注于存在偶然性的游戏,因为这对于盈亏重新分配有着意料之外的力量。资本和概率测度一样,并非一成不变的,随着时间流逝而变化。分布本身也在进化的过程中。
当然,驯化也并非全都必须是人造物,也有自发性的力量。经过多次(甚至是无限次)重复的游戏,所有的历史信息都铭记在心,这便是无名氏定理(Folklore theorem)的基石,直至那些原貌荡然无存。
野生的资本过程,有着极大的不确定,驯化的不确定性成为了风险,而相当一部分不确定性是不能转化为风险的。

我们信手拈来一个例子,从圣彼得堡悖论稍作改动获得启发。
假若有这么一个赌局:即便你赢的概率只有0.0000001‰,但你可以一直玩到你赢为止。每玩一次可以双倍加注。
如果你初始资本只有元,倘使在第轮赢了,你的收益是, 而你的亏损总共是.

再比如另一个在形式逻辑驯化过程中被征服的例子:
潘多拉突然获得流亡的众神发布的神谕:有两个装着钱的盒子,她只能任意打开一个并获得其中的钱。
然而,神谕的内容还告诉潘多拉会有这样2种等可能情况:任意一盒所装的钱,是另外一盒钱的2倍、或者是另外一盒钱的一半。
如此,假设潘多拉任意打开了一个盒子,里面的钱是.
假设潘多拉是风险中性的,那么她期望没打开的那个盒子所装的钱应该是:
.
这个例子说明,潘多拉注定必然会不断后悔。

我们还可以看一个公开信马由缰的例子:
浮士德一觉醒来,发现自己身处地狱。
不过魔鬼仍然为他提供了一条出路:可以选择和魔鬼打一个赌。赌博的奖励是飞升天堂的永生。
如果浮士德在地狱的第天同意打这个赌,他将有的概率飞升天堂、有的概率留在地狱。
这个例子的哲理或许是,若浮士德总是通过在地狱多等一天以增加他升天堂的概率,他将在地狱中永生。
这个例子可能还说明一点,如果获得某个东西的时间如果不重要的话,那么是否获得这个东西也就不重要了。

在2011年,三位计算机数学家Ekhad,Georgiadis和Zeilberger 发表了“下注速成”(How to Gamble If You're In a Hurry

假设有数量为 的本钱,赌博规则为每次可以压任意多的钱,赌博结果为以 的概率赢回同样多的钱(输了的话压出去的钱就没了)。
如果赌博的目标是本钱增长到 或者破产(输光所有的钱为止)。
问什么样的方式可以最大化成功(赢到 走人)的概率呢?

提案者还假设了都是整数,并且每次只能下整数的赌注。具有讽刺意味的是,最后的结论受到了质疑

如果 ,那么每次下注
如果 , 成功概率与本钱成正比。
如果 ,每次下注

难得的删繁就简

竹村彰通在2014年底的一场严肃报告,似乎是概率论研究者的一种新的思路。
如同当年帕斯卡(Pascal)对业余数学家费马(Fermat)的排列组合进行的“精兵简政”(streamlining)一样,竹村先生的综述涉及到一个概念,“确定化”(de-randomization),以及一套名为Game-theoretic Probability的方法论。

竹村的演讲提到这么一句话:“如果你从不押上比你所有财富还多的注,那么你永远无法无限富有。”

这句话的证明,并没有给出来,不过这句话却被归功于让•维勒(Jean Ville)在1939年开始的工作。在Glenn Shafer和Vladimir Vovk(2001)的书中将这句话列为古诺原则(Cournot's principle)的变体。
和苏联数学家柯尔莫哥洛夫(Николаевич)建立起来的测度论不同,让•维勒另辟蹊径提出了以贝叶斯学派为依托的概率论,Game-theoretic Probability。
Glenn Shafer和Vladimir Vovk(2001)的书“Probability and Finance: It's Only a Game”,算得上是这项研究的集大成者。
然而,令人遗憾的是仍然难以彻底与测度论分庭抗礼。

这本书的枯燥之处在于例子太少,纲举目张,以下为佐证竹村先生的那句话,特别构造一个经典而浅显的例子:
一个赌徒和经纪商(或者赌场)参加一局不能相互赊借的赌博。
赌徒的初始资本是B,经纪商的初始资本是, 总资本是.
假设赌徒破产的概率是p,也就是指.
同时这个赌局是公平的。也就是说,任意一方的期望收益是0.
强调概率p对B是线性的。
那么,赌徒的期望收益:,
所以,.
这样衍生出来的概率,暗示着:无限次重复的赌博没有一方会赢钱,但是在有限次之中资本押注得多的会占优势。
这也印证了Patrick Billingsley早在1983年提出的“一次全押上胜过多次押小注”,以及“即便胜算不大也最好把全部资本投进去”。

当然,这些关乎市场是否有效的结论并不重要,重要的是这个概率的计算过程。
福尔摩斯般的倒推法,实则是一种归纳,而避免了演绎和排列会出现的遍历性讨论。
研究遍历性是测度的一项基础工作。例如获得中央公园哪个位置的人口最密集,可以通过这两种方式。一种方法是,比如以一天为限,统计每个位置游客数量,制作出对各点密度的分布以及期望。另一种方法是,比如跟踪某一个游客一年之内在公园的轨迹,制作出分布和期望。这两种方法或许都有一个致命的缺点,对遍历图景的某种偏误。这也许是数据的镶嵌形成的,任何一种观测或许看不到这种层次感。测度论已经可以抽象地通过包含和过滤的办法加以透视。

对于鞅(martingale)的理解,人们往往局限于这个形式:.
美国人Glenn Shafer和英国人Vladimir Vovk 运用Game-theoretic Probability解释了这一现象:是一个鞅。
(附:其game-theoretic方式的证明
可惜的是,这样老花眼的定义并不能看到测度论工作者希望我们透视到的。
因为还需要意识到“最小信息集”以及“迭代期望定律” 各自生成的条件。也就是说鞅在结构上的层次性。

在钟的世界里,最简单的镶嵌结构就是利用了对称的分形。比如远东童谣:

“从前有座山,山上有座庙,庙里有个老和尚在讲故事,讲的是‘从前有座山,山上有座庙,庙里有个老和尚在讲故事,讲的是……’”

巴赫多首赋格、卡农也是这种升降半度的重复创作,比如在1885年左右的“G大调大提琴第一组曲”(BWV 1007)。
毫不客气地说,华尔街日报的新闻大部分内容就是这么自动生成的。
在这种镶嵌分形的世界里,碎片的信息可以实现全息,一花一世界。更为理想主义的是,这种碎片基因还被指望可以还原整体,也就是历史的重复性。

钟的世界存在一种安全意义的惯性,这是研究优化和系统最大的法宝。比如进入磁场的闭合回路受到的洛伦兹力、溶液缓冲对,当然最著名的则是萨默尔森版本的勒•夏特列(Le Châtelier)定律:一般均衡下,价格在长期的影响大于在短期的影响。定性地说就是,均衡在短期朝着减小变化的方向移动。

这样性质也是Newcomb在1881年以及Benford在1938年所观察到的一种数据增长的惰性:随机数从1增长到2的困难程度,远远大于从9增长到10的困难程度。
在审计领域,把随机性(纯商业目的活动)量化为:数据中以1开头的数应该最多,依次递减到以9开头的数应该最少。

回忆起来,我们学习微分或差分方程的逻辑顺序:先从线性系统着手,那些非线性的运用“邻域”这个开区间来近似成线性的。对线性的微分或差分方程,我们先找的是齐次形式(homogeneous)的通解,然后把非齐次的通过与不动点进行扰动,从而把那些非齐次的转化为齐次的。最终成为矩阵理论的用武之所:线性系统。在群论看来,矩阵则是对称运动的抽象结构。这个大致的逻辑,跟频率学派着手建立测度论别无二致。
把每一朵云精确化、公理化,最早从巴黎高师提出,并且成为一群以尼古拉•布尔巴基(Nicolas Bourbaki)作为笔名的欧洲数学家终身追求的目标,柯尔莫哥洛夫就深受影响。公理化,构成了测度论的语言和律法,如同巴黎的各种沙龙产生的各种宣言和主义一样。
钟的世界,的确在大自然中找到了呼应。顺应计量学科的发展,在遗传学上的Hardy-Weinberg Law成功运用了牛顿-莱布尼茨二次展开式。概率不再简单是一种反事实的历史可能,更成显示为种群的数量。随机过程就像家谱一样显示出瀑布般的层次感,而某一性状的种群灭绝也被看做是概率衰减为零。巴黎的公理化对概率似乎也演化为一种运动,从沙俄时期说得一口流利法语的马尔可夫(Марков)、切比雪夫(Чебышёв)师徒,到那些获得列宁勋章的苏联劳模柯尔莫哥洛夫、辛钦(Хи́нчин)、吉尔萨诺夫(Гирсанов),薪火传承。
他们受法德频率学派的影响根深蒂固,成为布尔巴基学派最重要的一个分支。布尔巴基学派的最重要贡献就是集合论以及集合论对各学科的应用。二战之后,布尔巴基学派更迎来了鼎盛时期。

概率论中的贝叶斯学派,基本是伴随着蒙特•卡洛仿真的运用在上世纪70年代才死灰复燃的。
钟的世界受到了何等的冲击而遭受剧变,我们能找到的仅是一份1968年冬巴黎流传着布尔巴基的讣文。讣文的大概内容是高师的校友、还有陈班学生对尼古拉•布尔巴基于11月在Nancago(暗示Nancy和Chicago)的庄园逝世各种惋惜。概率论的研究从那些设有科学院的国家走出来,走到计算机应用中来。

摩尔机是一种数据生成的装置,它可以模仿数据的行为,通过观察总结多次来调整主观概率分布。它没有一个先验的模型,这种方法也被成为non-parametric或者semi-parametric理论。概率的分布,变成了一种反应函数(reaction curve,实际是对置身事外的另一个概率的应激反应)。不需要像依赖太多假设,计算机的数量方法把苛刻的抽样变成了造物般的模拟。

钟的世界往往受到老牌酒店的青睐,不难理解希尔顿以及丽兹酒店选择ERP技术来运筹帷幄,而拒绝电子商务平台的方案。当然也是出于公司安全性、独立性的考虑,但是这也意味着巨额的安装和运营维护成本。
不过值得一提的是,如今对成本考量最大的挑战是,成本的计算越来越没有可重复性了。当云方案出台的时候,成本数据甚至会廉价到免费的地步,旅行信息也不再为酒店所垄断。
上世纪九十年代末,克莱因(Klein)以“确定性的丧失”为旗号,大肆宣扬布劳威尔(Brouwer)的直觉主义和置精确于不顾的集合论。
当然,这并不是说ERP技术完全就被替代掉。正如审计事务被替代后,事务所可以转型为以贩卖数据为主营业务的咨询公司一样,而咨询就极有可能成为一门艺术。
而且这稀松平常,如同统计上的黄金分割法还有Grid Search被今天的计量经济学者仅仅视作一种艺术而已。
不得不说,深受布尔巴基学派影响的艺术家可是挺多的,比如绘画方面的立体主义。

烟霞雾霭

入手谈说混合策略的构造,并不一定需要一个显性的随机数发生器。一旦一项行动的选择或决定做出以后,没人知道这究竟是混合策略还是纯策略。
多态的(polymorphic)均衡存在于信仰(概率分布)之中,而非实际行动。这个概念来自于贝叶斯纳什均衡最重要的一个假设:角色分配(casting roles)。把一个玩家变成同时存在的多个玩家。
即便每一个玩家都出纯策略,但是剧情的安排最终构造出玩家们整体是采取混合策略。
如果你手中正好没有骰子或者硬币之类的,理解这个概念不妨参考莎士比亚的《驯悍记》 (The Taming of the Shrew)。
除此之外,无论是杀了丈夫伊阿宋(Easun)的新欢又杀了两个儿子的美狄亚(Medea)公主,还是杀了丈夫阿伽门农(Agamemnon)又被儿子俄瑞斯忒斯(Orestes)所杀的克里台内斯特拉(Clytaemnestra),在莎士比亚的《泰特斯·安特洛尼克斯》 (Titus Andronicus)这部剧面前都显得小巫见大巫了;不得不说,它是莎翁著作中最为血腥和残忍的一部剧。

当然,这本来源于贝叶斯学派对于参数估计的理解与频率学派的截然不同:他们认为真实参数是变动的;而频率学派认为真实参数是客观不变的、变动的是估计和由估计构造出的置信区间。
这也难怪频率学派的数理统计发现了“安娜·卡列尼娜原则”(Anna Karenina principle),当然是语出那位取名狮子的处女座文豪托尔斯泰:样本数据满足所有原假设的方式只有一种,违背原假设的方式各有各的不同。
贝叶斯概率则是着眼于一种“小世界(small states)概率”。
这个枯燥的逻辑是因为英国哲人穆勒(Mill)对归纳(由个别到一般的)方法进行的束缚,也是形式逻辑中“穆勒归纳法”的精髓:真实仅仅只是小世界的真实。而至于小世界之外,我们唯一知道的就是我们一无所知。

也许在一些小世界中天鹅都是白的,但在有的情况下会与黑天鹅不期而遇。
这种情况是讨人嫌的,比如研究“最优捷降线”(brachistochrone)出现的“欧拉方程”。优化,无非是”最大化”(max)和”最小化”(min),max是凹(convex)函数,而min是凸(concave)函数,分隔而治。
(优化的对象functional我们叫泛函,也就是所谓“广义函数”是沿用苏联50年代的叫法。西方数学界则称为“分布”。维基百科说线性泛函是普通函数生成的,倒也不一定,测度(measure)也可以生成线性泛函。测度本身也是泛函。)
一般来说,一期或者短期的优化,就会产生一个一阶的必要条件,这便是“欧拉方程”。(家喻户晓,欧拉冠名了许多方程,而我们说的是.) 每一期都得到这样的条件,那么是不是加在一起就解决了无限期或者整体的问题呢?是不是每一期得到的欧拉方程都一模一样。
“一致性”(time consistent)是这个问题的关键:亦即某一条件是各期、各个问题的最优解。
困难在于“最优捷降线”离不开摄动(perturbation)的局部性,或者在收费高速公路(turnpike)问题上就体现为每一期的最优路线都不一样(开车上班的朋友应该深有体会,Google map选出的最优路线老是变来变去)。
负债经营(或赌博)最大的挑战就是一致性的丧失,我们先看一个非公平的竞技游戏:

射击选手A和B参加一个射击比赛,一共100次射击机会。 不失一般地,我们简单地划分每次射击结果为中靶和没有中靶两种。
第一轮:
A打了60发,中了56次,中靶点数为0.93;
B打了70发,中靶62次,中靶点数为0.89.
A在第一轮暂时领先。
第二轮:
A打了40发,中了12次,中靶点数为0.30;
B打了30发,中了8次,中靶点数为0.27.
A在第二轮仍然领先。
现在,双方100次射击机会都已全部耗尽,我们来看看他们的成绩:
A一共中靶68次,累积0.68;
B一共中靶70次,累积0.70.
虽然A在每一轮都领先于B,但是最终的总成绩是B领先A。

人类的逻辑是从规则来研究“不规则”,于是钟表这样的度量衡就被发明了出来。
博弈论研究引入了“信息集”这一概念,最早是由冯·诺依曼(Von Neumann)和Lawrence老师的导师摩根斯坦(Morgenstern)在研究扑克游戏时提出的。
为了看到这个信息集,不妨先从一道经典习题着手:

一个村子里住着许多家庭,其中有50个家庭中的丈夫对妻子不忠。在牧首来到这个村庄之前,没有一个妻子知道自己丈夫的情况,她们只知道其他所有的男人是否不忠。但是,一旦妻子知道自己的丈夫不忠,就会在当天子夜杀掉他。每天晚上,妇女们都会聚在一起开会。
有一天,牧首诚实地宣布:这个村庄至少有一个丈夫对妻子不忠。请问:有多少丈夫最后被杀掉?答案是,村子里安静地度过了49天,第50天夜里听到了枪声,正好50个丈夫被妻子打死。

答案的最为典型的一种推理以在MIT的习题集总结出来的为例:
假如这个村庄只有一个不忠的丈夫,他的妻子是唯一不知情的人,那么第一天过后的子夜就会听到枪声。如果有两个不忠的丈夫,他们那两个不知情的妻子只了解到有1个不忠的丈夫,第一天夜里风平浪静。经过第一晚,这两位妻子可以推断出有且正好有2个负心人,第二个夜里同时发生了枪声。如果前两天子夜都风平浪静,那么妇女们就可以推断出至少有3个负心人……
以此类推,这是一种非常经典的归纳法。

不过,化身福尔摩斯之后的大侦探波洛(Hercule Poirot)提出,这的确值得删繁就简。还有一种删繁就简的办法是由英国人Ken Binmore通过“信息集的分拆”获得,而且对学习非合作博弈更为有益。
Binmore把这一理念运用在拍卖设计中,香港和新加坡政府对3G网络运营执照的拍卖 (次高价暗拍,second-price sealed bid) 就是这种信息集拆分的运用。
(拍卖设计者意识到“钱包游戏”(Wallet game)可以避免“赢家诅咒”,其逻辑在于有共同的公允价值,然而在苏富比(Sotheby's)竞拍场却面临没有共同价值和估价不一致。由于担心“赢家诅咒”所以经常出现压低报价(shading),但在次高价暗拍中“说真话”成为占优策略,附:其证明的总结

在和次高价暗拍等价的英式公开拍卖中,无法承受心里底价的伴随拍卖叫价依次退场,场内留下的人拥有的信息最多。而另一方面,价格的高低也能俘获住了信息量的高低。

和这种竞拍场“逐次退出”的层次相关的概念,就是逆向归纳过程中对信息集的“分拆”。
不过,次高价暗拍与公开的英式拍卖,也并非完全意义上的对等。
(附: 拍卖等价的定律,以及引入风险厌恶之后不等价的证明,对风险厌恶引入妒忌(envy)策略作为解药建议。)

最大的一个问题就是“狙击”(snipe)这种策略,直到今天eBay也非常头疼这个问题:
在eBay网站上,标出的价实际上是第二高的报价,最高价被隐藏起来,维持一周进行拍卖,报最高价者以次高价的成本买到货。
可能的情况比如,某位报价1刀以后,注册不同账号变身第二位并立刻报100刀,吓走了同期竞争者,这样只花了第二高的1刀就收走了卖家所有的爱物。
为了克服这个困难,在eBay上新的报价允许最大不超过14%的增加。
由于担心提早报价无端抬高了第二高价,报价会大部分集中在最后时刻。
这就是所谓最后时刻的“狙击”。
准确地讲,无论是公开的竞拍还是悄无声息的暗拍,都是在发现价格,或者是揭露概率分布。那么,听到对方的声音会产生何等的差别呢?

我们通过一个二人决斗(Duel)来谈谈这个问题,当然把所有的混合策略全部“纯化”(purified)。决斗,就是两个情敌背对背走开到最远(设最远距离为1),然后逐步靠近依次向对方开枪(一般还会蒙着眼)。俄国的普希金(Пушкин)和法国的伽罗瓦(Galois),都是在与情敌决斗的过程中英年早逝的。
假设存活的概率同二人间距正比例变化,开枪的概率同二人间距反向变化。假设A从最远处起了步或者距离,B从另一端走了步或者距离。

(1)一种决斗是有声的“Noisy Duel”,一方听到对方开枪的声音。
那么A开枪的概率: , B开枪的概率是: .
A和B收益总和永远是1 (任意一方可以获得爱情则是1单位奖励)、而且严格竞争的(你死我活)。
利用对称性则有:.
可以得到其中一个均衡:≈0.618(黄金分割点)。两者反应函数(reaction curves)的一个交点则是(0.618, 0.618). 调整步长有时会产生出多个(奇数个)交点。
如果A要考虑到B的某个位置才能做决定,那么固定自己的位置意味着是常数。
如果, A的期望收益: 是常数,是直线。
如果, A的期望收益: , 是二次曲线。

(2)另一种决斗是塞着耳朵的“Silent Duel”,彼此听不到对方是否开枪。
如果a和b是“连续”变化的,那么两者反应函数(reaction curves)没有任何交点,没有纯策略纳什均衡。
但离散情况下,也就是调整步长有时会产生出一些交点。
A开枪的概率变成: P(a)=1-a, B开枪的概率是: .
如果, A的期望收益是: , B的期望收益是: ;
如果, A的期望收益是: , B的期望收益是: .
所以收益总和是, “Silent Duel”并不是严格竞争的。

这两种”决斗”方案为拍卖设计者提供了警示,无论是买家的党同伐异,还是卖家希望的求同存异(agree to disagree)。

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注