@Preston
2016-05-25T02:50:02.000000Z
字数 29557
阅读 825
范仕扬
伊索寓言(Aesop's Fables)之中,那只认为葡萄酸的狐狸,正是混淆了信仰分布和偏好分布的界限。
早在1641年,霍布斯(Hobbes)对笛卡尔(Descartes)发出了带有异国情调的责备:
“你如何知道我知道你知道我知道这件事呢?如果你不知道我知道你知道,那么你根本就什么都不知道”。
当然,现代的博弈论工作者已经要么皈依模态逻辑,亦即我不知道我不知道某件事那么我就已经知道了;或者信息集的提炼杖赖某种形式的“不动点”理论,确立了最终的共识,而且这种方法还完全排除了“求同存异”(agree to disagree)的乌有之境。
我们以前对套利的理解往往着眼于同质的时空之中,许多公平的定价都基于没有套利;或者说套利仅仅是一种时间概念。
另一方面,荷兰书的构造却又让我们时时自相矛盾。说具体点,也就是一种远古以来就有的传说“炼金术”。
举一个简化的例子:
A和B两人互相不认识,但是二人都有坚定的信仰分布,而且冥顽不灵。
A认为德国获胜的可能性是5/8,而巴西获胜的可能性是3/8;
所以她把注押在德国。
B信仰巴西获胜的可能性是3/4,而德国获胜的可能性是1/4;
所以他把注押在巴西。
A和B打赌:
如果下场比赛德国赢了,B给A 1000美金;
如果巴西赢了,A给B 1000美金。
很显然,不可忽略一个假设:正是因为A和B的期望收益都是正数,二人是一定愿意参加押注的。
然后,我们来构造一本荷兰书。
假设荷兰书H跟A做这样的赌注:
如果德国赢,H给A 2000美金;
如果巴西赢,A给H 2500美金。
由于A自己算出的期望收益是: 2000x5/8-2500x3/8=312.5美金,正收益;
根据冯·诺依曼的光滑效用假设环境,所以A愿意跟H打这个赌。
然后,荷兰书H又跟B做赌注:
如果德国赢,B给H 3000美金;
如果巴西赢,H给B 2000美金。
由于B自己算出的期望收益是:-3000x1/4+2000x3/4= 750美金,
所以B也愿意跟H打这个赌。
这时,我们看看荷兰书给我带来的收益:
如果德国赢了,我们付给A 2000美金,得到B 3000美金,净赚1000美金;
如果巴西赢了,我们付给B 2000美金,得到A 2500美金,净赚500美金。
总之,无论那边赢,荷兰书都让我们不吃亏。
有的时候,这类抱有异质信仰的人还会自己找上门来对冲自己的风险。
还是上面的例子,不过A和B主动想买一个保险,而作为保险的赌博期望收益等于零:
A与H打赌,并且打与不打这个赌没有差别
(这时A所采取的可能就是混合策略):
如果德国赢,H给A 1500美金;
如果巴西赢,A给H 2500美金。
B与H打赌,并且打与不打这个赌无差别:
如果德国赢,B给H 3000美金;
如果巴西赢,H给B 1000美金。
这时的荷兰书还是让我们在各种情况下都不吃亏:
如果德国赢了,我们付给A 1500美金,得到B 3000美金,净赚1500美金;
如果巴西赢了,我们付给B 1000美金,得到A 2500美金,净赚1500美金。
那么,对于信仰坚定的A和B来说,也许这不是件好事,主观概率有待调整。
调整这种信仰分布的贝叶斯适应,就是基于“我知道我知道我知道我知道某一件事”来完成的。这一类调整方法在冲击着数理统计学科,我们给了它一个非常有趣的名字:“靴襻”(bootstrap)。
“靴襻”的典故可以追述很远,最为著名的应该是吹牛大王敏豪生(Munchhausen)男爵把自己从湖底拉了起来的逸闻。
本质上讲不是一种演绎逻辑。模态的出现限定了,信仰是不确定性的信息,知识是确定的信息。理性的疆界就限制在前置信仰是否一致;如果一致,那么具有了知识内容的决策者才可以是理性的。
(“我知道你知道我知道……”的回路被合理地短路了,或者用不通俗的话讲无限个阶段的混合策略是收敛的)。
如果说荷兰书是防御的主观构造,那么随着沟通的继续,求同存异的几率也是相当少的。最终的每一个人都确信“我知道我所知道的我知道我知道……”
(这个“靴襻”过程试图寻找低阶的随机性。)
这一类方法,也自然免去了某种俗套,正如康德在1787年讲述:
晚宴过后客人们无限渐慢地靠近大门,彼此通过说“再见”表示听到了“再见”。为确认对方听到我说了“再见”这一事实,并再报之以一声“再见”表明我听到了对方听到我那声“再见”的事实。最后,我说一句“再见”、你说一句“再见”;然后,你再说一句“再见”,我再说一句“再见”…… 如此似乎永远走不出主人的大门。
即便如此,客观构造也并不都是线条般的。
我们举个独立于经验的例子:
假设今天(t=0),美元$兑人民币¥一比一:
$1= ¥1.00,
我们设想,下周末(t=1)只有两种“等可能出现”的情形(几率平分50%):
情形1) 一美元贬值为:$1= ¥0.80;
情形2) 一美元升值为:$1= ¥1.25。
那么,这一美元在下周末的期望是兑多少呢?
$1= ¥(0.80x50% + 1.25x50%),
合:$1= ¥1.025 (也就是说美元要升值)。
我们对下周末的两个情形做一个恒等变形,用人民币计价:
情形1) =¥0.80可以写成:¥1 = ;
情形2) =¥1.25可以写成:¥1 = .
那么,一人民币在下周末的期望是:
¥1=$[(1/0.80)x50% + (1/1.25)x50%],
合:$1= ¥ 0.975 (也就是美元要贬值)。
那么,美元到底要升值?还是要贬值呢?
这个费解的问题, 被认定为是凹函数(convex,有时被译作凸,从形态上看“凹”比较像)在期望算子的作用下确实存在一个Jensen's不等式。
除了苏联人热衷的测度论,我们或许可以使用一些游戏来解释概率的本质。
休谟(Hume)那个时代的宇宙还没有混乱的平行起来,或许说最前沿的人仅仅是看到了空间上的平行。
然而,时间上的平行却是最简单的,比如说“我认为你可能认为我可能认为……” 就旨在构造一种平行。
游戏和欧几里得的演绎几何恰恰背道而驰,按照休谟一派,这却是一种由“个别到一般”的过程,或者称倒推的、归纳的。
直到上世纪30年代,Ville等人才让这种游戏成为必然的偶然支配(或者称偶然的必然支配)卷土重来。
波普(Popper)直接提出了“钟”与“云”两种观念 (Weltanschauung)的对立,可惜近代研究者们用“钟”来测量和描述陌生的“云”其熟悉的一面,不过是把每一朵“云”变成了“钟”。
每个围棋高手都明白棋上对弈的有且仅有两个人,没有其他人。而且对于围棋而言,总存在一个strategy-stealing的理论。日本的角谷先生提出过,围棋总存在一个获胜策略。更近一步,成败的关键完全在于谁先走第一步(当然棋盘必须是有限的、而且理性不能疲劳)。还有一个简便策略用于短路:我走的棋仅仅是对方的轴对称或者镜射。
回到前面这个例子的解决,与其说来自于植物学家的灵感,不如说是爱因斯坦1905年对上帝选择投骰子的怀疑。
德州扑克的玩家,往往以为扑克牌和棋一样人都在场,却忽略了一个参与者:机会先生。他是洗牌的手,在有的地方他是骰子、一枚硬币、或者石头剪子布。
无论如何,他的脚步如同喝醉了酒的。
若是他还牵着一条流浪狗的话,狗的脚步却有着信息量,毕竟狗最大活动范围的半径就是绳子,而且狗没有喝醉。如此而已。
我们先用美元$计价汇率来分析,类似互换的定价过程(亦即微分方程的通解):
.
t=0时,.
情形1) ;
情形2) .
期望是:,
方差是:.
用人民币¥计价汇率来分析:
t=0时,.
情形1) ;
情形2) .
期望是:,
方差是:.
相关系数:.
同时,, 或者 .
我们不妨把机会先生的事放在一边(醉汉的脚步)。
风险中性的随机过程自然是:
根据伊藤引理:
所以,
显然这样一来,二者的变化率(和)成了不对称的。
根据日经指数的quantos法则:
变换计价方式,单位变动会直接导致的期望变化率变动:
所以,.
如此,二者的变化就“对称”了。
不过,质疑主要来自于Jensen's不等式是否被违背了。
最好的解释是此处使用的不再是期望,而是条件期望,准确地讲这个游戏的魅力在于:条件期望把随机变量降解为数,Jensen's不等式就成为了等式。
德国数学家Kronecker攻击康拓(Cantor) 时说,“上帝只创造了整数,其余都是人做的工作”,居然划分出了“理性”(sanity)和癫狂的界限。而一部分癫狂可能是一种特殊的理性。
其实,“有理数”都可以看作是“纯策略”和一般的“混合策略”(即便无限循环,但循环节的长度有限),视为理性(神志清醒)的疆界。
把那些有理数转化为二进制更为清楚:
½=0.10000000...=1(½)+0(½)²+0(½)³+...
¼=0.01000000...=0(½)+1(½)²+0(½)³+...
2/3=0.1010101... =1(½)+0(½)²+1(½)³+...
(最后这个类似一种以牙还牙的摩尔机)
至于无理数,则是无限之无限的,没有规律可循,这便是一种随机发生的“竟然都不能纯化(purified)的混合策略”。我们果然也无法用分数的形式写出来,比如数集般的.
钟和云的对立湮没在驯化和人工秩序之中。无事生非(much ado about nothing),我们肉眼看到的是驯化的结果。
众所周知,对称策略是一种信息缺失,其中一面不过是另一面的复制,没有提供任何新信息。自然有时也会采取这种策略,比如分型(fractals)。看似不规则而实则规则的分型也是观诸于钟的世界,甚至那些由发生器产生的随机数也并非真正的随机,所以也是钟王国里的臣民。如今计算的任务也虔诚的臣服于钟。
十年前在国内读到了一本读物,是两个得了诺奖的德国人Eigen 与Winkler
写的,被 Kimber夫妇(Kimber太太在2015年12月走完了人生的最后几天)翻译成了英文《游戏:自然规律支配偶然性》(Laws of the Game: How the Principles of Nature Govern Chance);它后来也有了多国文字的版本。
这本书提供了游戏的两个视角:随机性和规律性。可惜的是,它忽略了许多游戏并无随机性,比如国际象棋,除非下每一步前允许出拳或者扔骰子。
难得糊涂(Ignorance is bliss),这本荟萃般的读物忽略了游戏最重要的一点,所有游戏都有的共性,盈亏(payoff)。这是游戏区别于其他任何行为最直接的一点,而且最终这些盈亏成为了测度,最后的累积就是胜负。
参与游戏的初始资本就叫做概率,而其公平性也在于这场游戏是否被驯化(tamed)而非野生(wild)秩序。套马的僵起作用的叫做"鞅"(martingale),驯化万类,押注资本的变化过程可以被看作是鞅。
游戏的历史信息,都被这些盈亏的资本量俘获住了。盈亏高低和游戏规则,就是这些序结构。
我们只关注于存在偶然性的游戏,因为这对于盈亏重新分配有着意料之外的力量。资本和概率测度一样,并非一成不变的,随着时间流逝而变化。分布本身也在进化的过程中。
当然,驯化也并非全都必须是人造物,也有自发性的力量。经过多次(甚至是无限次)重复的游戏,所有的历史信息都铭记在心,这便是无名氏定理(Folklore theorem)的基石,直至那些原貌荡然无存。
野生的资本过程,有着极大的不确定,驯化的不确定性成为了风险,而相当一部分不确定性是不能转化为风险的。
我们信手拈来一个例子,从圣彼得堡悖论稍作改动获得启发。
假若有这么一个赌局:即便你赢的概率只有0.0000001‰,但你可以一直玩到你赢为止。每玩一次可以双倍加注。
如果你初始资本只有元,倘使在第轮赢了,你的收益是, 而你的亏损总共是.
再比如另一个在形式逻辑驯化过程中被征服的例子:
潘多拉突然获得流亡的众神发布的神谕:有两个装着钱的盒子,她只能任意打开一个并获得其中的钱。
然而,神谕的内容还告诉潘多拉会有这样2种等可能情况:任意一盒所装的钱,是另外一盒钱的2倍、或者是另外一盒钱的一半。
如此,假设潘多拉任意打开了一个盒子,里面的钱是.
假设潘多拉是风险中性的,那么她期望没打开的那个盒子所装的钱应该是:
.
这个例子说明,潘多拉注定必然会不断后悔。
我们还可以看一个公开信马由缰的例子:
浮士德一觉醒来,发现自己身处地狱。
不过魔鬼仍然为他提供了一条出路:可以选择和魔鬼打一个赌。赌博的奖励是飞升天堂的永生。
如果浮士德在地狱的第天同意打这个赌,他将有的概率飞升天堂、有的概率留在地狱。
这个例子的哲理或许是,若浮士德总是通过在地狱多等一天以增加他升天堂的概率,他将在地狱中永生。
这个例子可能还说明一点,如果获得某个东西的时间如果不重要的话,那么是否获得这个东西也就不重要了。
在2011年,三位计算机数学家Ekhad,Georgiadis和Zeilberger 发表了“下注速成”(How to Gamble If You're In a Hurry):
假设有数量为 的本钱,赌博规则为每次可以压任意多的钱,赌博结果为以 的概率赢回同样多的钱(输了的话压出去的钱就没了)。
如果赌博的目标是本钱增长到 或者破产(输光所有的钱为止)。
问什么样的方式可以最大化成功(赢到 走人)的概率呢?
提案者还假设了都是整数,并且每次只能下整数的赌注。具有讽刺意味的是,最后的结论受到了质疑。
如果 ,那么每次下注 。
如果 , 成功概率与本钱成正比。
如果 ,每次下注。
竹村彰通在2014年底的一场严肃报告,似乎是概率论研究者的一种新的思路。
如同当年帕斯卡(Pascal)对业余数学家费马(Fermat)的排列组合进行的“精兵简政”(streamlining)一样,竹村先生的综述涉及到一个概念,“确定化”(de-randomization),以及一套名为Game-theoretic Probability的方法论。
竹村的演讲提到这么一句话:“如果你从不押上比你所有财富还多的注,那么你永远无法无限富有。”
这句话的证明,并没有给出来,不过这句话却被归功于让•维勒(Jean Ville)在1939年开始的工作。在Glenn Shafer和Vladimir Vovk(2001)的书中将这句话列为古诺原则(Cournot's principle)的变体。
和苏联数学家柯尔莫哥洛夫(Николаевич)建立起来的测度论不同,让•维勒另辟蹊径提出了以贝叶斯学派为依托的概率论,Game-theoretic Probability。
Glenn Shafer和Vladimir Vovk(2001)的书“Probability and Finance: It's Only a Game”,算得上是这项研究的集大成者。
然而,令人遗憾的是仍然难以彻底与测度论分庭抗礼。
这本书的枯燥之处在于例子太少,纲举目张,以下为佐证竹村先生的那句话,特别构造一个经典而浅显的例子:
一个赌徒和经纪商(或者赌场)参加一局不能相互赊借的赌博。
赌徒的初始资本是B,经纪商的初始资本是, 总资本是.
假设赌徒破产的概率是p,也就是指.
同时这个赌局是公平的。也就是说,任意一方的期望收益是0.
强调概率p对B是线性的。
那么,赌徒的期望收益:,
所以,.
这样衍生出来的概率,暗示着:无限次重复的赌博没有一方会赢钱,但是在有限次之中资本押注得多的会占优势。
这也印证了Patrick Billingsley早在1983年提出的“一次全押上胜过多次押小注”,以及“即便胜算不大也最好把全部资本投进去”。
当然,这些关乎市场是否有效的结论并不重要,重要的是这个概率的计算过程。
福尔摩斯般的倒推法,实则是一种归纳,而避免了演绎和排列会出现的遍历性讨论。
研究遍历性是测度的一项基础工作。例如获得中央公园哪个位置的人口最密集,可以通过这两种方式。一种方法是,比如以一天为限,统计每个位置游客数量,制作出对各点密度的分布以及期望。另一种方法是,比如跟踪某一个游客一年之内在公园的轨迹,制作出分布和期望。这两种方法或许都有一个致命的缺点,对遍历图景的某种偏误。这也许是数据的镶嵌形成的,任何一种观测或许看不到这种层次感。测度论已经可以抽象地通过包含和过滤的办法加以透视。
对于鞅(martingale)的理解,人们往往局限于这个形式:.
美国人Glenn Shafer和英国人Vladimir Vovk 运用Game-theoretic Probability解释了这一现象:是一个鞅。
(附:其game-theoretic方式的证明)
可惜的是,这样老花眼的定义并不能看到测度论工作者希望我们透视到的。
因为还需要意识到“最小信息集”以及“迭代期望定律” 各自生成的条件。也就是说鞅在结构上的层次性。
在钟的世界里,最简单的镶嵌结构就是利用了对称的分形。比如远东童谣:
“从前有座山,山上有座庙,庙里有个老和尚在讲故事,讲的是‘从前有座山,山上有座庙,庙里有个老和尚在讲故事,讲的是……’”
巴赫多首赋格、卡农也是这种升降半度的重复创作,比如在1885年左右的“G大调大提琴第一组曲”(BWV 1007)。
毫不客气地说,华尔街日报的新闻大部分内容就是这么自动生成的。
在这种镶嵌分形的世界里,碎片的信息可以实现全息,一花一世界。更为理想主义的是,这种碎片基因还被指望可以还原整体,也就是历史的重复性。
钟的世界存在一种安全意义的惯性,这是研究优化和系统最大的法宝。比如进入磁场的闭合回路受到的洛伦兹力、溶液缓冲对,当然最著名的则是萨默尔森版本的勒•夏特列(Le Châtelier)定律:一般均衡下,价格在长期的影响大于在短期的影响。定性地说就是,均衡在短期朝着减小变化的方向移动。
这样性质也是Newcomb在1881年以及Benford在1938年所观察到的一种数据增长的惰性:随机数从1增长到2的困难程度,远远大于从9增长到10的困难程度。
在审计领域,把随机性(纯商业目的活动)量化为:数据中以1开头的数应该最多,依次递减到以9开头的数应该最少。
回忆起来,我们学习微分或差分方程的逻辑顺序:先从线性系统着手,那些非线性的运用“邻域”这个开区间来近似成线性的。对线性的微分或差分方程,我们先找的是齐次形式(homogeneous)的通解,然后把非齐次的通过与不动点进行扰动,从而把那些非齐次的转化为齐次的。最终成为矩阵理论的用武之所:线性系统。在群论看来,矩阵则是对称运动的抽象结构。这个大致的逻辑,跟频率学派着手建立测度论别无二致。
把每一朵云精确化、公理化,最早从巴黎高师提出,并且成为一群以尼古拉•布尔巴基(Nicolas Bourbaki)作为笔名的欧洲数学家终身追求的目标,柯尔莫哥洛夫就深受影响。公理化,构成了测度论的语言和律法,如同巴黎的各种沙龙产生的各种宣言和主义一样。
钟的世界,的确在大自然中找到了呼应。顺应计量学科的发展,在遗传学上的Hardy-Weinberg Law成功运用了牛顿-莱布尼茨二次展开式。概率不再简单是一种反事实的历史可能,更成显示为种群的数量。随机过程就像家谱一样显示出瀑布般的层次感,而某一性状的种群灭绝也被看做是概率衰减为零。巴黎的公理化对概率似乎也演化为一种运动,从沙俄时期说得一口流利法语的马尔可夫(Марков)、切比雪夫(Чебышёв)师徒,到那些获得列宁勋章的苏联劳模柯尔莫哥洛夫、辛钦(Хи́нчин)、吉尔萨诺夫(Гирсанов),薪火传承。
他们受法德频率学派的影响根深蒂固,成为布尔巴基学派最重要的一个分支。布尔巴基学派的最重要贡献就是集合论以及集合论对各学科的应用。二战之后,布尔巴基学派更迎来了鼎盛时期。
概率论中的贝叶斯学派,基本是伴随着蒙特•卡洛仿真的运用在上世纪70年代才死灰复燃的。
钟的世界受到了何等的冲击而遭受剧变,我们能找到的仅是一份1968年冬巴黎流传着布尔巴基的讣文。讣文的大概内容是高师的校友、还有陈班学生对尼古拉•布尔巴基于11月在Nancago(暗示Nancy和Chicago)的庄园逝世各种惋惜。概率论的研究从那些设有科学院的国家走出来,走到计算机应用中来。
摩尔机是一种数据生成的装置,它可以模仿数据的行为,通过观察总结多次来调整主观概率分布。它没有一个先验的模型,这种方法也被成为non-parametric或者semi-parametric理论。概率的分布,变成了一种反应函数(reaction curve,实际是对置身事外的另一个概率的应激反应)。不需要像依赖太多假设,计算机的数量方法把苛刻的抽样变成了造物般的模拟。
钟的世界往往受到老牌酒店的青睐,不难理解希尔顿以及丽兹酒店选择ERP技术来运筹帷幄,而拒绝电子商务平台的方案。当然也是出于公司安全性、独立性的考虑,但是这也意味着巨额的安装和运营维护成本。
不过值得一提的是,如今对成本考量最大的挑战是,成本的计算越来越没有可重复性了。当云方案出台的时候,成本数据甚至会廉价到免费的地步,旅行信息也不再为酒店所垄断。
上世纪九十年代末,克莱因(Klein)以“确定性的丧失”为旗号,大肆宣扬布劳威尔(Brouwer)的直觉主义和置精确于不顾的集合论。
当然,这并不是说ERP技术完全就被替代掉。正如审计事务被替代后,事务所可以转型为以贩卖数据为主营业务的咨询公司一样,而咨询就极有可能成为一门艺术。
而且这稀松平常,如同统计上的黄金分割法还有Grid Search被今天的计量经济学者仅仅视作一种艺术而已。
不得不说,深受布尔巴基学派影响的艺术家可是挺多的,比如绘画方面的立体主义。
入手谈说混合策略的构造,并不一定需要一个显性的随机数发生器。一旦一项行动的选择或决定做出以后,没人知道这究竟是混合策略还是纯策略。
多态的(polymorphic)均衡存在于信仰(概率分布)之中,而非实际行动。这个概念来自于贝叶斯纳什均衡最重要的一个假设:角色分配(casting roles)。把一个玩家变成同时存在的多个玩家。
即便每一个玩家都出纯策略,但是剧情的安排最终构造出玩家们整体是采取混合策略。
如果你手中正好没有骰子或者硬币之类的,理解这个概念不妨参考莎士比亚的《驯悍记》 (The Taming of the Shrew)。
除此之外,无论是杀了丈夫伊阿宋(Easun)的新欢又杀了两个儿子的美狄亚(Medea)公主,还是杀了丈夫阿伽门农(Agamemnon)又被儿子俄瑞斯忒斯(Orestes)所杀的克里台内斯特拉(Clytaemnestra),在莎士比亚的《泰特斯·安特洛尼克斯》 (Titus Andronicus)这部剧面前都显得小巫见大巫了;不得不说,它是莎翁著作中最为血腥和残忍的一部剧。
当然,这本来源于贝叶斯学派对于参数估计的理解与频率学派的截然不同:他们认为真实参数是变动的;而频率学派认为真实参数是客观不变的、变动的是估计和由估计构造出的置信区间。
这也难怪频率学派的数理统计发现了“安娜·卡列尼娜原则”(Anna Karenina principle),当然是语出那位取名狮子的处女座文豪托尔斯泰:样本数据满足所有原假设的方式只有一种,违背原假设的方式各有各的不同。
贝叶斯概率则是着眼于一种“小世界(small states)概率”。
这个枯燥的逻辑是因为英国哲人穆勒(Mill)对归纳(由个别到一般的)方法进行的束缚,也是形式逻辑中“穆勒归纳法”的精髓:真实仅仅只是小世界的真实。而至于小世界之外,我们唯一知道的就是我们一无所知。
也许在一些小世界中天鹅都是白的,但在有的情况下会与黑天鹅不期而遇。
这种情况是讨人嫌的,比如研究“最优捷降线”(brachistochrone)出现的“欧拉方程”。优化,无非是”最大化”(max)和”最小化”(min),max是凹(convex)函数,而min是凸(concave)函数,分隔而治。
(优化的对象functional我们叫泛函,也就是所谓“广义函数”是沿用苏联50年代的叫法。西方数学界则称为“分布”。维基百科说线性泛函是普通函数生成的,倒也不一定,测度(measure)也可以生成线性泛函。测度本身也是泛函。)
一般来说,一期或者短期的优化,就会产生一个一阶的必要条件,这便是“欧拉方程”。(家喻户晓,欧拉冠名了许多方程,而我们说的是.) 每一期都得到这样的条件,那么是不是加在一起就解决了无限期或者整体的问题呢?是不是每一期得到的欧拉方程都一模一样。
“一致性”(time consistent)是这个问题的关键:亦即某一条件是各期、各个问题的最优解。
困难在于“最优捷降线”离不开摄动(perturbation)的局部性,或者在收费高速公路(turnpike)问题上就体现为每一期的最优路线都不一样(开车上班的朋友应该深有体会,Google map选出的最优路线老是变来变去)。
负债经营(或赌博)最大的挑战就是一致性的丧失,我们先看一个非公平的竞技游戏:
射击选手A和B参加一个射击比赛,一共100次射击机会。 不失一般地,我们简单地划分每次射击结果为中靶和没有中靶两种。
第一轮:
A打了60发,中了56次,中靶点数为0.93;
B打了70发,中靶62次,中靶点数为0.89.
A在第一轮暂时领先。
第二轮:
A打了40发,中了12次,中靶点数为0.30;
B打了30发,中了8次,中靶点数为0.27.
A在第二轮仍然领先。
现在,双方100次射击机会都已全部耗尽,我们来看看他们的成绩:
A一共中靶68次,累积0.68;
B一共中靶70次,累积0.70.
虽然A在每一轮都领先于B,但是最终的总成绩是B领先A。
人类的逻辑是从规则来研究“不规则”,于是钟表这样的度量衡就被发明了出来。
博弈论研究引入了“信息集”这一概念,最早是由冯·诺依曼(Von Neumann)和Lawrence老师的导师摩根斯坦(Morgenstern)在研究扑克游戏时提出的。
为了看到这个信息集,不妨先从一道经典习题着手:
一个村子里住着许多家庭,其中有50个家庭中的丈夫对妻子不忠。在牧首来到这个村庄之前,没有一个妻子知道自己丈夫的情况,她们只知道其他所有的男人是否不忠。但是,一旦妻子知道自己的丈夫不忠,就会在当天子夜杀掉他。每天晚上,妇女们都会聚在一起开会。
有一天,牧首诚实地宣布:这个村庄至少有一个丈夫对妻子不忠。请问:有多少丈夫最后被杀掉?答案是,村子里安静地度过了49天,第50天夜里听到了枪声,正好50个丈夫被妻子打死。
答案的最为典型的一种推理以在MIT的习题集总结出来的为例:
假如这个村庄只有一个不忠的丈夫,他的妻子是唯一不知情的人,那么第一天过后的子夜就会听到枪声。如果有两个不忠的丈夫,他们那两个不知情的妻子只了解到有1个不忠的丈夫,第一天夜里风平浪静。经过第一晚,这两位妻子可以推断出有且正好有2个负心人,第二个夜里同时发生了枪声。如果前两天子夜都风平浪静,那么妇女们就可以推断出至少有3个负心人……
以此类推,这是一种非常经典的归纳法。
不过,化身福尔摩斯之后的大侦探波洛(Hercule Poirot)提出,这的确值得删繁就简。还有一种删繁就简的办法是由英国人Ken Binmore通过“信息集的分拆”获得,而且对学习非合作博弈更为有益。
Binmore把这一理念运用在拍卖设计中,香港和新加坡政府对3G网络运营执照的拍卖 (次高价暗拍,second-price sealed bid) 就是这种信息集拆分的运用。
(拍卖设计者意识到“钱包游戏”(Wallet game)可以避免“赢家诅咒”,其逻辑在于有共同的公允价值,然而在苏富比(Sotheby's)竞拍场却面临没有共同价值和估价不一致。由于担心“赢家诅咒”所以经常出现压低报价(shading),但在次高价暗拍中“说真话”成为占优策略,附:其证明的总结)
在和次高价暗拍等价的英式公开拍卖中,无法承受心里底价的伴随拍卖叫价依次退场,场内留下的人拥有的信息最多。而另一方面,价格的高低也能俘获住了信息量的高低。
和这种竞拍场“逐次退出”的层次相关的概念,就是逆向归纳过程中对信息集的“分拆”。
不过,次高价暗拍与公开的英式拍卖,也并非完全意义上的对等。
(附: 拍卖等价的定律,以及引入风险厌恶之后不等价的证明,对风险厌恶引入妒忌(envy)策略作为解药建议。)
最大的一个问题就是“狙击”(snipe)这种策略,直到今天eBay也非常头疼这个问题:
在eBay网站上,标出的价实际上是第二高的报价,最高价被隐藏起来,维持一周进行拍卖,报最高价者以次高价的成本买到货。
可能的情况比如,某位报价1刀以后,注册不同账号变身第二位并立刻报100刀,吓走了同期竞争者,这样只花了第二高的1刀就收走了卖家所有的爱物。
为了克服这个困难,在eBay上新的报价允许最大不超过14%的增加。
由于担心提早报价无端抬高了第二高价,报价会大部分集中在最后时刻。
这就是所谓最后时刻的“狙击”。
准确地讲,无论是公开的竞拍还是悄无声息的暗拍,都是在发现价格,或者是揭露概率分布。那么,听到对方的声音会产生何等的差别呢?
我们通过一个二人决斗(Duel)来谈谈这个问题,当然把所有的混合策略全部“纯化”(purified)。决斗,就是两个情敌背对背走开到最远(设最远距离为1),然后逐步靠近依次向对方开枪(一般还会蒙着眼)。俄国的普希金(Пушкин)和法国的伽罗瓦(Galois),都是在与情敌决斗的过程中英年早逝的。
假设存活的概率同二人间距正比例变化,开枪的概率同二人间距反向变化。假设A从最远处起了步或者距离,B从另一端走了步或者距离。
(1)一种决斗是有声的“Noisy Duel”,一方听到对方开枪的声音。
那么A开枪的概率: , B开枪的概率是: .
A和B收益总和永远是1 (任意一方可以获得爱情则是1单位奖励)、而且严格竞争的(你死我活)。
利用对称性则有:.
可以得到其中一个均衡:≈0.618(黄金分割点)。两者反应函数(reaction curves)的一个交点则是(0.618, 0.618). 调整步长有时会产生出多个(奇数个)交点。
如果A要考虑到B的某个位置才能做决定,那么固定自己的位置意味着是常数。
如果, A的期望收益: 是常数,是直线。
如果, A的期望收益: , 是二次曲线。
(2)另一种决斗是塞着耳朵的“Silent Duel”,彼此听不到对方是否开枪。
如果a和b是“连续”变化的,那么两者反应函数(reaction curves)没有任何交点,没有纯策略纳什均衡。
但离散情况下,也就是调整步长有时会产生出一些交点。
A开枪的概率变成: P(a)=1-a, B开枪的概率是: .
如果, A的期望收益是: , B的期望收益是: ;
如果, A的期望收益是: , B的期望收益是: .
所以收益总和是, “Silent Duel”并不是严格竞争的。
这两种”决斗”方案为拍卖设计者提供了警示,无论是买家的党同伐异,还是卖家希望的求同存异(agree to disagree)。
欧洲神话中有一个Belphegor,一直以来被认为是懒惰之神,其实正式译名就是“七罪宗”,也可以理解为地狱的一个首领,算作亚述的魔神之一,以厌恶女性著称。要说司掌懒惰,在古希腊有一个懒惰女神Aergia,是以太( Aether)和该亚(Gaia)所生。惰性(Inertia)应该和Aergia这个名词同源,都指的是不主动、反动的意思。
后来这些异教的神,包括阿波罗在内都被流放了。随后约两千多年,流亡的众神也被放牧到很久远的地方。
但丁《神曲》的地狱篇(Inferno)里面对于懒惰没有太多的责难,把天主教“七宗罪”中的傲慢、懒惰,替换为异端、施暴、欺诈以及背叛。只在炼狱篇(Purgatorio)里稍微谈及懒惰这个话题,因此并没有引起耶路撒冷方面的太大注意。
无论是老三论还是新三论,懒惰,这一话题是经久不衰的,有着一种决定论的味道。系统是懒的,这句话至少可以延长很多研究者的寿命,有时甚至是可喜的:似乎就像是被“授权”一样。
懒惰的性质很容易从实验中归纳,比如磁场中的洛伦兹力、惯性。定性分析中的勒•夏特列定律(Le Châtelier's Principle),也是这种懒惰的现象,缓冲对竭力维持原有的平衡。
萨默尔森(Samulson)版本的勒•夏特列定律,在部分均衡理论(PET)中用得很广,其大意是:“均衡朝着减小改变原有均衡的方向移动。”
其实这直接针对了均衡固有的惰性。它有一个实用的推论:“价格在长期的影响远大于在短期的影响。”
我们看一个简单的例证;厂商的决策,已知资本成本、工资、产品价格,选择资本、劳工,实现利润最大化:
根据包络定理(Envelope Theorem),中长期的最优解是:
,
,
.
而在短期时,资本设备保持在固定水平,条件最优解变成了:
和.
利用恒等式:,
所以,自然就有产出的Slutsky's分解:
,
.
对第二个式子恒等变形:.
再根据杨氏定理(Young's Theorem),
,
所以,恒等变形为:.
带入第一个产出的Slutsky's展式,得到:
对于大多数正常商品,有一条被马歇尔(Marshall)称为“需求第一定律”(First Law of Demand)的假设:需求和自身价格反向变化。
如此,则,所以,产出的短期变动就会小于长期变动 .
同理利用恒等式:,
得到需求的Slutsky's分解:
,
.
后者恒等变形:.
根据杨氏定理(Young's Theorem),
.
由第一个需求的Slutsky's展式代换得到:
同样假设资本和劳动力都是正常商品,则,.
因此,需求的短期变动就会小于长期变动.
此外,“勒•夏特列定律”暗含的一条推论则是:“短期需求曲线的弹性小于长期需求的弹性。”
还是以厂商为例来看一个具体的情形,计算其边际成本曲线:
生产技术是Cobb-Douglas的, .
于是,推导出中长期的总成本函数为:.
求导,得到中长期的边际成本函数:
.
长期均衡解为:
均衡价格,均衡产出,均衡需求.
删繁就简,假设短期内资本固定在,
则短期生产函数变成:,
所以得到短期总成本函数:,
求导得出短期边际成本函数:
.
将中长期和短期的边际成本曲线画出来就可以看出规律:中长期曲线更为平坦,短期的函数曲线较陡峭,所以长期的弹性大于短期的弹性。
系统的慵懒一旦成为一种经验,挖掘者就开始幻想以逸待劳。
榨取过程中有一条奇异规律,叫做Benford's Law,或者称数据是懒惰的。其大意是,随机数据极有可能服从这样一种规律:“以1开头的数最多,依次减少到,以9开头的数最少”。
首位数字为的数出现的概率(频率),大致是.
这个直观的现象可以从你每个月消费记录上获得验证。
我还有一个办法:九九表,再熟悉不过的。把它扩增到100x100的规模,去掉第一行、第一列。实际上这是我们生产“合数”的办法,没有囊括的都是“素数”。你会看到“1”开头的数基本上比“9”开头的数九倍还多,有着基本清晰的递减规律。
对于这个经验规律有一个简懒的解释。
我们可以理解为:“从100增长到200的困难程度,远远大于从900增长到1000的困难程度。”
从1增长到2的困难程度,与从10增长到20的困难程度,本质上没有差别。它们都是从“1”开头的数增长到“2”开头的数。
增长到,假设使用复利计算,利率为.
我们把这种困难程度理解为一种惰性,亦即增长过程所耗费的时间。
1增长到10的过程中,1增长到2耗费的时间最长,依次加快,9增长到10最快。
假设增长到耗费的时间为,从1增长到10耗费的时间为.
所以,.
,
.
增长耗时的占比就是:
.
可以看出,符合Benford's Law的经验,检验出以“1”开头的数占比约30.10%,依次递减,以“9”开头的数占比约4.58%.
A practiced statistician might apply
The apt analogy of Benford's law
And I will not, as one of them, deny
(本土流行的诗体,和十四行诗不同,只前后两句押尾韵,而且中间只一句)
值得注意的是,增长过程所等待的时间应该受到许多“限制”。
一般而言,金融财务数据并非大数据,其中复利增长方式本身就是几何级数。我们举的九九表这一案,也是通过乘法生成的。
Kossovsky在2015年提出限制,Benford's Law的经验分布适用于以下情况:
在固定的单位时间里,所“等待的时间”,首先让人想到并不是Benford's分布,往往是泊松(Poisson)过程。而后者并不容易生成Benford's分布。
泊松过程最初是一种离散的随机过程,却连接了连续的时间。
它是针对于小概率事件,但却是必然要发生的事件。撇开这个过程,我们先看一个典型的离散分布。
对于泊松分布,离散的概率分布函数(pdf)是:.
是随机的,代表单位时间内事件发生的数量。
这里的视作单位时间内发生的“平均频率”,也就是在单位时间内平均有多少起事件发生。
你知道34街十字路口每周平均一起车祸,那么每周内车祸数量就服从泊松分布,一个月内车祸数量服从泊松分布.
在这个分布的基础上我们来看泊松过程,生成的比较有代表性的是Gamma分布,再特别地看其中的指数(Exponential)分布。
指数分布的pdf是:.
这里的是随机变量,代表“到事件第一次发生所需要等待的时间”。
这个指数分布是由一个泊松过程生成的:
如果恰好是单位时间的话,小概率事件发生的“平均频率”就正好是.
是尺度参数,可以被简单地理解成“平均的等待时间”。
想象一下,你躺在空旷的草坪上,仰望夜空,心里知道每个流星平均每半个小时出现一次。但它们并不一定准时,而且也跟你等待了多久没有关系。
这在随机过程之中,联通了“连续”与“离散”。
此外,这个指数分布还蕴含了一点,等待的时间是无记忆的;其寓意是高阶的随机性。
这几种关于“等待时间”的分布函数,其形态是完全不同的,而且相互之间也并不存在人们通常预计到的收敛速度的关系。
“等待时间”的经验分布,暗含了随机数据属于哪种随机性。你可能会说,Benford's分布是那些“慵懒”的过程生成的。
按照Kossovsky(2015)的说法,幂运算生成的程序算得上是这样的慵懒过程。那么随机的幂函数如何生成呢?
你我心照不宣,首先想到的一定是差分方程的通解,它们一般都是幂函数。
在连续的情形则是微分方程,求通解也可以产生指数函数。这些随机函数则可以收敛于Benford's分布。
在偏微分方程里面则不尽然,举一个特别的反例。
求解傅里叶(Fourier)的热传导方程:,
难以化简,可以说通解非常多,当然可以猜到一种通解长成这样:.
由于的小数部分不服从均匀分布,这个通解既不在空间上()收敛到Benford's分布、也不在时间上()收敛到Benford's分布。
热传导方程的另外一个通解:,
生成的这个通解,作为一个随机变量,在时间上()收敛到Benford's分布,但是不在空间上()收敛到Benford's分布。
再求解,受正态分布pdf的启发构造一个幂律形式,热传导方程又有了这个解:,
它在空间上()倒是收敛到Benford's分布,却又不在时间上()收敛到Benford's分布。
继续构造该方程的通解,留心一点,这种指数形式的随机函数渐进服从Benford's分布。
也是它的通解,无论在空间上()还是在时间上()都渐进服从Benford's分布。
目前走着频率学派的路子,一定想拿腔拿调问问:要不要求参与这些幂指运动的们还有们,符合独立同分布(i.i.d.)?
90年代讨论这个问题还算比较多,不过都是无事生非(much ado about nothing)。拿掉同分布,再看独立,也一样是画蛇添足的(gild the lily)。
独立,并不一定意味着随机。令人叹惋,独立甚至在“限制”随机的程度,“限制了联合分布函数(joint pdf)产生方式,它们直接由边际分布函数(marginal pdf)仅仅通过乘法运算得到”。
自然界有很多捡懒的过程,偷工减料,最常见的一种办法就是复制和对称。某些树叶的叶脉,即便再细微,也和树枝、树根的分叉方法如出一辙;雪花也是,还有螺壳、花菜等等,细微的分型(fractal)和整体的形态基本是相似。
包括对称也是,实际是信息的缺失,一半信息是另一半信息的复制。
生成它们的过程,我们就认为是慵懒的。
从有限的理性思维过程而言,欧几里得般的演绎,显然比穆勒(Mill)的归纳来得轻松、一劳永逸。
懒人并不热衷归纳方法,尤其是逆向归纳(backward induction),也是由于归纳更容易错误百出、事倍功半。
然而,使用归纳则是耗时费力的,而且很难避免误判。
早在17世纪,拉普拉斯(Laplace)就提出用“概率”在法庭断案,遭到伯努利家族(Bernoulli's )包括傅里叶(Fourier)在内的强烈反对,因为统计的本质也在于归纳法。
即便是福尔摩斯(Holmes)也会犯错,他的推理技巧大部分是缜密的归纳方法。不过,“修道院公学绑架案”之中他的逆向归纳出了巨大的纰漏。
也许小说可以把归纳的随机性限制在“小世界”。讽刺的是,柯南·道尔(Conan Doyle)作为医学博士,对伤口的位置也疏于细查。
和福尔摩斯一样,其笔下的华生(Watson)也是医生,曾经在一次战事中负过枪伤。在“血字的研究”(A Study in Scarlet)中,华生的伤是在肩膀上,但在小说“四签名”(The Sign of the Four)中,华生的伤却变成在腿上了。
企图逆向推理断案,像是一种良心测试。作家把功夫花在情节设计上,却在编造的细节上偷了懒。
即使是莎士比亚也不例外,就拿最著名的悲剧“王子复仇记”(Hamlet)来说吧。
丹麦国王的死因也是草率的,复仇者认定是王叔用水银杀死了父王。假定国王曾患中耳炎并且还造成耳膜穿孔,并且假设水银能通过穿孔流经咽喉而到达胃肠。事实上,水银既不溶于水及醇、醚等有机溶剂,也不溶于盐酸和稀硫酸。在胃肠道中,水银既不溶于酸性的胃液,也不溶于碱性的肠液,没有机会形成可溶性汞盐,根本不会将人毒死。
认识Benford's经验分布的那一刻,不得不深刻意识到其适用范围,一旦企图用它来审查数据,审查者的神经就必须高度紧张。
依据国会2002年通过的法案Sarbanes-Oxley Act第103条,合法成立的美国公众公司会计监督委员会(PCAOB),是会计行业的自律性组织。美国至今没有颁布任何关于会计的法案,基本依靠行业自制。
PCAOB一再打消Benford's Law的使用积极性。审查公众投资项目的程序,更加保守和复杂。
目前只有国税局IRS对收入数据试行过Benford's分布的测试,而且还没有得到联邦(Federal)层面的说服力。
质疑的其中一点在于,原假设是“数据是否做了手脚”,偷换成为“数据是否服从Benford's分布”。
此外,对于小样本的数据,IRS等机构的现成做法是保守的“局部靴襻”(local bootstrap)。“局部”针对的是邻域,“靴襻”则是指从原观测值进行多次模拟,实现出来的各种情形都是从原数据中反复人造的。这是一种“保守”的靴襻,因为要求极端情形(outliers)的数量每次都一样(如此可以避免扩大方差)。
早在2011年,Nigrini博士就对以前五大会计师行之首的Arthur Andersen进行过分析,确实与Benford's Law预测频率差异极大,但都是在它的大客户安然(Enron)、世通( WorldCom)出事以后进行的后验分析。
Nigrini的备录上专门提到检查的数据,必须有明确的规模说明,不能含有身份号码、标号,不能是切头切尾的(truncated),即没有内设最大值、最小值。
如此,学号、工作号、PIN码、社会安全号、序号、日期等等都必须排除出去。
从范围上看,这与公认会计原则(GAAP)要求审查范围相比明显缩小。
为了扩大试用范围,Princeton的数学教授Steven Miller(2015)试图找出这些懒惰的生成过程,扩大审查的范围。
这就是向着“大数据”扩展,数据的范围扩大到了音乐、视频、图像。
内在的假设是,规定音乐、视频、图像是“乘幂运动”生成的,或许和纯粹随机的“白噪声”(white noise)有别。
乘法和加法一样,本质是相同的,都属于“对称”的群(symmetric group)。
乘法所满足的各种运算律,加法也基本都满足。两种结构极其相似。
关于乘法运动,除开“压缩”和“放大”作用的数乘,我们首先想到就是矩阵。
矩阵的作用就是“对称变换”,比如“翻折”、“旋转”。
在二维平面上看,一个二维向量乘以矩阵,就是逆时针旋转了.
所以,矩阵乘法也可以看做是“对称运动”。
对称,是“捡懒”的实质,以损失或遗忘部分信息为手段,是一种简约的处理原则。
矩阵的秩(rank),尤其是协方差矩阵的秩,可以理解为自由度(degree of freedom),承载了没有被遗忘的信息(或记忆)。
可以把协方差矩阵近似看作Cramér–Rao bound,其逆矩阵被称作信息矩阵(information matrix,若降解为数,则是方差的倒数),恰好等于似然函数(Likelihood)的Hessian矩阵。方差越大,提供的信息越少。
对许多图像的处理,大多着眼于单位面积色块的方差、协方差矩阵。
至于音乐,乐音本身的频率就是几何级数,是通过幂运算产生的。从低八度的C宫到高八度的C,频率正好翻倍。每个八度有12个音律,稍微一算可知,半音阶每个音之间频率公比是.
这本身就是个乘法运动生成的,所以渐进服从Benford's分布。
此外,作曲家本身也是怠惰的。每个流派为何如此好辨析?原因就在于创作有继承有相似。也许脑子疲劳偷了懒,一个人做的曲子,尤其是自由发挥的时候,不自觉地自我相似,形成个人风格。
做的最离谱的则是巴赫(Bach),最典型的一首赋格(fugue,特点是没有Canon那种“再现部”)当属Goldberg Variations(BWV 988),就像镶嵌微型结构一样,内部有无数“自相似”的重复和循环。
另外一首是巴赫晚年创作的“音乐奉献”(Musikalisches Opfer, BWV 1079),可以看到,这位垂暮之年的巴洛克乐师在波茨坦宫廷如何玩味“自相似”。下面是其中一部分反复重现的乐谱LaTeX代码:
\begin{music}
\generalsignature{-3}
\smallmusicsize
\startextract
\NOtes\ha{eg}\enotes\bar
\NOtes\Qqbu babj \enotes
\Notes\Qqbu bgfg \enotes\bar
\NOtes\Qqbu ab{=h}{=i}\enotes
\mulooseness=-1\endextract
\startextract
\Notes\Qqbu jgab \enotes\bar
\NOTes\Qqbu {_h}fga \enotes
\NOTes\Qqbu bagf \enotes
\mulooseness=-1\endextract
\startextract
\NOTes\Qqbu gabh \enotes
\NOTes\Qqbu ihba \enotes\bar
\NOTes\Qqbu bhij \enotes
\mulooseness=-1\endextract
\NOTes\Qqbu {_k}ihb \enotes\bar
\NOTes\Qqbu {=h}{=i}jk \enotes
\NOTes\Qqbu lj{=i}{=h} \enotes
\mulooseness=-1\endextract
\startextract
\NOTes\Qqbu {=i}jkl \enotes
\NOTes\Qqbu mkbk \enotes\bar
\NOTes\Qqbu jklm \enotes
\mulooseness=-1\endextract
\startpiece
\NOTes\Qqbu lkj{=i} \enotes\bar
\NOTes\qu{jbge} \enotes
\Endpiece
\end{music}
(For Dummies 原本是“懒人包系列”,从上世纪九十年代开始成为欧美国家家喻户晓的畅销手册,也是最为著名的自学、速查、教学参考系列。)
中国人都知道嵇康有“七不堪”,其中他的疏懒最为出名,多是因为王维的诗句“莫学嵇康懒”。关于西方文学中“懒人”的印象,我最为深刻的是安徒生童话,似乎里面的懒汉特别多,俯拾即是。
18世纪的美国,南方庄园特有的The Lazy South则是美国文学的一条主线。马克·吐温(Mark Twain)笔下的“哈克贝利历险记”(Adventures of Huckleberry)以密苏里州的庄园为背景,以现实主义手法描写出南方生活的懒散,与镀金时代的东北部城市生活形成鲜明对比。其实,这个Huckleberry是双关,Huckleberry friend是青梅竹马、发小的意思,又恰巧与主人公哈克贝利同名。要说偷懒,同样以在密苏里的童年生活作为背景的“汤姆·索耶历险记”(The Adventures of Tom Sawyer),马克·吐温更是幽默地展示了汤姆·索耶的偷懒技巧,同时也折射出像波利姨妈(Aunt Polly)这样的南方人疏懒的生活状态。
当然,因为语言文字的局限,“懒惰”有时被认为是主观的、感知到的。文章把它当作一个隐喻、修辞,针对的是一种惯性的状态。
由于贝叶斯学派用的都是归纳方法,既不知道系统“惰性”的原因,也不研究其内涵。我们只从表现出来的性质总结这个抽象的状态,就像“瞎子摸象”一样,而且我们也不关心到底需不需要是一头真正的大象。
“预测速成”(Crystal ball for dummies),不是利用的“必然性”,恰好是剔除了各种“必然性”,把剩下的“偶然性”作为原料,提炼加工。
对于不测风云,懒人包仍然追求通天彻地,提供实际的预测手册。
如同填词,如果你完全清楚其词牌名是什么,就可以很容易地预测到下一句用什么词。
做预测,首先要尽快把你武装起来(kit your tools)。
贝叶斯调整的工具包(toolkit)中有一件法宝,那就是“条件期望”(conditional expectation)。而条件期望函数(CEF),则正是连接已知到未知的桥梁,是回归的基础。
预测者如今言必称“回归”,旨在把真实的“映射到”回归子们组成的空间中,这种映射是线性的,不难想到正是矩阵乘法,的影子就是.
我们通过影子来认识原像,诚如“查拉图士如是说”(Also sprach Zarathustra),人不过成了“影子的影子”。
然而,要做到计量无害(econometric harmless),条件期望函数放宽了限制“线性”条件。不得不承认“线性”的确是诱惑人的,我们先看一则演算。
已知的,预测未知的,建立在之上的期望,以为已知条件,是的条件期望。
简化符号:期望算子,;
方差算子,;
协方差,相关度.
我们不知道条件期望函数究竟什么样,但是我们可以假设它是线性的形式,设为:,其中和都是未知参数。
然后,求解和。
根据“迭代期望定律”(law of iterated expectation),
,
使用简化记号小结为:.
根据定义,,
.
再祭出“迭代期望定律”利刃,
,
.
同样的,,
带入前式,则有:
,
稍加变形,整理得:.
将带入条件期望函数的形式,
得到,
所以,,整理总结为:
以期望作为预测的策源,实际上彰显“平均”的预测力。然而,在投入实践之前,我们不得不对“平均”(期望)加一块警示牌。
有一则经典佯谬,“中心回归”(regression to mean)现象。事情可以追溯到优生学中所谓的“遗传回归定律”,是达尔文(Darwin)的表弟高尔顿(Galton),大概的意思是:高个子的父母,孩子往往不容易特别高;矮个子的父母,孩子往往不容易特别矮。各种性状趋于平均值。
这个优生学谬误流传很广,我们首先来看“中心回归”现象成立的条件是什么?
将就高尔顿(Galton)原文的模型,设父母的身高是,子女身高是,线性映射:.
所谓映射,就是垂直投影(光线走的距离最短,亦即优化的观点下“误差最小”),影子与误差“垂直”。于是,.
那么,“中心回归”的意思就是.
方差分解:,
则,
所以,.
如果人口性状是稳定的,,那么,,所以“中心回归”要求“收敛”.
如果人口性状是发散的,亦即,那么,则不一定存在“中心回归”的现象。
在这个背景下,我们继续来看,实际操作中风险官如何利用“均值”(期望)。
预测是置身样本之外(out-of-sample),所以需要一个载体。“平均”的目的很明确,就是要让“大数定律”(LLN)有用武之地。
第一步是找出风险引擎(risk drivers),比如.
然后从中剔除掉所有“必然因素”,比如趋势、聚落特点等等。剩下的东西就更加“随机”,叫做“不变量”(invariants),比如.
一般需要各种检验测试这些随机“不变量”,比如要求其“独立同分布”(i.i.d.),本质是要求它们在时间上具有“可重复性”。
“可重复性”,正是“大数定律”的用武之地。
对这套伎俩,情报工学(或信息工程,information engineering)流行着这样一种说法:误差倦怠了,或者误差也喜欢“从众”。
值得注意的是,“独立同分布”比白噪声(white noise)还要严苛,要求同分布是“可重复性”的来源。然而,最简单的“随机漫步”(random walk),单位根(unit root)并不是“不变量”,而只有其增量(increments)才是。
这之后,从这些“不变量”获得先验联合分布,再通过映射(把影子映射回去),获得联合风险引擎的分布,剩下的工作就可以交接和上报流动性风险部门了。
另外一点则是“因果联系”(causality),科学家要求预测有根据。因果联系来自于“可重复的”实验,一般需要构造“类实验研究”(quasi experiment)。实际操作中,这个“可重复性”也是针对的误差(error)。
可是,当今许多计量工作者检验“误差是否独立同分布”的时候,实际都是通过检验拟合“残差”(residual),因为“真实误差”无法获得。但这些年,不少英国的数学家(比如2012年Parente和Silva)提出,残差的“可重复性”对于误差的“可重复性”既不充分、也不必要。
细究下去,检验方法层出不穷,却都不尽人意。英国人的态度则是学学“差不多先生”,“ignorance is bliss”(或者难得糊涂),你自然会想到下联是'tis folly to be wise(是为愚者之智)。
站在“善恶的彼岸”(Jenseits von Gut und Böse),关于“惰”,我们不执任何道德观念,纯粹从神话官能来理解。
模仿Nietzsche的口吻,我们可以断言“常常谈论自己的人,往往只是为了隐藏自己。”而那些与懒惰战斗的人,则应该当心自己变成懒惰。这往往是因为“人最终喜爱的是自己的欲望,而不是自己想要的东西”。
不得不说,懒是因为认为世界是理想的。对待各种数据的理想主义就是“同质性”,相容、相互不矛盾、相似相近,或者渐进地一致。
“容”和“装”是一个意思。相容就是“一个装一个”的想法,这种想法抽象地说,就是“过滤”(Filtration)。不难观察到,测度空间一类的抽象结构总是要定义在“镶嵌到大的结构中”才可以进行,一个套一个。
布尔巴基学派为什么需要这种俄罗斯套娃一般的“过滤”呢?
这跟我们的逻辑有关,“任何相容的形式体系不能用于证明它本身的相容性”。这个定理是不可思议的数学家哥德尔(Gödel)提出的,是他“不完备性定理”的一条重要推论。
另外一个意见是,对待“不懂”的态度是如何:无论承不承认,我们都喜欢捡懒,比如类比、举例、举一反三,实际上就并不是在就事论事,而是在守株待兔。
专业的数学训练,当然是必须的,但不应该总是闭门造车。
西点一直致力于研究“二战”时期德军的士兵训练及实战操行,其中有一个看似松散的管理策略:Auftragstaktik,这个词是反对Befehlstaktik产生的,后者指的是一种以执行一系列指令为为本位的实际战术(tactics)、直译为指令本位(command-oriented)战术。前苏联的伏龙芝军校(В-А-Г-Ш-В-С-Р)采取的就是Befehlstaktik,在纳粹内部也一直流行这种勤劳严谨的战术。
可是从1942年开始,德军开始改进战术上的协调性。以完成任务(mission)为本位的Auftragstaktik,成为新的战术。但是它也架空了领袖,形成非常时期的作战安排。
Auftrag照字面理解是任务的意思,从这个意义上看类似Drucker的“目标管理”(MBO),但是细查西点上世纪60年代的文献,发觉显然不是一个概念。
同英国皇家空军的“双C”(Control-command, C2法则)相比,Auftragstaktik有一套OODA的反馈回路(feedback loop),更加“去中心化”。士兵以逸待劳,并获得“授权”(enablement),这样实际上没有对上级负责。
而且Auftragstaktik首先是对“决策”进行了弱化,“观察”和“行动”成为了重点,并且时刻适应和调整。观察实际情况,着眼信息的“真实性”(Eigentlichkeit,英译Authentic或者正宗性),减少了误判的几率和沟通耗费的时间成本。
同时,Auftragstaktik让战斗成为游戏一样快乐,没有一种“指令”的压迫感,而战斗过程本身带来的快感带动部队前进,调动了中层兵士(cadets)的积极性。
此外,领导者只在“紧急情况”的时候高度紧张地工作,所以也让领导者从日常事务中解放出来、腾出时间去进行外交谈判来斡旋。部队的效率也因此大大提高。
可能是受报告文学的影响,数学工作者总是要给人以“忙碌”的印象。
大数学家克莱因(Kline)讲过这样一则寓言,意味深远:“一座美丽的城堡已经在莱茵河畔矗立了许多个世纪。在城堡的地下室中生活着一群忙碌的蜘蛛,突然一阵大风吹散了它们辛辛苦苦编织的一张繁复的蛛网。于是它们慌乱地修补起来,因为它们以为,正是蛛网支撑着整个城堡。”