[关闭]
@Preston 2016-02-27T07:38:30.000000Z 字数 3706 阅读 601

烟霞雾霭

计然生


入手谈说混合策略的构造,并不一定需要一个显性的随机数发生器。一旦一项行动的选择或决定做出以后,没人知道这究竟是混合策略还是纯策略。
多态的(polymorphic)均衡存在于信仰(概率分布)之中,而非实际行动。这个概念来自于贝叶斯纳什均衡最重要的一个假设:角色分配(casting roles)。把一个玩家变成同时存在的多个玩家。
即便每一个玩家都出纯策略,但是剧情的安排最终构造出玩家们整体是采取混合策略。
如果你手中正好没有骰子或者硬币之类的,理解这个概念不妨参考莎士比亚的《驯悍记》 (The Taming of the Shrew)。 除此之外,无论是杀了丈夫伊阿宋(Easun)的新欢又杀了两个儿子的美狄亚(Medea)公主,还是杀了丈夫阿伽门农(Agamemnon)又被儿子俄瑞斯忒斯(Orestes)所杀的克里台内斯特拉(Clytaemnestra),在莎士比亚的《泰特斯·安特洛尼克斯》 (Titus Andronicus)这部剧面前都显得小巫见大巫了;不得不说,它是莎翁著作中最为血腥和残忍的一部剧。

当然,这本来源于贝叶斯学派对于参数估计的理解与频率学派的截然不同:他们认为真实参数是变动的;而频率学派认为真实参数是客观不变的、变动的是估计和由估计构造出的置信区间。
这也难怪频率学派的数理统计发现了“安娜·卡列尼娜原则”(Anna Karenina principle),当然是语出那位取名狮子的处女座文豪托尔斯泰:样本数据满足所有原假设的方式只有一种,违背原假设的方式各有各的不同。
贝叶斯概率则是着眼于一种“小世界(small states)概率”。
这个枯燥的逻辑是因为英国哲人穆勒(Mill)对归纳(由个别到一般的)方法进行的束缚,也是形式逻辑中“穆勒五法”的精髓:真实仅仅只是小世界的真实。而至于小世界之外,我们唯一知道的就是我们一无所知。
也许在一些小世界中天鹅都是白的,但在有的情况下会出现黑天鹅。
这种情况是讨人嫌的,比如研究“最优捷降线”(brachistochrone)出现的欧拉方程。优化无非是”最大化”(max)和”最小化”(min),max是凹(convex)函数,而min是凸(concave)函数,分隔而治. 一般来说,一期或者短期的优化,就会产生一个一阶的必要条件,这便是欧拉方程。每一期都得到这样的条件,那么是不是加在一起就解决了无限期或者整体的问题呢?“一致性”(time consistent)是这个问题的关键:亦即某一条件是各期、各个问题的最优解。
困难在于“最优捷降线”离不开摄动(perturbation)的局部性,或者在收费高速公路(turnpike)问题上就体现为每一期的最优路线都不一样(开车上班的朋友应该深有体会,Google map选出的最优路线总是变来变去)。
负债经营(或赌博)最大的挑战就是一致性的丧失,我们先看一个非公平的竞技游戏:

射击选手A和B参加一个射击比赛,一共100次射击机会。
不失一般地,我们简单地划分每次射击结果为中靶和没有中靶两种。
第一轮:
A打了60发,中了56次,中靶点数为0.93;
B打了70发,中靶62次,中靶点数为0.89. A在第一轮暂时领先。
第二轮:
A打了40发,中了12次,中靶点数为0.30;
B打了30发,中了8次,中靶点数为0.27. A在第二轮仍然领先。
现在,双方100次射击机会都已全部耗尽,我们来看看他们的成绩:
A一共中靶68次,累积0.68;
B一共中靶70次,累积0.70.
虽然A在每一轮都领先于B,但是最终的总成绩是B领先A。

人类的逻辑是从规则来研究“不规则”,于是钟表这样的度量衡就被发明了出来。
博弈论研究引入了“信息集”这一概念,最早是由冯·诺依曼(Von Neumann)和Lawrence老师的导师摩根斯坦(Morgenstern)在研究扑克游戏时提出的。
为了看到这个信息集,不妨先从一道经典习题着手:

一个村子里住着许多家庭,其中有50个家庭中的丈夫对妻子不忠。在牧首来到这个村庄之前,没有一个妻子知道自己丈夫的情况,她们只知道其他所有的男人是否不忠。但是,一旦妻子知道自己的丈夫不忠,就会在当天子夜杀掉他。每天晚上,妇女们都会聚在一起开会。
有一天,牧首诚实地宣布:这个村庄至少有一个丈夫对妻子不忠。请问:有多少丈夫最后被杀掉?答案是,村子里安静地度过了49天,第50天夜里听到了枪声,正好50个丈夫被妻子打死。

答案的最为典型的一种推理以在MIT的习题集总结出来的为例:
假如这个村庄只有一个不忠的丈夫,他的妻子是唯一不知情的人,那么第一天过后的子夜就会听到枪声。如果有两个不忠的丈夫,他们那两个不知情的妻子只了解到有1个不忠的丈夫,第一天夜里风平浪静。经过第一晚,这两位妻子可以推断出有且正好有2个负心人,第二个夜里同时发生了枪声。如果前两天子夜都风平浪静,那么妇女们就可以推断出至少有3个负心人……
以此类推,这是一种非常经典的归纳法。

不过,化身福尔摩斯之后的大侦探波洛(Hercule Poirot)提出,这的确值得删繁就简。还有一种删繁就简的办法是由英国人Ken Binmore通过“信息集的分拆”获得,而且对学习非合作博弈更为有益。
Binmore把这一理念运用在拍卖设计中,香港和新加坡政府对3G网络运营执照的拍卖 (次高价暗拍,second-price sealed bid) 就是这种信息集拆分的运用。
(拍卖设计者意识到“钱包游戏”(Wallet game)可以避免“赢家诅咒”,其逻辑在于有共同的公允价值,然而在苏富比(Sotheby's)却面临没有共同价值和估价不一致。由于担心“赢家诅咒”所以经常出现压低报价(shading),但在次高价暗拍中“说真话”成为占优策略,附:其证明的总结
在和次高价暗拍等价的英式公开拍卖中,无法承受心里底价的伴随拍卖依次退场,场内留下的人拥有的信息最多。而另一方面,价格的高低也能俘获住了信息量的高低。

和这种竞拍场“逐次退出”的层次相关的概念,就是逆向归纳过程中对信息集的分拆。
可是次高价暗拍与公开的英式拍卖,也并非完全意义上的对等。
(附:拍卖等价的定律,以及引入风险厌恶之后不等价的证明,对风险厌恶引入妒忌(envy)策略作为解药建议。)
最大的一个问题就是“狙击”(snipe)这种策略,eBay也非常头疼这个问题:
在eBay网站上,标出的价实际上是第二高的报价,最高价被隐藏起来,维持一周进行拍卖,报最高价者以次高价的成本买到货。
可能的情况比如,某位报价1刀以后,注册不同账号变身第二位并立刻报100刀,吓走了同期竞争者,这样只花了第二高的1刀就收走了卖家所有的爱物。
为了克服这个困难,在eBay上新的报价允许最大不超过14%的增加。
由于担心提早报价无端抬高了第二高价,报价会大部分集中在最后时刻。
这就是所谓最后时刻的“狙击”。
准确地讲,无论是公开的竞拍还是悄无声息的暗拍,都是在发现价格,或者是揭露概率分布。那么,听到对方的声音会产生何等的差别呢?

我们通过一个二人决斗(Duel)来谈谈这个问题,当然把所有的混合策略全部“纯化”(purified)。决斗,就是两个情敌背对背走开到最远(设最远距离为1),然后逐步靠近依次向对方开枪(一般还会蒙着眼)。俄国的普希金(Пушкин)和法国的伽罗瓦(Galois),都是在与情敌决斗的过程中英年早逝的。
假设存活的概率同二人间距正比例变化,开枪的概率同二人间距反向变化。假设A从最远处起了步或者距离,B从另一端走了步或者距离。

(1)一种决斗是有声的“Noisy Duel”,一方听到对方开枪的声音。
那么A开枪的概率: , B开枪的概率是.
A和B收益总和永远是1 (任意一方可以获得爱情则是1单位奖励)、而且严格竞争的(你死我活)。
利用对称性则有:,可以得到其中一个均衡: ≈0.618(黄金分割点)。两者反应函数(reaction curves)的一个交点则是(0.618, 0.618).
调整步长有时会产生出多个(奇数个)交点。
如果A要考虑到B的某个位置才能做决定,那么固定自己的位置意味着是常数。
如果,A的期望收益是常数:,是直线。
如果, A的期望收益是:,是二次曲线。

(2)另一种决斗是塞着耳朵的“Silent Duel”,听不到对方是否开枪。
如果a和b是“连续”变化的,那么两者反应函数(reaction curves)没有任何交点,没有纯策略纳什均衡。但离散情况下,也就是调整步长有时会产生出一些交点。
A开枪的概率变成: P(a)=1-a, B开枪的概率是: .
如果, A的期望收益是: ,B的期望收益是: ;
如果, A的期望收益是: ,B的期望收益是: .
所以收益总和是,“Silent Duel”并不是严格竞争的。

这两种”决斗”方案为拍卖设计者提供了警示,无论是买家的党同伐异,还是卖家希望的求同存异(agree to disagree).

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注