附錄二(非常技術性):大部分經濟模型在何處顯得脆弱和使人爆破
我在本書內文提到「技術性」時,也許是在撒謊。但這裡不是。
馬可維茨(Markowitz)不連貫:假設有人告訴你,某件事情發生的機率剛好是零。你問他從哪裡得到這個數字,他答說「太陽神告訴我的」。光是這樣,這個人可說相當連貫,但是不信奉太陽神的人,會認為他不切實際。但如果這個人告訴你「零是我估計出來的」,那麼我們就遇到問題了,因為這個人既不切實際,又不連貫。我們估計事情,會有估計誤差。所以如果是用估計的,機率不會是零,它的下界和估計誤差有關;估計誤差愈高,機率愈高,但最高到某個點。正如拉普拉斯(Laplace)的一無所知論點說的,無限的估計誤差會將機率推向二分之一。
我們會再回頭談這種錯誤的含義;現在只要知道,任何事情估計一個參數值,然後將它放進方程式,這樣的做法不同於用不同的參數值去估計方程式(這和祖母健康的故事相同,也就是平均溫度並不重要,我們需要的是跨越各個溫度的平均健康,在這裡則是指「估計出來的數值」無關緊要)。馬可維茨在他那「深具啟發性的」論文,探討他的不連貫論點時,一開始就「假設你知道E和V」(也就是期望值和變異數)。論文結束時,他同意它們需要估計,更糟的是,需要結合各種統計技術和「實務工作者的判斷」。嗯,如果這些參數需要在帶有誤差的情形下估計,那麼推導式就要用不同的方式寫出來,而當然了,這一來就沒有論文——沒有馬可維茨的論文、沒有爆炸、沒有現代金融、沒有脆弱推手教學生一些垃圾……經濟模型對於假設極為脆弱,因為這些假設稍有變動,就會如同後面將談到的,使得結果出現極大的不同。更糟的是,許多模型是「向後配適」假設,也就是選擇假說,使數學行得通,因此導致它們超級脆弱。
簡單的例子:政府的赤字。
由於政府使用的計算方式,以及政府機構目前遺漏凸性項(而且很難接受它),所以我們用下述的赤字為例。他們真的沒有將凸性項納入考慮。這個例子說明了:
⒜遺漏了已經知道會影響模型的一個變數的隨機特質,將它視為確定(和固定),以及
⒝這個變數的函數F,相對於這個變數呈現凸性或凹性。
假設政府估計未來三年的失業率平均值是9%;它使用的經濟模型,預測以本國貨幣計,赤字B是2000億。但它沒想到(和經濟學中幾乎每一件事情一樣)失業是隨機變數。三年內失業率平均波動一%。我們計算誤差造成的影響如下:
失業率為8%時,赤字B(8%) = −750億(改善1250億)
失業率為9%時,赤字B(9%) = −2000億
失業率為10%時,赤字B(10%) = −5500億(惡化3500億)
從低估赤字而來的凹性偏誤或負凸性偏誤是 −1125億,因為½{B(8%) + B(10%)}= −3120億,不是−2000億。這正是反點金石的情況。
圖三十七
圖三十七 非線性轉換讓我們能夠察覺模型凸性偏誤和脆弱性。本例說明:將失業率隨機化,以蒙第卡羅(Monte Carlo)法,模擬政府赤字這個左尾隨機變數得到的長柱圖;政府赤字是個凹函數。點估計法假設狄拉克(Dirac)一直維持在−200,因此低估期望赤字(−312)和它的尾部脆弱性(摘自Taleb and Douady, 2012)。
應用:李嘉圖模型和左尾——葡萄酒的價格是會變動的
將近兩百年來,我們一直在談經濟學家大衛.李嘉圖(David Ricardo)所說的「比較優勢」(comparative advantage)觀念。簡單的說,這是指一個國家應該根據它生產葡萄酒或成衣,表現出來的比較優勢,而訂定某種政策。假設一個國家既擅長於生產葡萄酒,也擅長於生產成衣,而且比它可以自由貿易的鄰國生產得更好。那麼明顯的最適策略,將是專心生產葡萄酒或成衣,視何者最好並能將機會成本降到最低而定。這一來,每個國家都會很快樂。經濟學家保羅.薩繆遜(Paul Samuelson)所做的類比是:如果某個人碰巧是鎮內最優秀的醫生,也是最優秀的秘書,那麼他最好當收入較高的醫生——因為這能將機會損失降到最低——並讓別人當秘書,自己再向人購買秘書服務。
我同意某種形式的分工有其利益,但利益不是來自證明這件事所用的模型。這種推理的缺點如下所述:沒錯,只因為醫生也擅長於秘書工作,就兼職當秘書確實不可思議。但是在此同時,我們可以安全地假設當醫生可以確保某種專業穩定:人不會停止生病,而且和秘書比起來,這種專業的身分地位較高,所以醫生是比較理想的工作。但現在假設世界上只有兩個國家,一個國家專門生產葡萄酒,希望在市場上銷售它的特長給另一個國家,但是突然之間,葡萄酒價格暴跌。由於品味改變,導致價格波動。李嘉圖的分析假設葡萄酒的市場價格和生產成本固定不變,而且這個故事沒有「二階」的部分。
表十一 李嘉圖的原始例子(每單位的生產成本)
成衣 葡萄酒
英國 一○○ 一一○
葡萄牙 九○ 八○
邏輯:上表將生產成本正規化,也就是依照每一種產品一單位的價格為準,假設它們以相同的價格交易(一單位的成衣可以交換一單位的葡萄酒)。看起來矛盾的地方如下所述:葡萄牙生產的成衣比英國便宜,卻應該利用銷售葡萄酒的利得,改為向英國購買成衣。在沒有交易和運輸成本的情況下,英國只生產成衣,葡萄牙只生產葡萄酒,是有效率的做法。
這個觀念因為它的矛盾和有違直覺的面向,而一直吸引經濟學家。舉例來說,保羅.克魯曼在他寫的〈為何知識分子不了解比較優勢〉(Why Intellectuals Don't Understand Comparative Advantage, Krugman, 1998)一文中,取笑古爾德(S. J. Gould)等知識分子。克魯曼其實並不了解這個概念,因為從這篇文章和他的技術性研究,可以看出他完全不懂尾部事件和風險管理,而古爾德了解尾部事件,只是他是根據直覺,卻不是從分析去了解(一個人如果不沖銷風險而折算利益,顯然無法談論報酬和利得)。這篇文章暴露克魯曼犯下極其重要和危險的錯誤,將「平均數的函數」和「函數的平均數」混為一談(傳統的李嘉圖分析假設變數是內生的,但沒有加上一層隨機性)。
現在考慮葡萄酒和成衣價格會隨著高於無偏誤長期平均值的數字而變動——但李嘉圖不是如此假設。進一步假設它們呈現厚尾分布。或者考慮它們的生產成本是依照厚尾分布而變動。
如果國際市場上的葡萄酒價格上漲四○%,那麼這會有明顯的利益。但是萬一價格同樣下跌四○%,則會造成巨大的傷害,規模大於相同漲幅所帶來的利益。這種暴露具有凹性,而且是嚴重的凹性。
而且,如果價格下跌九○%,影響顯然會是災難性的。不妨想像你在沒有預警的情況下,薪資立即被減四○%,你家會發生什麼事。歷史上有些國家專業生產某些產品、商品和作物,價格不只波動,而且波動得相當激烈,結果給它們帶來問題。還有,災難不見得來自價格的變動,也有可能是生產出了問題,例如由於病菌、天候不良,或者其他某種阻礙,突然之間你無法生產某種作物。
收成不良,例如一八五○年左右那個年代,愛爾蘭發生馬鈴薯飢荒,造成一百萬人死亡,以及一百萬人外移(本書撰稿時,愛爾蘭包括北部在內,總人口只有約六百萬)。我們很難轉換資源——國家缺乏改變的能力,而這和醫生兼打字員的故事不同。沒錯,單一栽培(只生產一種農作物)在歷史上是致命的做法——一次收成不良,就會造成災難性的飢荒。
醫生兼秘書的類比中,遺漏的另一部分是國家沒有家人和朋友。醫生有他的支持社群、朋友圈、一群人照顧他,以及萬一需要改行投入其他的專業,可以向岳父借錢,也就是說,遇到他無法應付的狀況時,有地方求助。國家卻不然。此外,醫生有積蓄;國家卻往往必須借錢。
這裡同樣對二階效應呈現脆弱性。
機率匹配:比較優勢的觀念在機率上有個類比:如果你從一個甕中抽取樣本(抽完再放回去),六○%的時候抽到黑球,其餘四○%抽到白球,那麼根據教科書,最適當的策略是每次都賭抽到黑球。至於六○%的時候賭黑球、四○%的時候賭白球的策略,稱作「機率匹配」(probability matching)。決策科學文獻(我要提醒讀者,這正是第十章中,特里費特所用的方法)認為這是錯誤的做法。人們採用機率匹配的本能是合理的,並沒有犯錯。就性質來說,機率是不穩定的(或者未知的),機率匹配和備餘類似,可以作為緩衝。所以如果機率改變,換句話說,如果有另一層隨機性,那麼最適當的策略是機率匹配。
專業分工行得通:讀者不應該將我說的話,解讀成專業分工好像不是好事——我只是表示,應該在處理脆弱性和二階效應之後才專業分工。現在我確實相信李嘉圖是對的,但不是從所用的模型來看。有機系統如果不採行由上而下的控制,會緩步漸進分工,而且經過一段長時間,可望透過試誤法——而不是透過使用模型的官僚——得到數量正確的分工。再說一次,系統會犯下一些小錯誤,人為設計的東西則會犯下大錯誤。
所以社會計畫者實施從李嘉圖的洞見轉成的模型,勢必造成爆炸;讓修補緩慢做工,會帶來效率——而且是真正的效率。政策制定者扮演的角色,應該是採用否定法,防止阻礙這個過程的東西出現,好讓分工出現。
更為一般性的察覺模型誤差方法
將二階效應和脆弱性建模:假設我們有正確的模型(這是非常寬大的假設),但不確定參數的值。為了將前一節所舉的赤字╲就業例子概化,我們使用一個簡單的函數:f(x / α),其中α是平均期望輸入變數,並以φ作為α在它的℘α域中的分布,α= ∫℘ααφ(α)dα。
點金石:單單由於α不確定(因為它是估計值)這個事實,如果我們由(積分)內擾動,亦即將被認為固定的參數隨機化,可能就會帶來偏誤。因此,凸性偏誤很容易衡量: ⒜將各可能α值作積分運算的函數F和 ⒝被視為平均值的單一α值估計出來的F兩者之間的差值就是。凸性偏誤(點金石)ωA成為:①
中心方程式:脆弱性是K以下的部分點金石,因此遺漏的脆弱性ωB,是以比較K之下的兩個積分加以評估,以捕捉左尾的效應
這可以藉由以下方式來逼近:根據Δα加減α的平均差(mean deviation),從中點算出兩個值進行內插法估計,並且計
請注意反脆弱性ωC是K到無限大的積分。我們可以在X ≤ K的條件下計算F的點估計,以算出ωB。
所以
這把我們帶到脆弱性偵測試探啟發法(Taleb, Canetti, et al., 2012)。尤其是,如果我們假設ω´B(X)有個常數符號恆滿足於X ≤ K,那麼ωB(K)也有相同的符號。偵測試探啟發法是在尾部進行擾動,以探索脆弱性,所用的方法是檢查任何X水準上的函數ω´B(X)。
表十二
模型 脆弱性來源 補救方法
投資組合理論,平均數—變異數等 假設參數已知,不橫跨各參數整合模型,依賴(非常不穩定)相關。假設ωA(偏誤)和ωB(脆弱性)= 0 (在處理得來的情況下,暴露數盡可能大且分散),槓鈴,漸進和有機建構
李嘉圖比較優勢 在葡萄酒的價格中遺漏隨機層,可能意味著配置會整個倒轉。假設ωA(偏誤)和ωB(脆弱性)= 0 自然系統和它們本身透過修補而進行配置
薩繆遜最適化 在損失函數呈現凹性的情況下,隨機來源集中。假設ωA(偏誤)和ωB(脆弱性)= 0 分散式隨機
艾羅—德布魯(Arrow-Debreu)晶格狀態空間 戲局謬誤:假設所有的結果和機率都已知。假設ωA(偏誤)、ωB(脆弱性)和ωC(反脆弱性)= 0 利用元機率(metaprobabilities),改變整個模型的含義
股利現金流量模型 遺漏隨機性,導致凸性效應。主要考慮ωC(反脆弱性)= 0 試探啟發法
投資組合謬誤:請注意馬可維茨使用者所造成的一種謬誤:投資組合理論誘使人們分散投資,因此這比什麼都沒做要好。錯了,你們這些金融傻瓜:這會把他們推向最適化,因此過度配置。這並沒使人因為分散投資而承受比較少的風險,而由於他們以為這麼一來,就擁有沖銷風險的統計特質,於是他們建立起更多的未軋平部位——使得他們容易受到模型誤差的傷害,尤其是低估尾部事件的傷害。要了解何以如此,假設有兩位投資人,需要選擇配置三個項目:現金和證券A與B。投資人如果不知道A和B的統計特質,也知道自己不知道的話,會將他不想失去的部分配置為現金,其餘投入A和B——根據傳統使用的任何試探啟發法去做。認為自己知道統計特質的投資人,在參數σA、σB、ρA,B,會配置ωA、ωB,目的是將總風險壓到某個目標水準(我們暫時忽視期望報酬)。他認知的相關性ρA,B,愈低,則暴露在模型誤差的程度愈嚴重。假設他認為相關性ρA,B,是0,他會過度配置三分之一於極端事件。但如果可憐的投資人產生錯覺,以為相關性是−1,他會將過度配置於A和B的投資極大化。如果投資人運用槓桿,最後就會出現長期資本管理公司的故事。這家公司後來發現是被參數所愚弄(真實生活和經濟論文不同,事情通常會改變,天啊,會改變!)。我們可以針對每一個參數σ重複這個觀念,看看這個σ的較低認知如何導致過度配置。
我在當交易員的時候,注意到——也沉迷在這個觀念中——不同量數的相關性絕對不會相同。對它們來說,「不穩定」是個溫和的詞:一段長期間內的0.8,變成另一段長期間內的−0.2。這根本就是冤大頭遊戲。受到壓力時,相關性甚至會變動得更為急遽——儘管人們試著將「壓力相關性」建模,卻找不到任何可靠的規律性。Taleb(1997)談到隨機相關的效應:只有在相關為1時放空,以及在−1時買進才安全——這似乎符合的試探啟發法所做的事。
凱利公式相對於馬可維茨:為了執行完全的馬可維茨式最適化,我們需要知道整個未來所有資產的全部聯合機率分布,加上所有未來時間的精確效用函數。而且不能有錯!(我們見過估計誤差導致系統爆破。)凱利的方法是在大約同一時期發展出來的,不需要用到聯合分布或者效用函數。實務上,我們需要期望利潤相對於最糟情況報酬的比率——而且用動態方式去調整,以避免毀滅。在槓鈴轉換的情況中,最糟情況獲得保障。而且在凱利公式(Kelly criterion)中,模型誤差遠為溫和(Thorp,1971, 1998; Haigh, 2000)。
強到令人生畏的阿倫.布朗表示,凱利的觀念雖然在實務上具有吸引力,卻遭到經濟學家排斥,因為他們喜歡用一般理論處理所有的資產價格。
請注意,持有潛在報酬的觀念時,有界的試誤法與凱利公式相容——即使不知道報酬,如果損失有界,報償會具有強固性,而且這種方法的表現應該會優於脆弱推手馬可維茨。
企業財務:簡單的說,企業財務似乎是根據點估計,不是根據分布估計;因此,如果有人去擾動高登(Gordon)計價模型的現金流量預估(尤其是在厚尾分布的情況下),以不斷變化的跳動去取代固定——和已知——的成長(以及其他參數),企業看起來會「十分昂貴」,或者高成長但低盈餘的公司,期望價值可能顯著升高,這是市場以試探啟發法訂出的價格,卻沒有給予明確的理由。
小結與摘要:經濟學界遺漏的一件事是,擁有正確的模型(這是非常寬大的假設),但參數不確定的話,一定會在凸性和非線性的情況下,導致脆弱性上升。
忘了小機率
現在來談經濟學以外有料的東西,也就是和機率及其衡量錯誤有關,比較一般性的問題。
厚尾(極端世界)如何來自模型參數的非線性反應
稀有事件有一種特質——直到寫這段文字時,仍然為人所遺漏。我們是用模型去處理它們,也就是用一種數學玩意兒,輸入參數之後,輸出機率。設計來計算機率的模型中,參數愈不確定,小機率愈有可能遭到低估。簡單的說,小機率對運算錯誤呈現凸性,就像搭乘飛機對於各種錯誤和干擾呈現凹性(也就是飛航時間變長,不是變短)。忘記考慮的干擾來源愈多,搭乘飛機的時間相較於天真的估計愈長。
我們都知道,要使用標準常態統計分布去計算機率,我們需要一個稱作標準差(standard deviation)的參數——或者具有類似特質的東西,能夠呈現結果的尺度或離散情形。但是這種標準差的不確定會造成影響,使得小機率上升。舉例來說,對「三希格瑪」的標準差來說,本來在七四○次觀察值中,發生次數不超過一次的事件,如果將標準差增加五%,機率會上升六○%,但如果將標準差減少五%,則會下降四○%。所以如果你的誤差平均數只是小小的五%,天真模型的低估幅度會高達二○%左右。這是很大的不對稱,但還不算糟。標準差愈大,情況會更糟,「六希格瑪」(經濟學中常見的數字):增加五倍以上。事件如果更稀有(亦即比較高的「希格瑪」),輸入方程式的小小不確定,會造成更糟的影響。對於十希格瑪等事件來說,差異則超過十億倍。我們可以利用這個論點,說機率愈小,運算需要更加精確。機率愈小,非常小的化整運算,愈有可能使不對稱變得非常不顯著。對於極小的機率來說,你的參數需要近乎無限精確;最小的不確定也會造成很大的破壞。它們對於擾動呈現很高的凸性。我便是因為這樣而提出論點說:小機率是無法計算的,即使是在正確的模型中——而我們當然不會有正確的模型。
同樣的論點也可用於無參數推導機率,也就是從過去的頻率去推算。如果機率接近(1╲樣本大小),錯誤會暴增。
這當然解釋了福島犯下的錯誤。房利美也類似。總而言之,在我們改變運算所用的參數時,小機率會加速上升。
圖三十八
高斯模型中,機率對標準差呈現凸性。這張圖畫出了STD對p>x的影響,並且比較STD為1.5時的P>6,和1.2與1.8的現行組合下的P>6(這裡a(1)=1/5)。
叫人擔心的事實,在於σ的擾動會以凸性的方式進入分布的尾部;對尾部敏感的投資組合,風險會暴增。也就是說,我們仍處於高斯的世界中!這種爆炸性不確定,不是來自分布中的自然厚尾,而只是因為未來的參數出現小小的不精確。這只屬認識論性質!所以使用這些模型,同時存在參數不確定的人,必然會有嚴重的不一致性。②
當然了,當我們複製非高斯真實世界的狀況,去擾動尾部指數,不確定會暴增得更加厲害。就算是冪次法則分布,結果也十分嚴重,尤其是在尾部指數出現變動時,因為這會帶來重大的後果。厚尾真的難以計算尾部事件,就這麼簡單。
不確定更加惡化(福島)
拿前面所說,估計意味著錯誤而言,我們將邏輯進一步擴延:錯誤會帶來錯誤;然後進一步帶來錯誤。考慮這方面的影響,會使所有的小機率上升,而不管使用什麼模型——即使是在高斯的世界中也一樣——當較高階的不確定很大,更會上升到厚尾和冪次法則的效應(即使是所謂的無限變異數)。就算是標準差為σ的高斯分布,也會有比例誤差a (1);a (1)有誤差率a (2)等等。現在這取決於a(n)相對於a (n−1)的較高階錯誤;如果比例固定,我們會收斂到非常厚尾的分布。如果比例誤差下降,我們仍然會有厚尾。所有的情況中,光是有誤差,對小機率來說就不是好事。
遺憾的是,我們幾乎不可能讓人接受每一種量數都有誤差——福島事件本來是每百萬年發生一次,如果以適當的方式滲透到不同的不確定層,則會變成每三十年發生一次。
①詹森不等式兩邊之間的差,相當於資訊理論的布雷格曼背離(Bregman divergence)概念(Briys, Magdalou, and Nock, 2012)。↑
②這進一步顯示「奈特不確定性」(Knightian uncertainty)的缺點,因為所有的尾部在最小的擾動之下,也是不確定的,而且它們在厚尾的領域(也就是經濟生活)中造成的影響十分嚴重。↑