歡迎回到我們的硬科普系列「熵與資訊」。在前三期的文章中,我們深入探討了資訊熵與熱力學熵的奇妙世界(可點選上方標題回顧文章
),不少同學還意猶未盡,那就讓我們繼續深入這場關於熵的探索之旅,本期內容馬上開始!
吳軍在【得到 app】 的《資訊理論 40 講》的第一集裡,就介紹了 3 個價值連城的資訊。(本文文末可直達得到app收聽該課程)
第一個是關於二戰期間蘇聯間諜佐爾格。在當時,納粹德國已經兵臨莫斯科城下,斯大林在歐洲已經無兵可派,雖然在西伯利亞的中蘇邊界還有 60 萬大軍,卻是需要防備日本。是否可以調動這部分兵力,取決於日本軍部的戰略到底是北上進攻蘇聯,還是南下和美國開戰。
蘇聯間諜佐爾格向莫斯科發去了一條只有五個字的資訊:“日本將南下”。
第二個是關於諾曼底登陸。1944 年,盟軍決定從英國出發,橫穿英吉利海峽在法國登陸。因為德軍在法國的兵力有限,所以想透過情報確定盟軍的登陸地點重點佈防。而盟軍則是傳播假訊息,讓德軍以為會在加萊登陸,結果在諾曼底登陸。
第三個是戰國時期的長平之戰。秦國主將先是王齕,後來換成了白起。不過秦國嚴格封鎖訊息,導致趙括輕敵冒進,趙國大敗。
這 3 個訊息都有一個非常重要的特點,那就是訊息本身價值巨大,一個訊息可以決定一個國家甚至是整個世界的命運。但是單純從其訊息量來看,似乎都是 1 bit 資訊量。畢竟這些資訊起來就是一個二選一的問題,日本是北上還是南下,盟軍登陸是在諾曼底還是在加萊,秦國主將是王齕還是白起。
按照我們之前的介紹,這些訊息的資訊量應該和拋硬幣一樣,都是 1 bit,於是就可以很容易得出結論,資訊量的大小和資訊本身的價值並沒有決定性的關係。
這個結論是沒有錯的,在上一集我們就透過蘭道爾原理介紹過,1 bit 的資訊量可以撬動的能量雖然有一個下限,但是上限可以無限大,對於物理系統能量越大往往就代表著價值越大。不過,前面的判斷雖然結論正確,但是得出結論的前提卻有問題。
因為那 3 個訊息的資訊量,到底是不是隻有 1 bit 還並不是那麼的確定無疑。
最容易想到的問題是,那些訊息真的只是一個二選一問題嗎?比如在事情還沒有發生之前,盟軍是可能選擇任何一個地方登陸的,諾曼底和加萊只是在當時看來最有可能的兩個,不代表其他可能性就是 0。
就算是真的只有 2 個選項,也並不意味著兩個選項的機率就是相同的。臨陣換將我們都知道是兵家大忌,所以當時趙括就認定秦國換掉主帥是一個小機率事件,還是非常合理的。而可能性越小則資訊量愈大,如果當時真的有人給趙括傳遞訊息說秦軍主將換成了白起,那麼這條訊息的資訊量一定遠遠超過了 1 bit。
其實,即便是一個事件的機率是公認的,想要分析出它在真實的資訊傳遞中所包含的資訊量,也非常麻煩。
比如,我們設想這樣一個情況,有兩個國家 A 和 B 很長時間一直處於和平狀態,但是 A 一直擔心 B 會率先發動戰爭,所以向 B 派遣了間諜。在間諜出發前就約定好了“沒有訊息就是好訊息”,只有當 B 國決定發動戰爭的時候才向 A 國傳遞訊息,平時處於靜默狀態。
A 國的國王每天都會派人去檢測間諜是否傳遞來訊息。結果在第 100 天時,接收到了 B 國即將發動戰爭的訊息。這種情況下,是不是可以認為 B 國發動戰爭的機率是 1% 呢?畢竟 100 次檢查裡只有 1 次有訊息。
可這樣的話問題就來了。如果同樣還是在第 100 天收到了 B 國發動戰爭的訊息,這個事實本身不變,但是檢查的頻率不再是 1 天一次,而是半天一次,這個時候就是 200 次檢查裡收到 1 次訊息,難道這個時候這個訊息的資訊量要用 0.5% 的機率進行計算嗎?
如果真的是這樣的話,一個訊息的資訊量是多少就太隨便了。
講到這裡,我想大家應該已經能夠體會出來在通訊領域想要定量地分析問題有多麼複雜了。其實這種千頭萬緒不知道如何下手的感覺,任何一門學科開創之前都是如此。而一門學科之所以可以創立,都是因為其創始人透過自己非凡的洞察,忽略干擾、抓住本質,最終才建立起一套自洽的理論。
就比如力學,就是因為伽利略的靈感爆發,排除各種阻力的干擾,才能抓住本質:力是物體運動狀態改變的原因,而不是其維持運動的原因。而直到現在,物理學家研究一個真實問題往往也都是要基於一些理想模型。所以才會有“真空中的球形雞”的段子,也就是在調侃物理學家根本計算不出來一隻雞的運動情況,除非假設這是一隻在真空中的球形雞。
資訊理論之所以可以建立,也是基於一項可以讓通訊問題不再千頭萬緒的洞察,而夏農就是在這項洞察之上提出了 3 項通訊理論的基本定理,奠定了資訊理論的基礎。
在夏農的理論中,他將一個通訊過程用這樣一個模型進行描述。(引自夏農的《A mathematical theory of communication》)
在這個模型中,原本訊息從傳送者出發被接受者接收這樣的一個簡單過程,被切割成了好幾部分。說是好幾部分,其實就是在訊息的傳遞過程中又套接了一截,在這一截中原本有具體意義的訊息,會被看作是隻反映物理狀態的訊號。
換句話說,現實中一個資訊的含義是和其物理訊號繫結的,比如我對著旁邊一人講了一句話,這句話到底有什麼意義一定是和聲波訊號深度繫結的。但是在夏農的模型中,卻將一個資訊的意義和訊號進行了分割,將其分別進行考慮。
訊息(message)是對資訊中所包含意義的抽象,它不考慮具體的物理訊號(signal)。比如表示“正確”這個意義的訊息,它的物理訊號可以是 +5V 的電壓,可以是舉起一根手指,還可以是持續的光照,這個“正確”的意義是和具體物理訊號無關的。
當然一個抽象的意義,也是無法進行傳遞。訊息想要傳遞,那麼就需要將其轉化成物理訊號,讓訊息和訊號具有對應關係。這樣在訊號傳遞的過程中,就只需要考慮其物理過程,而完全不需要考慮訊號到底有什麼意義,物理訊號的傳遞過程也就是通訊領域所說的通道(Channel)。
我們前面說通訊問題分析起來千頭萬緒的很麻煩,為什麼麻煩?一個很重要的原因就是一個訊息到底蘊含著什麼,其實是依賴於傳送者和接受者對傳遞內容是如何約定的。當一個人和另一個人說“老地方見”的時候,這個老地方到底是哪裡其實是依賴於他們主觀約定的。而這個主觀的約定其實非常不利於定量分析。
而上面的模型將資訊傳遞過程分成了訊息階段和訊號階段,最大的意義就在於將傳遞過程中的主觀因素和客觀因素分隔開了。其中訊息階段,傳遞的內容,也就是用來描述訊息的各種符號,還都是蘊含著主觀意義的。而到了訊號階段,則是將主觀意義剝除掉了之後,剩下來的光、電、聲音等物理訊號,這些訊號本身並不具備任何主觀意義。
進行了這樣拆封之後,模型裡的那個訊號傳遞過程(也就是通道)就是一個純粹的物理過程了,而對一個物理過程是完全可以客觀地進行定量分析的。
而夏農也正是在這個基礎模型下才用 3 個定理建立起了資訊理論的理論基礎。
可能是某種巧合,夏農建立資訊理論和牛頓建立力學都是用到了 3 個定理(定律)。值得注意的是,夏農是定理,這些定理都是透過數學推匯出來的,準確的說就是大數定律,不依賴於物理實現。
在牛頓 3 定律裡面,最關鍵的是第二定律,正是在這裡牛頓對力做出了清晰的定義。在夏農的 3 定理裡,同樣也是第二定理最為關鍵,因為在這裡他透過數學方式證明了,中間的通道傳遞訊號是有一個能力上限的,也就是現在經常說的通道容量。而整個資訊理論的追蹤議題都是如何才能最大化的利用這個通道容量。
比如,為了能充分利用通道容量,那麼傳遞的訊息應該資訊量越來越高。那麼在訊息變成訊號之前,就需要增加一個階段,對訊息進行編碼和壓縮。夏農的第 1 定理,則是提供了一個壓縮的標準,一個訊息如果想要進行無損的壓縮那麼這個壓縮的極限就是這個訊息本身的資訊熵。如果壓縮後的資訊編碼沒有達到這個指標,那就說明編碼的方式還有繼續壓縮的空間。
夏農的第 3 定理也是針對編碼的,只不過考慮的不再是無損地進行編碼了,而是為了提高效率,允許一定的資訊損失。這個定理則是從數學上給了一個定心丸,只要編碼的碼長足夠長,一定可以找到達到要求的編碼方式。
第 1 和第 3 定理,我們下一次重點討論,這一次重點來看一下夏農第 2 定理。
第二個區別,是一個思考方式的轉變。我們在思考這個問題的時候,不能把 AB 的關係想像成是 A 傳遞一個訊息給 B 的過程,而是把 AB 當作是一個整體,它們分別代表著一個通道的兩端。
A 和 B 之間一定有聯動關係的,否則也不能用來傳遞訊息了。這個聯動關係具體是什麼不重要,可以是 A 端發生了一個震動 B 端也會發生震動,也可以是 A 端亮了一下 B 端也會亮一些,還可以是 A 端的電壓發生了變化 B 的電壓也發生變化。
總之就是 A 和 B 之間的這個聯動關係是透過物理關係確定的,不由傳遞和接收者的主觀意圖而改變。而互資訊衡量著的就是 AB 之間的聯動能力,這個聯動能力其實也就是 AB 這個整體作為通道的通訊能力,也就是我們經常說的通道容量。
至於在傳遞訊息的時候,具體如何利用 AB 的聯動關係,某個物理狀態可以代表什麼樣的資訊,是不是能把 AB 的所能能力都發揮出來,是在編碼階段考慮的。