如何有效率的篩選有用資訊(一) 信息的測量方式

品牌行銷匯 Brand Marketing Hub的社團裡,我辦了一個簡單的投票活動,主要是想要了解針對新手而言,學習行銷領域的入門最大難點是什麼。有趣的是大部分人都認為資訊過多,不知道如何篩選有用資訊,雖然我覺得這不應該是新手該煩惱的問題,不過還是想要撰文來說明一下這個議題。

如何有效率的篩選有用資訊

在回答此問題前,我們必須先定義清楚『何謂資訊』,以下內容可能會涉及到部分科學領域,如果對此不感興趣的可直接往下看結論。在現今社會上,大部分人都知道信息的單位比特(bit),但很少人知道這個單位的計算方式是如何產生的,所以在討論有用資訊前,我們必須先清楚信息量的計算方式,才能夠更清楚的定義何謂『有效信息』。

資訊理論(information theory)

人們對於信息的認識和利用,可以追溯到古代的通訊實踐,而隨著社會生產的發展,科學技術的進步,人們對傳遞信息的要求急劇增加,如何提高傳遞信息的能力和可靠性已成為普遍重視的課題。

在過去科學家做了很多的研究與努力,對於資訊理論做了巨大的貢獻,最終於1948年由美國數學家C.E.香農(被稱為是“資訊理論之父”)集大成,出版了《通信的數學理論》,隔年1949年又發表《雜訊中的通信》,從而奠定了資訊理論的基礎。

在資訊理論中,最重要的莫過於對於信息量的量化定義,有了定義與計算方式之後,我們才能夠對其進行分析優化,達到信息傳遞最優解。

香農將信息熵作為信息量的測度,他是這麼描述的:

一、對於一條信息,重要的是找到其中有多少信息量,要搞清楚“信息量”,就要對信息進行量化的度量。

二、“比特”的定義:如果一個黑盒子中有A和B兩種可能性,它們出現的概率相同,那麼要搞清楚到底是A還是B,所需要的信息量就是一比特。

三、充滿不確定的黑盒子我們就叫“信息源”,它裡面的不確定性叫做“信息熵”,而“信息”就是用來消除這些不確定性的,所以要搞清楚黑盒子裡的具體狀況,需要的“信息量”就等於黑盒子裡的“信息熵”。
(“熵”表示一個系統的無序狀態)

若對於以上的解釋還不清楚,我們可以這麼說:根據人們的實踐經驗,一個事件給予人們的信息量多少,與這一事件發生的概率(可能性)大小有關。如果一件事情發生概率是千分之一,而我們能夠提供他確定發生的訊息,那他的信息量就超大;反過來如果他發生機率是100%,那我跟你說他發生了這就等於沒有信息。

信息是確定性的增加,即肯定性的確認

美國數學家C.E.香農

我再舉個例子:一枚硬幣丟出去,正面與反面的機率分別為50%,若你需要一個信息知道是他是正面還是反面,這個信息量就是1 bit。一個小概率事件的發生,如“北投發生七級以上大地震”使人們感到意外,它給人們的信息量就很多。相反一個大概率事件的出現,如“6月15日台北未下雪”給人們的信息量就很少。

因此,用I(A)=- logP(A)〔P(A)表示事件A發生的概率〕來度量事件A給出的信息量,稱為事件A的自信息量。計算公式如下:

若一次試驗有M個可能結果(事件),或一個信源可能產生M個消息(事件),它們出現的概率分別為 

p1,p2,\cdots,pM

,則用

H=-\sum_{i=1}^MP_ilogP_i

來度量一次試驗或一個消息所給出的平均信息量。

當對數取 2為底時,單位為比特;當對數取e為底時,則單位為奈特。

你會發現到當對數以2為底時,單位為Bit,那你就可以理解為什麼電腦二進制計算後的單位信息也是bit了。

如果你對數學感到頭痛,可以參考之前我們做過的數學線上讀書會:

關於數學與統計的線上讀書會

信息論對生活的指導意義

那這對我們的生活有什麼指導意義?我在2019年的粉絲貼文中有對此做過陳述如下:

套用到「乾貨」上,即是你這篇文章是否能消除越大的不確定性,若你的文章內容是大家都知道的,那麼就沒有消除任何不確定性,因為所有內容都是已知;但如果你可以消除更多的不確定性,針對概率越小的事件或越少人知道的事情進行描述,你的信息量就越大。

一篇「乾貨」的信息量不取決於你的文章長度,而是你的文章能否搞清楚一件非常非常不確定的事,或是一無所知的事情。文章長度也許只是過多的「信息冗余」

大衛的觀察日記

信息量的大小不在於長短,而在於開創多少新知

回到一開始的議題,大家對於資訊的問題在於如何篩選,但對於新手而言,所有的信息都是新知與不確定性,所以其實根本沒有篩選的問題,真正需要篩選的是對此領域已經有了一定了解後才要煩惱的問題。

同時我們可以從中推導出,對自己有用的信息,實際上不一定是長篇大論,而是真正能消除大量不確定性的信息,可能短短幾句話就能開拓自己的未知領域,例如有些改變世界的論文,實際上只有短短一兩頁,愛因斯坦的E=mc2也不過幾個字,但他們都蘊含著超級大的信息量,以至於改變了世界格局。

所以下一篇我們就會從信息論的角度來探討,如何處理噪音與信息冗餘,也就是所謂的轉化成有用信息。

發表迴響