現在是數據的時代,還談易經,會不會太過時啊?
數據時代,你具備數據思維嗎?而有了一定的數據分析的能力,再來理解易經,就更有趣了
讓我們先來看一下數據分析
數據分析的基本要件:
資料搜集與取樣
資料儲存與關連式資料庫
excel 與關聯資料庫的差別
總歸戶
資料探索:
對問題本質的理解 (問對問題)
對資料的理解(做對假設)
資料清洗與準備 (正確資料)
資料建模
結果呈現與解釋(可視化)
評估與行動
資料分析技術
決策數
回歸分析
機器學習
非監督式學習:
群集分析 (資料分叢與關鍵節點)
介紹關聯規則(你會喜歡這個,也會喜歡那個)
大家好,歡迎你與我們一起親近易經之美,我是李伯彥
今天是我們易經之美的第五講,我要跟大家談的是定性與定量的上半部分
我們都知道現在是數據的時代,你會不會覺得現在數據的時代裡,還有人在談易經,會不會太過時?
正因我們身處在數據時代,我想要問問你,你覺得你自己具備數據分析的能力嘛?有了一定數據分析的能力,再來理解易經,其實會更有趣
先讓我為大家做一個很快的梳理
第一段:數據分析的基本要件
資料的收集與正確的取樣
什麼叫取樣?如果有人打電話問你,你支持美國總統川普還是拜登?你的選舉傾向是什麼?當你接到這樣子的調查,其實他們就是在對你做數據收集
為什麼你會被找出來,因為他們先透過一個取樣的方式在茫茫人海中把你選出來。當然在台灣你不會去選美國總統,但是你一定常常收到這樣子的電話,問你問題的人希望知道你的看法,他正在對你進行資料收集。
資料儲存與關聯式資料庫
我知道你一定用過Excel或者是用過Google試算表,用Excel其實已經可以處理非常大量的資料,正常的中小企業,如果資料在1億筆之內的話,用試算表就可以處理。但是試算和資料庫還是有些差別,試算表中是一個一個的資料表,關聯式資料庫可以開很多的資料表,這個資料中可能都有你的相關資料,只要在這些資料表中找出一個共同的樞紐彼此相關聯,那就可以做多維的分析。
舉例而言,你今天在同一個銀行里面開很多個賬戶,你有存款、外幣、借款、投資基金、保險。你在銀行里面的賬戶資料分別存在很多不同的資料庫裡,但是銀行只要有可以識別你的資料,只比如說你的名字,你的身份證號碼,這樣子就可以把其他與你先關,分屬不同資料庫中的資料給串起來,你留存在銀行的數據,就成為一個活脫脫的財務形象被銀行給建構出來。
資料探索
3.1 當我們儲存了大量的資料以後,我要怎麼樣有效的整理、產生我要的結果?
這就是我們通常說的data mining.其中包含幾個步驟,首先是你要對問題本質有一定的理解,就像我自己在輔導企業的時候常常發現,商品開發者做都是跟商品有關的分析,這時候我就會建議他們說,預期增加銷售,比較重要的是找出那些可買、應買而未買的人.
在所有客戶中,可以經過特徵值進行分析,找出符合特定族群購買力的商品組合,接下來我們就可以很容易的找出在這一群客戶中,買的比較少的那一群人,然後據此分析他漏買的是什麼、可能給他造成什麼樣的損失與風險、買了以後能帶給他什麼樣的效益,這時候再來做推銷效果就好很多,與其一昧的在商品端挖掘,不如在用戶端挖掘在逆推回商品來的更有效。
3.2 就是對資料的理解
我們到底收集了哪一些資料?這些資料中間可以做怎麼樣的串聯,彼此之間有什麼樣的相關性?這對我們問對問題、做對假設有非常關鍵的影響。如果我對我自己資料的屬性都不理解,那我就很難問對問題、更不用說做對假設了。
3.3 資料清洗與準備。什麼叫資料清洗?
資料清洗的目的就是找出那些在資料收集過程中不完善或者是有錯誤的資料,比如說我們在開發系統的時候,常常會發現很多人他的電話號碼甚至身份證號碼登陸錯誤,或者是把不屬於他的資料歸類於他之下。
3.4 資料的正確性確認了,再來就要找出與我們此次行動有關的資料。
資料庫往往浩如煙海,如果你要把所有的資料都撈出來做分析,那效益是很低的。其實一開始如果能找到正確的資料點、特徵值,據此收集有限的信息,反而可以更有效的勾勒出完整的畫面
3.5 資料建模
對問題有了正確的理解,做對假設也找出正確資料以後,我們就要研究分析這些資料到底要用什麼樣的模型來跑,才會得到我們期望的結果。
3.6 結果呈現與解釋
結就像是我們在用Excel的時候,我們如果看到的是很大量的資料表,往往難以判讀,但是只要用圖形可視化的方式,像長條圖、甘特圖這種方式來表示,就可以一目了然。
3.7 最後就是根據這些結果所做的評估與行動,接下來我要跟大家談一下在資料分析中我們會用到的比較常用的幾個分析的技術。
第二段:常用到的分析方法
大家最熟悉的決策樹
在用決策樹的時候,我們可以很容易地可能發生的結果賦予一定的概率,然後往下推論,現在讓我跟大家分享一個很實用的應用方法
我在幫企業做銷售規劃的時候,常常會聽到的就是老闆喊出我明年業績要成長百分之多少的目標,然後同仁們除了掙扎、反抗以外,大多也不置可否.但是如果你有一定決策樹的概念就會知道,在新的商品、新的銷售方式、新的客群都還沒有出現的情況下, 只是因為努力就要把過往銷售提升50%,是很難的事情。
這時候我們可以根據決策樹的模型來逆推以找出可行的方法,先定義最終的結果,然後試著往錢推,把所有可能的路徑都給展開以後,一樣給定不同的概率,確保最後加總起來是我們要的銷售數字,這樣就能從結果逆推到源頭,用以理解現在我們應該要多做哪些事,才能創造更多的結果
也就是說,當我銷售不好,我要做的不是更努力的銷售,而是從我所缺乏, shortfall的數字往回推,找出我需要什麼樣的新商品、什麼樣的新服務、什麼樣的轉換提升、以及在什麼樣的時間完成都給推斷出來,這是決策樹的一種應用,也相信對許多做銷售的伙伴會很有幫助。
回歸分析.我在後續的資料分析課中會一再提到,他是最常使用的分析方法,如果你對回歸分析有一定的理解,相信你的事業,生活,工作都會得到相當大的改善。
機器學習,現在所謂的machine learning 現在已經是一個顯學了,一般我們對機器學習的理解像是讓機器來分類照片,如果我要在一堆貓的照面中訓練機器分類白貓與黑毛,那很簡單,因為只要是白的歸類白、黑的歸類黑,但是我要在一群動物的照片中讓它分類出白貓黑毛就很難,我必須要讓他先試著分類貓科動物,然後貓科動物中辨別貓、獅子、老虎、豹的差異,每一次分析錯誤,我就進行糾正,久而久之,在被監督的情況之下,機器就可以進行學習以做更好的分類。
非監督式的機器學習,比較常用的是群集分析,如何把資料進行分類,並且找到分群資料中的關鍵節點,讓這些資料的描述更清楚。
非監督式的機器學習可以用在算法的優化上,如果你用剛剛我們提到的貓跟怎麼在一群動物中尋找到貓的方法,如果機器已經知道分類的方法,他可以持續計算找出效率更優化的分法,就像機器學會了下棋,就可以自己跟自己下,根據每一步走出的結果不停的分析更好的走法,持續提升解題的功力
除了群集分析以外,還有介紹關聯規則,什麼是關聯規則?其實你只要上了amazon或者現在的購物網站,網站會告訴你像你這樣的人,也買了其他什麼樣的商品,或推薦你會喜歡的影片,他就是根據你過去的行為,推薦關聯性的商品或服務給你
第二段,我要跟大家分析一下近代數據分析的一些趨勢與改變。
2000年以前,我們做的數據分析都是根據以前收集到的數據來做分析與預測,在2000年以後,由於無線通訊大量普及,很多即時的資訊都可以被蒐集,根據實時收集到的數據搭配既有的模型來做分析,能給人更及時的資訊。
我們在做即時性分析的時候最常用到的方法,其實在高中就已經學過了,就是你所熟知的貝式定理,貝氏定理就是在既有的條件下做推論,每一次得到新的有效信息,就能更優化預測的結果
我們以網站來舉例,如果我建構一個網站,我可以把來訪的人分別為訪客、使用者、客戶,從不特定人、到知道他是誰、知道過去是否有消費過,每一次我得到新的有效信息,我就可以更清楚地確認他的身份與可能的行為,再來根據過去他在網站上的行為記錄、點選的軌跡及次序,我們就可以預測他下一步的行為,甚至推斷他在我們整個網站瀏覽週期、或者是跟我們來往的生命周期中間可以帶來的價值,再反推我們要給他什麼樣的選擇。
很多人現在應該感覺到自己在同一個地方買不同東西、在不同地方的買相同東西的時候,常常會出現不同價格。這是為什麼呢?
你上一個網站,在有登錄跟沒登錄的情況之下,有時你會得到不同的價格,但是即使沒登陸,你在不同的地區也會得到不同的價格。
以中國大陸為例,今天中國大陸的電商網站已經細分到你住在哪一個城市、哪一區的、哪一條街、哪一個小區,都會影響到您購買相同東西的價格。此外,根據你的偏好,喜歡特定品牌的人,它會得到品牌相關資訊;喜歡高價品的人,他會得到的高價品的推薦,甚至依據你的偏好來對不同的商品做出特定的價格降幅,給你不同的價格標籤來刺激你的購買。
此外,如果你過去看的都是便宜的東西,當你不小心看到一個比較貴的東西的時候,可能你會得到一個特別的減價選項,或者根本不讓你看到;如果你過去習慣看的都是看了就買,也不進行比價,你也不會去搜尋比較便宜的東西,那你很可能得到的就是牌價。
大家一定有經驗,如果你曾經仔細研究過一件商品卻沒有買,後來這個東西的降價信息就會一直主動跳出來,以廣告的方式呈現在你面前,因為他們知道你對這東西有興趣,很可能是因為某些原因沒有完成購買,比如說是比價,或者是來不及完成交易,所以他們會針對你來做出特定的推薦。
就是大家熟知的大數據了
真正理解大數據的人,我覺得還不是很多,不妨也繼續聽聽看
我們已經從關聯式資料庫慢慢走向非關聯式資料庫的時代,有很多的資料並不是一開始就有序的排列存放在資料庫裡面,在現在因為有太多的裝置同時在記錄我們的行為,所以大量、多樣化、未結構化、多重來源的資料分析,就成為顯學。
此外,由於行動通訊的發展,我們可以對數據進行實時性的收集,所以快速的回應也會變成一種時代的趨勢
如果你曾經試著寫過一個資料爬蟲去爬別人網站上的資料,或者是你有意識的去看競爭對手的網站,他的資料結構是怎麼樣排序的?那你的行為就是在蒐集關於他資料本身的資料,我們可以稱它為meta data,這也是大數據其中的一環
大數據可以用在什麼地方?就像隔山打牛一樣,今天我們可以透過人們在網路上熱門的搜尋來找出疾病、犯罪、選舉、甚至金融趨勢演變的信息,這些東西都並不是一開始就有目的的去收集,而是在一群未結構化的大量資料中找出特定領域的相關特定趨勢。
最後我想跟大家分享一下即將改變人類世界的量子計算。
聽到量子,大家都會頭很暈,先不用急,我們講的簡單一點,傳統的電腦用的是bit 位元,零與一,量子電腦用的是量子位元對,它與位元的差異是:
假設今天有n個糾纏的量子位元對,他們的信息量並不是傳統電腦的n個位元的n或者是2n,因為古典的電腦用的是零與一,量子是在零與一中間的所有可能,所以它計算的量就是二的n次方。兩個量子位元對,就可以描述為一個概率空間
過往的資料庫要我們要讀取資料,就像是要看一本書一樣,可以透過索引查找,但量子計算中的資料並不是像書一樣寫在一頁一頁的頁面上,而是透過這些量子對中間糾纏的特性儲存在頁面與頁面之間的關聯性上。我們需要通過一次特殊的方式一次讀取這些內容,也就是取得結果,量子計算在運算的過程中是不能觀察的,因為一觀察就會改變運算的結果
所以有人說量子計算很適合用來做加密解密,因為傳統RSA的加密方式所使用到的質因數分解可以在量子的平行運算中瞬間找出答案,而使用量子糾纏的加密方式也可以很輕易的知道是否有第三方在偷窺密碼的信息傳遞,因為只要有第三方偷窺,那兩次運算之間的結果就不會一致
聽到這裡頭暈了沒有,先別急,我們快要講到重點了
透過以上資料分析的思維脈絡,找出趨勢,最後才能導出結果,那到底這跟易經的占解卦有什麼差別?
其實原理原則一樣,只是順序完全顛倒過來而已,易經的占卦就像量子計算,不需要那麼多的鋪陳,因為他是一下子就導出結果,當你提出問題到結果產出中間完全是沒有時間差的,也就是說我們在做數據分析的中間步驟全部省略了,這是怎麼做到的?
第三段:易經占卦中的未來,是怎麼知到的?
我們不知道是怎麼知道的,但是如果我們假設它為真,它就必須符合以下的幾個假設:
宇宙是太龐大的量子計算器
我們所身處的這個世界就是宇宙這個量子計算機所計算出來的結果。所有的信息都保留在過往的軌跡中
我們所有針對這個計算器發出的問題,都必須先針對一個特定的數據空間做出樣取樣,然後再從結果往回推,找出演變的軌跡。
根據我們的問題,宇宙會自動排出適合的算法,這些算法其實就是我現在正在跟大家分享的易經的幾個重要認知方法,當然這是高度簡化後的結果,我們只能根據問題與結果往回推,卻不能知道他計算的過程
宇宙產生出的答案,擁有高度的不確定性,而且是隨時可變的,它有以下三種變法。
5.1 多個選項、多個答案,這就像是有人擇偶,有三個對象可以選擇,她應該要選擇哪一個?每一個你選擇不同的對象,都會有不同的人生結局,這就是三個選項,三個答案
5.2 一個選項、多個答案,就像選擇了其中一個對象未來會不會幸福?可能的結果是幸福、幸福有點不幸福、不幸福、不幸福中有點幸福,中間還有很大的變數
這些變數要怎麼處理?後續會再跟大家講。
5.3 三個選項中一個出現最優解,最優解就是明顯好於另外兩個,但是用戶要不要選擇最優解,完全看他自己。
我們觀察這些結果的時候,事實上就是在實現這些結果的過程,也就是說,我們的觀察本身就是實現,是對答案的具體化,我們的未來就從不確定的概率,而變成確定。我們觀察的總時間,就是我們自己的生命歷程,我們在人生中做的所有觀察,就組合成我們的完整一生、我們一生的體驗、還有我們這一生的最終結果。
聽到這裡,希望你頭沒有暈,如果你還能接受,我們就要繼續往下說今天的結論了。
第四段、易占的判讀
根據以上的論斷,要判讀易占,我們必須要做到以下幾件事
第一,理解自己的問題,你要對自己所問的問題有正確的理解,而不是想到什麼就問什麼。如果你沒有經過深思熟慮,那空間中的取樣,中間可能出現的選項、軌跡對你來說都不具備任何意義。
第二,理解這個問題的資料、空間與特性,到底這個問題的背景我們有足夠的理解了嗎?就像很多人問說我他未來的事業發展會怎麼樣?但是他卻對他自己所有可能的選項、可能的行為、這些行為背後可能聯動的因子都一無所知,在你對背景不了解的情況之下出來的信息,你也無法有效判讀。
第三是宇宙的算法
解卦就是要透過對算法的理解,來尋找適合的解釋方式。我們在談的認知方法已經被我高度的簡化,但是其中還是包含了十幾種不懂的邏輯推演方式。如果你對解卦的概念流於單一,或不回選擇應用領域,那你就很難真實的理解
宇宙並不會告訴你它是用哪一種算法來推斷,我們必須要在這幾種算法中做選擇。
第四,根據結果反推未來
正如我們今天所說的,傳統的數據分析是根據資料建模、分析導出結果,易占是問完問題立即出現結果,我們要來反推中間的資料結構跟過程中演變的趨勢,所以我們必須以結果往回推,才能知道事情未來的演變。
第五,找出可能的變量選項後,修正自己的看法、行動、行為,最後才能導致更好的結果
當我們在占問的時候,一切的結果都是因為你當下的心態、方法、想法所造成的
我們的觀點與立場,影響了自己觀察事物的角度,你是那樣觀察,事情就會那樣呈現,如果你換了一個觀察的方式,你的人生未來也會有完全不同的結果,這就是我們所說的心想事成
最後我要恭喜大家,你終於要聽完了,我知道這一講很難懂,關於資料分析的相關話題,如果你有興趣的話,也可以參考我未來推出的30天學會資料分析的講座,與量子計算有關的話題,我也會持續在未來的易經之美講座中與你分享。
下一講我也要跟大家繼續講定性與定量的第二部分:確定性與不確定性
謝謝你與我們一起出來親近易經之美,我是李伯彥,我們下一講再見。