一起出來玩
一起出來玩
    3. 你需要的科學方法論 布林佩吉算法與google的故事

    3. 你需要的科學方法論 布林佩吉算法與google的故事

    播放次數:321

    在這裡我先問你一下,你想學資料分析,是因為: 很熱門 可以提高工作競爭力 以後可以找到好工作或是增加薪水 可以解決現實工作和生活中所遭遇到的問題

     

    大家好,歡迎你與我們一起出來玩行銷,我是李伯彥

     

    這是地球上最有趣的資料分析的第三講,主題是:你需要的科學方法論,副標題是Google的故事和布林佩吉的算法

     

    先讓我問你一個問題,你為什麼想要學資料分析,你自己知道嗎?

     

    在我前幾次在社團的調查中說道,資料分析每一次都有最多人想學,一開始問大家的意願有三百多個人回覆,但是當我問到第一個開放性的問題的時候,回覆問題的人只剩兩三個,而我後來在做行銷課程順序的意見調查時,資料分析還是排在第一位,但是我相信很多人根本就不了解自己為什麼要學資料分析

     

    在這裡我先問你一下,你想學資料分析,是因為:

     

    1. 很熱門

    2. 可以提高工作競爭力

    3. 以後可以找到好工作或是增加薪水

    4. 可以解決現實工作和生活中所遭遇到的問題

     

    請問你的答案是哪一個?

     

    如果你的答案落在前三個,那不怪你,因為大部分台灣的孩子都是這樣,大家都希望多學一份技能,但是卻對這個技能時技能拿來幹嘛卻毫無所悉。

     

    事實上,多數人也不認為這樣的技能能幫他解決真正的問題,就好像在學校拿到文憑或是考試拿到高分就只是為了以後找工作比較方便,甚至是在別人面前證明自己不是一個笨蛋,但如果只是這樣的話,要學好資料分析,充其量就是幫人家當一個打工仔,它的價值是不會高的。

     

    其實何止資料分析,絕大多數我們在學校裡學的東西都是這樣,就像很多人學了十幾年數學,但從學校一畢業之後,除了簡單的算數之外,以前學過什麼卻再也不記得了

     

    到底為什麼我們學了一輩子的數學,最後都還給老師了?

     

    如果數學真的那麼重要,那為什麼學了那麼多數學,後來把他通通忘掉,你還是可以在社會上立足呢?

     

    說到這裡,到底數學是重要還是不重要呢?

     

    很多人都說台灣人數學好,一出國就知道,如果你到了美國,去超市買東西的時候,每一個台灣人都可以用心算算出來店員應該要幫你找多少錢,但是美國人呢,他卻要拿出計算機,所以很多人都說台灣的小孩子數學很好

     

    那也奇怪了,為什麼所有了不起的科技基本研究網絡服務,還有許許多多的創新應用都是美國人發明的,台灣人都只是在美國人的公司裡面擔任工程師呢?

     

    以上這些問題不知道你有沒有答案?讓我們一起來想一想,這些問題背後的成因到底是什麼

     

    其實很簡單,因為台灣的孩子在學校學的數學通常都只是拿來解題、找出標準答案,想要取得高分嘛,所以大家考試都很厲害,但是一到了現實社會,卻不知道怎麼樣在實際的生活中幫自己命題,然後一步一步透過科學方法看資料分析來尋求更好的解答

     

    只是一旦出了社會之後,就沒有人有特定的問題要跟你要標準答案了,反而是越來越多開放性的問題需要我們去思考,像是:

     

    1. 自己的志願到底是什麼

    2. 未來想過什麼樣的生活

    3. 生命的意義到底在哪裡

    4. 我該不該創業

    5. 我未來想要什麼樣的生活方式

    6. 我想要跟什麼人組成什麼樣的家庭

    7. 我對我的孩子有什麼樣的期許

    8. 我未來想解決什麼樣的問題,幫什麼樣的人,做什麼樣的貢獻?

     

    這些問題,以上這些問題都很重要,唯一的問題是它的邊界都太大、太開放了,而且很難找到標準答案,所以大部分台灣的孩子因為不習慣、不喜歡思考,所以最後統統不回答,直接選擇從眾

     

    於是加入一件所謂的大公司、選擇一個大家覺得好的職業上班、聽同事的、服從老闆命令、時間到了該結婚、小孩生出來該補習、買房子要選擇好的學區,這些事情都是大家認同的,腦袋不用想也就應該跟著做,等等等等等,大家做的通通都是主流社會認同的選擇

     

    既然你做了這些選擇,那也沒有關係,因為這些選擇都沒有錯。但是我要問你,如果你的選擇都是跟別人一樣,那你這一輩子到底為什麼而活呢?如果這就是你的人生,讓你學資料分析,卻不知道為什麼要學,那就很自然了,因為資料分析很紅嗎?大家都在學,好像很有用,所以我也學一下,你也是這樣嗎?如果你是這樣想沒有錯,只是啊你就不會有機會把資料分析真的學好了,因為要把資料分析學好,必須要符合以下四個步驟。

     

    第一、找出一個真正值得回答的問題

     

    真正值得回答的問題通通都是開放邊界,沒有標準答案。

     

    第二、當你找到真正值得回答的問題的時候,要試著開始求解

     

    求解的前提,首先是你要理解這個問題本質到底是什麼。

     

    第三、在解題的過程中,你需要運用科學方法

     

    第四,在科學方法的步驟裡,你需要假設、觀察、驗證,最後求解

     

    在這個過程中運用資料分析才是真正有意義。

     

    你看,你過去雖然想學資料分析,但你是不是忽略了比資料分析更重要的前提以及科學方法來找問題求解的這些步驟了呢?

     

    為了讓你真正明白我在說什麼,接下來我要用五講的時間,分別告訴你五個故事

     

    為什麼要講故事?主要還是為了讓你真正了解什麼是你需要的科學方法,而且還要讓你知道怎麼活用科學方法,資料分析才有意義,才能幫你創造更大的價值。

     

    首先就讓我來為你說明什麼是科學方法。

     

    第一、找出值得被解決的問題

     

    如果你忘掉了什麼事值得被解決的問題,讓我再為你覆盤一次:值得被解決的問題就是那些大家早就知道有問題卻也已經習以為常,都認為沒有辦法解決得了的問題,因為只有這種問題,一旦你想出一個簡單明瞭、易懂的方法來解決,每個人都會wow的一聲,覺得太好了,早就應該有人這樣做了,只要符合這些前提,你解決問題的方法就不再需要教育,每一個人一看就懂,這樣你的方法才能夠有效地被應用、被傳播。

     

    第二,就是針對這個值得被解決的問題,提出你的假說

     

    也就是針對可行的解決方法提出一個假設的思路

     

    第三,進行觀察,收集資料

     

    第四,根據這個問題來設計一個實驗。接下來反複驗證,直到求出正確解答。

     

    理解了這點,我們就可以用科學方法來貫穿以下的五篇故事,其中還包含我自己設計的算法,讓你真正理解如何利用科學方法加上資料分析來解決真正值得被解決的問題,創造你人生與工作的最大價值。

     

    接下來就是我們的第一個故事:Google的歷史與布林佩吉算法的故事

     

    要講到Google,就不能不提yahoo,在你習慣用Google搜尋引擎之前,網絡世界的真正霸主可是yahoo。

     

    yahoo之所以是網絡世界的霸主,不是因為它的算法有多高明,而是他當時提供了一個劃時代的商業模式,yahoo可以說是全世界第一個從商家而非用戶來收費的服務平台,除了提供一般人免費的搜尋服務之外,甚至在當時還使用電話撥接上網的年代,它就提供了一些免費的號碼讓用戶上網,這樣的思路不可謂不創新。

     

    yahoo是從幫網站建立目錄開始的,當時建立目錄的方法是以傳統的文獻檢索技術為主,但這樣的技術主要是為圖書館所設計的,在網絡上使用效果不好,而且當網絡內容越來越多的時候,手工檢索目錄就不管用了

     

    然後yahoo就開始改用別人的搜尋引擎,但當時計算機容量和速度有很多的限制,加上可以收錄的網頁實在太少了,大多數的搜尋引擎技術只能對常見的內容進行索引,所以用戶常常很難找到真正自己想要的內容。

     

    舉例而言,當你要搜尋Honda cb750機車的規格,可能會找到honda公司、型號750的硬碟,甚至是750上市發表會等等,這些內容都跟你搜尋的字詞有相關,但是卻不是你真正想要的資料,這樣的問題知道Google的誕生才算真正解決。

     

    現在我們知道Google是由布林和佩吉兩位創辦人所創辦的,他們一開始還在學校攻讀博士學位,但是他們在網路上搜尋資料的時候也發現搜尋引擎覆蓋率雖然不錯,但是在查準率上面還有相當大的進步空間,所以布林和佩吉認為這個問題值得被解決,決定在這裡開始做研究

     

    這就是科學方法的第一點。找出值得被解決的問題

     

    就是那些大家都知道早就習以為常卻認為解決不了的問題。

     

    由於佩吉漢布林他們不是做圖書館文獻檢索的,所以他們就從一個全新的視角來看這個問題。當時佩吉認為,互聯網就像一張大的圖,每個網站就像圖上的一個節點,而每個網頁之間的鏈接就像是一條弧線,網絡可以用一個圖或者是一個舉證來描述。

     

    佩吉想,如果他解決了這個問題,他就可以作為博士論文的主題。就這樣,他和布林發明了page rank的算法。

     

    讓我們來簡單描述一下這個算法的內容。

     

    回到一開始的問題,假設今天你要找Honda cb750機車的規格個,你發現網絡上有100個網頁與之有關,那到底哪一個網頁與他相關性最高呢?如果其中有好幾個網頁相關性都相同,哪一個又是你真正要找的呢?

     

    布林跟佩吉認為,如果所有同樣要找Honda cb750規格的人,他們都認為某一個網頁他的資料是最準確的,那那個網頁就是你的目的網頁,基本上這個思路就像民主表決一樣

     

    其實在他們兩位之前,已經有很多人看到網頁之間有互相聯繫的關係,但是由於過去思維的限制,他們並沒有想出這樣的解決方法。

     

    布林跟佩吉他們所做的大膽假設就是科學方法的第二點:提出假說。

     

    接下來他們又遇到一連串的挑戰,首先,對於來自不同網頁的鏈接,它之間的關係是一樣的嗎?

     

    由於布林佩吉的算法已經把所有的網頁先做一次排名,這時候他們認為來自排名較高的網頁鏈接更可靠,於是就給這些排名較高的網頁鏈接較大的權重。

     

    但是權重問題解決了,他們又遇到下一個問題:,因為互聯網上面網頁越來越多,如果有10億個網頁,那他們設計的矩陣《舉證》兩兩相乘就等於10億×10億個元素,這麼大的乘積計算量實在太大了。所以他們接下來又用降低複雜度的方式來簡化他們利用稀疏矩陣運算的技巧來簡化計算量

     

    這正是科學方法的第三點:觀察推論,根據自己理論所形成的結果比較、歸納、演繹進而迭代

     

    而且他們直接成立了Google這個搜尋引擎,用實際的搜尋結果來驗證他們的假說理論和方法。後來,Google的工程師把這樣的算法移植到並行的計算機中,進一步的縮短計算時間,讓網頁更新的周期越來越短

     

    這就是科學方法的第四點:驗證

     

    直到現在布林佩吉算法一直被公認是文獻檢索中最大的貢獻之一,也有很多大學把它引入了信息檢索課程裡面的教案。

     

    讓我們來回顧一下布林佩吉到底做了什麼了不起的突破

     

    首先,他們最高明之處是將整個網絡世界視為一個整體,在他們之前,其他的搜尋引擎都是把每一個網頁當做獨立的個體對待,很多人只注意網頁內容以及查找語句的相關性,而忽略了網頁與網頁之間的關係。

     

    今天Google的搜尋引擎已經比最初的布林佩吉算法更完善了許多,但是在網頁排名的計算上,它依然是相當重要的。

     

    布林佩吉算法的故事就為你講到這裡,聽完了他們的故事,請問你有什麼樣的感受嗎?

     

    讓我來問你幾個問題:

     

    1. 未來的你想要創業嗎?

    2. 如果你想創業,你覺得你自己可以解決什麼樣的問題?

    3. 你想解決的問題值得被解決嗎?

    記得,值得被解決的問題一定符合三要素:第一是大家都知道有這個問題,第二大家早就習以為常,第三,大家都認為解決不了

    1. 如果你知道有什麼問題值得被解決,讓我再問問你,你是否能透過簡單的算法來描述你解決問題的思路?

    2. 在這些過程中,你有沒有運用到科學方法?

    3. 在使用科學方法的過程中,資料分析又能幫你解決什麼問題?

    4. 如果以上的概念你都有了,最後你能不能把你想要解決問題的方法發展成一套產品或服務?

    5. 當然你很可能沒有要創業,但是你在職場上是不是也能運用同樣的邏輯來創造你自己更大的價值?

     

    我將布林佩吉的算法的簡單版本附在文稿下方,對數學有興趣的同學可以自己參與,你也可以點擊下方的鏈接到維基百科上參考一下更完整的版本。

     

    下一講我們就一起來看最偉大的逆襲:Netflix如何用算法幹掉街頭霸王

     

    謝謝你與我們一起出來玩轉數據思維,我是李博伯彥

     

    地球上最好玩的資料分析,我們下一講再見。

    主題評分與評論

    訂閱活動通知

    輸入email訂閱電子報,掌握最新課程資訊

    一起出來玩股份有限公司 © 2021
    李伯彥工作室
    李伯彥工作室Youtube頻道
    聯絡我們