一起出來玩
一起出來玩
    10 跟著Netflix學算法,你也用得上!如何應用標準差

    10 跟著Netflix學算法,你也用得上!如何應用標準差

    播放次數:186

    透過這幾講,我們希望達成以下的目標: 1. 完全沒有技術能力的組織也能實踐資料搜集與資料分析 2. 用excel 找有效名單增加銷售 3. 活用高中數學學習算法 4. 小商家用開放平台、實現異業結盟與共同行銷 5. 沒預算沒關係,線下完成銷售的串接與擴散 6. 在人力短缺的情況下快速開發市場

     

    跟著Netflix學算法,你也用得上!

     

    接下來的幾講,我們跟著大家最熟悉的Netflix,一步步走向算法的世界.

     

    不用擔心,過程中不會用上任何高深的數學,反而會讓你想起以前學校學過的東西,原來可以這樣用!

     

    透過這幾講,我們希望達成以下的目標:

     

    1. 完全沒有技術能力的組織也能實踐資料搜集與資料分析

    2. 用excel 找有效名單增加銷售

    3. 活用高中數學學習算法

    4. 小商家用開放平台、實現異業結盟與共同行銷

    5. 沒預算沒關係,線下完成銷售的串接與擴散

    6. 在人力短缺的情況下快速開發市場

    -------------------------------------

    你有看過Netflix嗎?

     

    今天在台灣,看Netflix的人越來越多了,沒辦法,精緻緊湊又豐富的內容,和傳統的第四台和違法的電視台比起來,實在物有所值的太多了

     

    但如果你對Netflix已經很熟悉了,你一定對他的介面很熟悉.傳統第四台只能按照節目表收看、國內的MOD或電視盒上的app介面多又繁雜,和Netflix上簡單好用的節目推薦比起來完全是不同世界,但你知道這樣精準又有效的介面是怎麼做出來的嗎?

     

    是透過算法.Netflix透過獨家算法做出推薦,他們也是少數敢在首頁直接做用戶推薦的服務,但他創立之初,可完全不是如此.

     

    Netflix一開始是做郵寄DVD的租賃服務,為了減少運輸時間,Netflix設立了分散的作業中心,讓90%的訂戶可以在Netflix寄出影片後第二天就收到。十幾年前時Netflix每天寄出的影片就超過150萬張;在2007年2月25日達到了寄出10億張DVD的規模。

     

    但隨著業務擴大,Netflix開始遇到新的問題:

     

    1. 拷貝不足,如果作業中心沒有拷貝,Netflix必須從其他中心運送,就會造成延遲

    2. 新的、熱門的影片,想看的人較多,等待時間也會延長幾天,甚至幾週。

     

    可想而知,對於那些久久才租一次熱門影片的用戶,他們的體驗一定和Netflix宣稱的大不相同儘管Netflix提供較高的優先權給那些頻率較低,又排隊租熱門影片的用戶,但最終還是引起了集體訴訟

     

    Netflix2005年為會員提供了一個月的免費服務,並修改服務條款以與用戶達成和解。當時困擾他們的問題是:如何求出更好運輸與拷貝分配的優先級?

     

    2. 2009登場的 Netflix Prize 競賽

     

    2009年,Netflix決定提供百萬美金獎金來舉辦Netflix Prize競賽,試圖公開徵選最佳協作過濾算法,競賽的目標是根據影片之前的評分預測(1-5分),來預測用戶對特定影片的評分

     

    在競賽之前,Netflix使用用Cinematch算法進行預測,他們希望透過比賽提高精準度,在相同的條件下,參賽者使用的算法準確性至少要比Cinematch算法準確性高出10%。

     

     Netflix將隨機選擇匿名用戶和部分電影標題組成的1億多個分級做成了訓練資料集,和一個保留分級的用戶/電影ID配對的測試集。參賽隊伍必須預測用戶和電影ID配對的評分

     

    最後算出每個預測值與實際評分之間的均方根誤差,再將其四捨五入至小數點下四位。

     

    至於什麼是均方根誤差 (RMSE:root-mean-square deviation)?

     

    均方根誤差(均方差)主要是用來比較兩個物品之間的不同。

     

    公式如下:

     

    如果這樣還看不懂?沒關係,均方差是變異數的平方根,也是所稱的標準差

     

    講到變異數與標準差,大家應該就很熟悉了,我們來複習一下:

     

    變異數: 離差(資料值與期望值的差異)平方和的平均,單位是原資料單位的平方

     

    標準差:也就是均方差,是變異數的平方根,單位同原資料的單位,數學符號σ(sigma),在概率統計中最常使用作為測量一組數值的離散程度之用,與期望值之比為標準離差率。

     

     


     

    在常態分佈下(如上圖),以平均數為中線,構成左右對稱之單峰、鐘型曲線分布。其中變項之平均數、中位數和眾數為同一數值。

     

    標準差(standard deviation):

    68.3%的數值,落在平均數 ± 1個標準差間;

    95.4%的數值,落在平均數 ± 2個標準差間;

    99.7%的數值,落在平均數 ± 3個標準差間。

     

    當時Cinematch在測試子集上算出均方根誤差是0.9525。所以競賽隊伍提交的預測值必須小於或等於0.9525的90%,也就是0.8572。

     

    這場競賽後來怎樣了呢?

     

    Netflix Prize 競賽非常成功,三年以後頒出大獎,過程中成功的吸引許多人投入推薦系統的研究,讓推薦算法正式進入商業的領域,自此Netflix也隱隱然成為使用推薦引擎的服務典範,與Amazon分庭抗禮,一個成為娛樂業的霸主,另一個成為電商時代的帝王

     

    至於曾經差一點收購Netflix的百事達呢?

     

    在Netflix於2007年開始線上服務之後,百視達就每況愈下,最終於2010年9月破產.目前在

    美國俄勒岡州,還有最後一間門市,以供後人憑弔

     

    聽到這裡,是否對以前學過的常態分佈和標準差有點印象了呢?

     

    和你同期進公司的同事,如果你們的薪資剛好落在正二和負二個標準差之外,那代表什麼意思?

     

    今天我們就先說到這裡,想一想,生活中哪些地方可以用到標準差的概念,又能拿來做什麼用呢?

     

    下一講,我們繼續談 Netflix如何從DVD租賃轉型成線上服務,他們後來又怎麼分析用戶行為、進而怎麼對用戶做出推薦的

     

    地球上最有趣的資料分析,我們下一講再見!

    主題評分與評論

    訂閱活動通知

    輸入email訂閱電子報,掌握最新課程資訊

    一起出來玩股份有限公司 © 2021
    李伯彥工作室
    李伯彥工作室Youtube頻道
    聯絡我們