跳到主要內容

發表文章

目前顯示的是 八月, 2021的文章

數據分析故事:Target超市比爸爸更早知道女兒懷孕

Target超市知道你女兒懷孕的故事,是一個很經典的數據分析故事,最早應該出自於紐約時報記者 Charles Duhigg 2012年在 紐約時報 的一篇文章與他的書《為什麼我們這樣生活,那樣工作?》(The Power of Habit: Why We Do What We Do in Life and Business) 中,與「尿布及啤酒」故事一樣,常出現在許多數據分析的書籍中。 Duhigg 在紐約時報的文章中說,他曾經與 Target超市的統計分析師 Andrew Pole 談過(並不是「我有一個朋友在超市工作」,這是有名有姓的),因為新生兒父母是零售業非常好的客戶,會在短期內這個也買那個也買,Target 希望提前找到新生兒父母,然後讓他們養成在新手父母的歷程中,在 Target 購物的習慣,從奶粉一直買到玩具。 早期零售業只能從註冊新生兒採購清單 Baby Registry 來找到客戶,等小孩出生後開始疲勞轟炸,但是Target具有Upstream思維,他們從客戶消費習慣中,找到剛領媽媽手冊但還沒生產的家長,特是第二孕期的媽媽,有的已經會開始瘋狂採購。 Target 早就有客戶資料,並且每個客戶都有自己的 Guest ID,並且希望提早預測客戶可能買的東西,並且創造客戶的習慣性消費,所以 Andrew Pole 寫了一個 Pregnancy-prediction 模型。 由於一般人在重大的生活事件 (life events,Google的廣告系統也是這樣稱呼的)時,不一定會意識到自己重大消費行為的改變,例如在第二孕期開始時,孕婦會開始買大量的無香味乳液;到了20週時,則會開始買孕婦專用的營養補充品,例如鈣、鋅;在生產前就會開始買無味的香皂與大包裝棉花球,這些特徵經過分析後,就可以針對不同的消費者習慣,給出「懷孕指數」。 然後就有一個爸爸收到了Target寄來的DM,發現裡面都是孕婦買的東西,先是罵了店長一頓,會家後才發現自己要當阿公了(恭喜)。 這個典型的數據分析故事,描述了: 數據可能比你最親密的人更知道你 收集足夠的消費者訊息可以算出各種 Life Events 預測型分析的威力

用手機做為電器的第二面板提昇易用性與符擔性

自從有電器以來,貼心的工程師總是不斷希望增加功能到電器當中,或者提供各種設定的可能性,所以電器上面的按鈕總是越來越多、介面也越來越複雜,讓 Don Norman 很不高興,還寫了很多書批評。 隨著生產技術與面板技術的進步,原本只有一個按鈕的電器,逐漸發展出一個具有古老科幻片當中太空船等級的操控面板與複雜性。按鈕越來越多、介面越來越複雜,符擔性 (affordance) 就越來越越差,畢竟在傳統的硬體架構中,電器的尺寸、面板的解析度都是很大的限制。 以我自己的經驗,最近幾年買的廚房家電,除了豆漿機之外,不論是微波爐、麵包機、InstantPot,都附上一本厚厚的手冊,大部分的情況下,我都需要看一下手冊才知道哪一個功能或者流程到底是什麼、按下去會發生什麼事情,特別是按鈕具有組合技的,更不知道要如何操作。 挑戰心智模式 例如我家這台多功能的微波爐烤箱複合機,有烘烤、燒烤、微波三大功能,我覺得很棒,但是我每次使用前我都要看說明書。到了辦公室,其實辦公室的微波爐功能也很多,我也不知道這麼多功能我要怎麼選,你認為微波爐的預設功能,永遠與工程師想得不一樣。 控制面板上總共有 18個按鍵 ,其中4個是自動烹調1-7的預設按鈕,另外3個是自動烹調8-30的選單按鈕。請注意這台機器上面除了右手邊的操作功能區,爐面下方還有說明。 但自動烹調也不是很自動,按下去之後,還有選單要按: 另外還有7個按鍵是手動選項,包含3大功能、溫度、時間、重量調整。除非每天、每天研讀說明書,並通過考試、獲得認證,起碼我無法記住這台機器總共有多少功能,也很難善用。這些功能幾乎沒有可見性。 下列電鍋我都沒有,但可以看出即便是「煮飯」這麼簡單的 Jobs-to-be-done,我要「雇用」一台電鍋時,也遇到了很大的挑戰。下面這樣的面板,是高級電子鍋的典型配備,一共有9個按鍵,並且要在微小面板中,選擇不同硬度、不同米種,對老花眼是很巨大的挑戰。 下面這台也有8個按鈕,同樣要從小小的操作面板中,選擇硬度、行程,挑戰很大。 我最近因為好奇,買了一台超便宜的小米Mini電子鍋,因為非常便宜,想說被騙就算了。先不討論煮出來到底好不好吃,但我看到面板時,我立刻發現按鈕很少、面板很單純,一共就3個按鈕,面板螢幕中的選項也只有5個。這種便宜的東西,選項這麼少也是相當合理的,吧? 貴一點點的小米電子鍋正常版,也是3個按鈕,選項還是不

Excel 與 Google Sheets 常見的錯誤與處理 #NULL! #DIV/0! #VALUE! #REF! #NAME? #NUM! #N/A

我們在使用試算表的時候,很難一生順遂,總是有遇到各種錯誤的時刻。 Excel 與 Google Sheets 是兩大常見的試算表,兩者都共用相同的錯誤代碼。如果你偶爾使用一次試算表,遇到錯誤就算了。但如果你要常常用試算表來計算、分析,知道哪些常見的錯誤並且快速處理,或者轉換錯誤值,是很重要的能力。 常見的7大錯誤 由於試算表內的錯誤已經被給了編號,所以接下來以錯誤編號排序介紹: #Null Error.type = 1  範圍運算符號錯誤 這個錯誤 #Null 的起因是函數內範圍符號有錯,例如  SUM(A1:A5) 打成了  SUM(A1 A5),漏了應該有的 : 或者 , #DIV/0! Error.type = 2 除數為0錯誤 這個 #DIV/0! 錯誤已經很直觀了,就是在計算中以 0 作為除數,這樣 Excel 會覺得你太過分。 #VALUE! Error.type = 3 計算錯誤 這個錯誤 #VALUE! 是在任何公式計算中,出現了無法被計算的東西,例如  = 10 + Taipei 如果Taipei沒有事先被指定數值,這樣就會出現 #Value!,看到這個錯誤就要立刻檢查公式內非數字的項目。 #REF! Error.type = 4  參照範圍錯誤  這個 #REF! 錯誤是指試算表內,已經找不到公式想要參照的對象,這個原因有幾個。首先,是參照對象被刪除了,最常見的狀況是參照到某個 Sheet,但整個 Sheet 被砍掉,或者某欄、某列被刪除,都會出現 #Ref。 另外一個狀況就是 Vlookup 發現你要找的欄,在你指定的陣列外面,例如 你要找  Vlookup(Z1, B2:C5 , 3 ) 要找的第3欄,落在下圖紅色的區域,也會出現 #REF!。 #NAME? Error.type = 5 拼寫錯誤 這個錯誤 #NAME? 通常發生在函數的名稱寫錯,或者函數內出現了錯誤的名稱。例如  Sum() 打成 Sumo()  亦或是 Len("Taiwan") 變成 Len(Taiwan) #NUM! Error.type = 6 無效數值錯誤 這個 #NUM! 錯誤是數字超過函數或者試算表的範圍,也就是「算不出來」,例如你打 =500^500,Excel或 Google Sheets 就會出現 #NUM!,跟你說這個數字它

德國高中生想考官校要經過6個關卡,不是想當軍官就能當

西方先進國家,軍人的社會地位並不低,特別是軍官,通常會被視為社會菁英、國家棟梁,所以從選才到培養,都十分費時費工,不是你想來就來,或者書讀不好只好當軍官。 德國的正規軍官養成包含了軍事教育與高等教育兩部分,軍事教育在各軍種官校完成(陸官、海官、空官),而高等教育則在慕尼黑與漢堡兩所國防大學。不論軍種、兵科,如果入伍前沒有接受過高等教育,官校新訓完之後,會先在這兩間學校完成嚴謹的高等教育,再繼續到軍種官校完成軍官訓,所以你的大學同學畢業後會分發到所有軍種、兵科。 由於軍人四季無休,所以國防大學是德國少數採取學季的學校,一年有三個學季,學士(科大部)2年半畢業,正規班(碩士)4年畢業。牙醫、獸醫、醫學、藥學與食品營養則是與民間大學簽約,入伍後分發到民間大學,其中養成教育最久的,公布在最下面。 德國國防大學 德國慕尼黑國防軍大學 ( Universität der Bundeswehr München ,簡稱 UniBw M)有下列科系: 四年制碩士班 土木與環境工程 電機與資訊科技 資安 教育學 資訊科學 航太工程 運動科學 人文科學 國家與社會科學 經濟與組織學 資訊管理 數學工程 二年半制大學部(科大部) 航太工程 電腦輔助工程 管理與媒體 電腦工程 機械系 漢堡國防軍大學 ( Helmut-Schmidt-Universität/Universität der Bundeswehr Hamburg ) 有下列科系: 電機與資訊工程 資訊科學 資訊管理 電力工程 再生能源與智慧電網 能源與環境科技 工程科學 車輛工程 機械電子 生產運籌 工業管理 機械 國際關係 比較政府 行政法 採購與契約法 歷史 教育系 企管系 經濟系 政治系 以上兩所國防大學,因為是高等教育機構,所以校長都是來自一般大學,只有學生部的主管才是軍人。 如果已經有大學(碩士)學歷者,也可以申請當軍官,跳過國防大學,直接到軍種官校受訓、實習、分發。 軍官適性測驗 想要當德國軍官,不論之前有沒有讀過大學,都要經過6個適性測驗,適性測驗的目的是看考生是否同時具備接受大學教育的能力及成為軍官的能力。學術資質與軍官資質都好的,當場錄取,簽下去!表現差一點的可以候補等分發,再差的會問你要不要當士官(不是專科班好嗎?),更差的建議你當一年兵意思意思心意到了就好。如果學術能力有但是軍官資質沒有,會輔導你轉去讀國防

企業到底要數位轉型還是數據轉型?

暑假看了幾本數位轉型與數據轉型的書,覺得這兩者之間可能有層次與因果的關係。一間企業如果成功的「數據轉型」,必然會有良好的數位轉型。但如果只是數位轉型,有可能並沒有數據轉型。 前 P&G 的數位服務 VP Tony Saldanha 談數位轉型的著作《   Why Digital Transformations Fail: The Surprising Disciplines of How to Take Off and Stay Ahead 》  (數位轉型為什麼會失敗:從起飛到領先的驚奇原則) 提到了數位轉型的5個階段,每個階段都是從部門到跨部門到全公司的改善,其中數位轉型的5個階段分別為: Foundation :公司開始使用外部的SaaS等方案來改善流程 Siloed :部分部門開始利用數位工具來產生新的商業模式 Partially Synchronized :公司間有些部門的數位 / 數據工具可以對接 Fully Synchronized :全公司的內部系統都已經數位化並且在同一個系統上 Living DNA :變成一家純數位公司,這並不是說傳統業務並不要做,例如一間物流公司,純數位化之後,就是一間有貨車的數位公司。 這5個階段既是數位轉型的階段,從下面的例子可以看到,也必然需要數據分析作為基礎。 在台灣以《輕鬆搞懂數字爆的料》走紅的 Thomas H. Davenport,2017年也出版了 Competing on Analytics 更新版,雖然書本不是談數位轉型,但其中提到的企業數據轉型的5個階段,其實也與數位轉型息息相關。Davenport認為企業在 數據轉型的5個階段 分別是: Analytically impaired : 前數據階段的公司,公司當然有數據、公司當然有分析,但都是只在基本「商業計算」的層次,沒有任何分析策略。我認識很多中小企業主,幾億身家的這種,都在這個階段,開心就好。 Localized analytics : 與上面的數位轉型5的階段1與2有點類似,已經開始導入數位分析工具,但分析的層次以描述型分析為主。數據儲存在部門當中(數據孤島),沒有跨部門的數據倉儲或者現在流行的數據中台概念。 Analytical aspirations : 高階主管開始關心數據分析,公司可能會有個數據長或者分析長 (Chief Data

Kaggle 競賽一點也不難!用 Excel 樞紐分析也可以完成你的第一次數據競賽!

資料科學社群中有一個很重要的平台 Kaggle,裡面從競賽、資料分享、經驗交流到社群都有,因為經營太成功了,後來(不意外地)被 Google 買下。我之前在參加 Google 數據分析師專業認證課 時,課堂中有要求要開一個帳號,並且上去問答。問答完之後,就會看到你的帳號狀態中,顯示「你只要上傳一次數據競賽」就可以脫離新手村。 衝啊! Kaggle 中有非常多的數據競賽,而且有些競賽的數據集非常好,獎金也很高。不過菜鳥先不要想那麼多,也做不了這麼高深的比賽。許多人都推薦,Kaggle 競賽可以先從 Titanic 鐵達尼競賽 開始。這是一個沒有獎金,只有評分與排名的競賽,而且資料集非常單純,你不會寫程式、不懂機器學習,即便用Excel這種試算表也可以獲得不錯的成績。 什麼是 Kaggle 競賽 Kaggle 上有大大小小的競賽,從給錢的、給(虛擬獎牌)到老師自己在課堂上舉辦的都有,參加辦法其實很簡單,許多比賽都會將一份資料集拆成兩個: 訓練集 Train Dataset,讓你實際去訓練機器學習或者用各種你會的方法來跑模型的資料集。 測試集 Test Dataset,通常與訓練集來自同一個資料庫,就像富春山居圖分成兩塊一樣,Test Dataset 是讓你去測試你的模型是否正確,會比訓練集少一些欄位,然後把你的結果上傳到競賽中,競賽就會與原本的資料比對,吻合程度越高就代表你的模型越好。 鐵達尼資料集 Kaggle上的 鐵達尼資料集 來自真實的數據,但與真實完整的欄位有一點點落差,這些欄位包含: survival 倖存與否 pclass 艙等 sex 性別 Name 姓名 (包含頭銜) Age 年齡 sibsp 手足、配偶人數 parch 父母、子女人數 ticket 船票編號 fare 票價 cabin 艙房編號 embarked 登船口岸 但這些資料集中有嚴重的資料疏漏,所以需要用各種技巧來處理。 資料分析 在Excel有很多方式可以分析這個檔案,第一是採取 Logistic Regression,這樣不用針對數據的特徵有任何分析,直接硬算即可。 另外一種方法就是針對數據的特徵分析之後,你可以不斷透過樞紐分析往下找到各種特徵。 當Rose與Jack要逃下船時,誰的機會比較大呢?我們先從性別來看,可以很快發現最明顯的特徵,就是女性大部分都活下來了,

德國如何靠聯邦軍養出強大的奧運代表隊

許多國家為了讓頂尖運動員可以專心練習,都有專門的計畫來培訓運動員並給予運動員基本的生活費,德國也不例外。但與很多國家不同的是,德國主要靠國家武裝力量負責擔負起頂尖運動員的訓練與長期就業保障,包含了德軍、警察與海關邊防,都提供了頂尖運動員的訓練與就業機會。 雖然德國的運動主管機關是內政部的運動司 (Abteilung SP),但德國政府為了協助非職業運動項目的頂尖運動員,1960年代起把非職業項目的頂尖運動員納入德國聯邦軍,因為德國認為支持運動是國家整體的責任,軍隊責無旁貸,況且許多運動本來就來自古典的戰鬥。 到了1968年,聯邦議會正式立法,希望透過聯邦軍的協助,讓德國運動員生活無虞,在國際上也有公平競爭的機會。德國聯邦軍一共有938名運動兵(Sportsoldat)的編制 (2021年),有點類似台灣國訓中心的國手,目前隸屬於新編成的德國基礎軍( Streitkräftebasis ,相當於台灣的聯勤)下,除了少量的軍事運動、格鬥、跳傘項目運動員,850名運動員與教練都是要去比奧運或其他世界錦標賽的。 (下面是德國跆拳道運動兵去武漢 Military World Games 比賽前的檢閱) 德國運動兵分散在15個運動強化班(Sportfördergruppen),都配置在德國單項奧運培訓中心附近的基地,例如柏林的運動強化班就在 Julius-Leber-Kaserne 軍營內。德國聯邦軍每年編列了4600萬歐元(2021年資料)來維護這15個運動支援班,是德國最大的頂尖運動員贊助者。 德國許多頂尖運動員會在地方的運動俱樂部、企業贊助俱樂部練習,但生活費必須靠德軍來協助,例如沙灘排球、雪板、輕艇、柔道、自行車這種,只要被列為國家運動員A到C級,就有機會加入運動兵,掛階後還要從一兵慢慢升遷XD。 例如2016年奧運沙灘排球奧運冠軍 Kira Walkenhorst,從2012年開始就加入漢堡的德軍運動強化班直到運動員生涯退休。這次在2020東京奧運炎上的女子現代五項運動員 Annika Schleu也是德國空軍士官長。 Kira Walken

台北故宮風格玩家的秘密基地親子探索活動

最近聽說故宮有一批 大阪市立美術館 來的 借展 ,很厲害,雖然疫情還沒完全過去,還是硬著頭皮去參觀了。大阪市立美術館的鎮館之寶主要來自於 阿部房次郎 的捐贈,阿部房次郎當時身為日本紡織業的霸主,在「京都支那學」學者內藤湖南的協助與指導下,從保全東洋文化的角度,收藏了大量流落在外的故宮書畫極品,財力、心力與品味都屬一流。 到了故宮,還沒入場,就被服務人員叫住,告知可以去領親子探索包,跟小朋友一起玩。不拿不知道,一拿嚇一跳,是一個很豐富的教材包。不用報名、不用預約、不用排隊,每個小朋友都可以自由拿一份。 這個「風格玩家的秘密基地」的教材包中有手冊一本,幾張貼紙,彩色蠟筆、家長指南等各種東西,不收家長半毛錢,真的很佛心,比傳統的「學習單」更豐富、多元,但也要花家長更多時間。 超級豐富的親子探索包 跟著這個秘密基地探索手冊,從一樓開始,要解非常多的關卡。我原本以為小犬沒有興趣,但沒有想到他可以老老實實參與2小時的活動,從一樓開始乖乖探索到三樓。 探索手冊比一般學習單多了很多道具,例如貼紙、小卡片、解迷卡、透明色紙等等,幾乎是幼兒版的密室逃脫規模了,確實可以讓小朋友把注意力放在文物上面,而不是只會在旁邊叫「好無聊、我想回家」。 紅山水貼紙,讓小朋友自己重新貼一次,成就感很高 整本手冊一共有18個關卡,每一關都能創造小朋友與文物連結的經驗,而且小朋友也因此有興趣聽文物背後的故事。 解謎透明色紙可以用在兩個關卡,非常好的設計 以前去國際頂級博物館、美術館時,總看到小朋友拿著各種教材、學習單穿梭其中,也常看到老師校外教學,小朋友或坐或臥在博物館的地上,總覺得這才是博物館健康的樣貌。 以下是我之前去大英博物館看到的教學樣貌,當時看了覺得很羨慕,現在故宮也追上來了! 博物館就是最好的學校

Google Data Analytics 數據分析專業認證介紹

Google 在 2021 年開了5個他們認為低學歷也可以進入網路科技業的墊腳石課程,都是 Certificate 程度,也就是美式求職證照中的最低階。 我先前已經先考過了 專案管理的專業認證 ,這次繼續花大約2周的時間來完成數據分析師 / 資料分析師認證,看看這張證書是否值得推薦。 Google Data Analytics Certificate 結論先講 如果你具有任何一個非數據類的專業(aka良好的大學文憑)或者在工作上累積了不錯的專業知識 (Domain Knowledge) ,這門課可以 提高你的專業知識與求職機會 (前提是你真的 所有作業 都做完哦~~) 這門課的重點是 Data,不是 Business ,主要提供你與 Data 最基本的互動知識,但談不上 Business Analytics ,使用的工具、課程內容重點都不同。 課程難度 Google Data Analytics Professional Certificate 這門課是全英文的,你要全程用英文參與課程、學簡單 Coding,完成作業,語言上有難度。不過與另外一門 Project Management Certificate 相較,我覺得英文要求沒有那麼高,畢竟沒有 Peer Review,等於是沒有對英語寫作的要求。 課程的工具核心有三個,分別是 Excel(試算表)、SQL與R,假如這三樣你都沒學過,也沒有任何寫程式的基礎(這種人現在也不多就是了),可能會有一點點學習上的門檻,但如果你已經有任何一個程式的基礎,相信不會太難。 課程安排 這個專業認證課由8個課程組成,課程架構與大部分數據分析、商業分析的都差不多,Google 這邊使用的為 Ask、Prepare、Process、Analyze、Share與Act六大步驟,除了第一個課程是數據分析快速入門外,後面5個就是Google數據分析的前5個階段,然後第7個課程專門講R,第8個是專題作業。 Ask 階段主要是定義商業問題與需求,Prepare階段讓你了解數據、欄位等特性,規劃資料需求並且取得資料。  Process階段就專門談資料的清理、整理,花了很多時間在談清理的樣態、手工清理與SQL清理,令人驚訝的是完全沒有介紹 OpenRefine 。 Analyze階段講得比我想像的要少,重點還是在試算表與SQL的使用,完全沒有提到商