我在學校固定開設一門網路數據分析的課程,也鼓勵學生多考各家平台自己發的證照,由於LINE 在台灣的使用人數不少,所以想來研究看看 LINE 的證照,因此去年詢問 LINE 是否可以讓我報名 LINE Ads Platform 的LINE廣告投手訓練營,但由於我自己學期中也很忙,所以整個課程只有出席一堂,其他內容都是課後看講義補課;以下為此次課程中的心得。 客戶可以自操的LINE廣告類型主要有兩大塊,LINE Ads Platform (LAP) 與官方帳號,前者開發新客、後者維繫關係。兩者皆有共同的追蹤碼 LINE Tag 可以了解轉換及事件,並藉此建立受眾,LAP 也可以埋 utm 碼來追蹤。 LAP LINE 廣告平台的架構與 Google / Facebook 都類似,都是 Campaign / Ad Group / Ad 三個層級,對已經有 Google / Facebook 基礎的學生而言,入門理解不難,預算、走期、受眾、出價、預算等邏輯也大致相同。 由於 LINE 的特性,所以講師建議操作的廣告活動目標與其他平台不太相同,較重視LINE加好友以及App的安裝、互動,操作自動化訊息也很方便。也因為LAP獨有的加好友廣告的關係,所以 LINE推薦自己的行銷漏斗:加入好友(加好友廣告) / 推播訊息互動(官方帳號) / 好友完成購買行動。 對於電商客戶而言,LINE的講師建議找到明星商品 / 爆品做為帶路雞,這與我之前看其他做電商的影片建議類似。今年備課看到一個說法,就是只要發現在任何平台表現好的內容/廣告,就不要去更動,以免影響演算法,我自己在YouTube上面也有同樣經驗,原本成效很好的影片,手賤增加描述後,流量完全消失。所以找到一個爆款明星商品後,維持維持廣告設定不要動,持續投放一直到量沒有可能是一個好的作法。 官方帳號 官方帳號是企業在LINE的門面,在基本設定需要提供詳細資訊,如基本介紹、營業時間、地址、網站等等,讓使用者更容易聯繫店家。 設定歡迎訊息,同時提供圖文選單,可以加速 Call for Action 。設定回應非常重要,包含自動回應(智慧聊天/罐頭訊息)與手動回應。 就 LINE 建議的邏輯,官方帳號用來維繫熟客,促成回購率,與 LAP 帶入新好友功能互補。 媒體的意義 LAP 適合針對習慣使用手機的用戶,如果新媒體成立,透過 LAP 與
資料科學社群中有一個很重要的平台 Kaggle,裡面從競賽、資料分享、經驗交流到社群都有,因為經營太成功了,後來(不意外地)被 Google 買下。我之前在參加 Google 數據分析師專業認證課時,課堂中有要求要開一個帳號,並且上去問答。問答完之後,就會看到你的帳號狀態中,顯示「你只要上傳一次數據競賽」就可以脫離新手村。
衝啊!
Kaggle 中有非常多的數據競賽,而且有些競賽的數據集非常好,獎金也很高。不過菜鳥先不要想那麼多,也做不了這麼高深的比賽。許多人都推薦,Kaggle 競賽可以先從 Titanic 鐵達尼競賽開始。這是一個沒有獎金,只有評分與排名的競賽,而且資料集非常單純,你不會寫程式、不懂機器學習,即便用Excel這種試算表也可以獲得不錯的成績。
什麼是 Kaggle 競賽
Kaggle 上有大大小小的競賽,從給錢的、給(虛擬獎牌)到老師自己在課堂上舉辦的都有,參加辦法其實很簡單,許多比賽都會將一份資料集拆成兩個:
- 訓練集 Train Dataset,讓你實際去訓練機器學習或者用各種你會的方法來跑模型的資料集。
- 測試集 Test Dataset,通常與訓練集來自同一個資料庫,就像富春山居圖分成兩塊一樣,Test Dataset 是讓你去測試你的模型是否正確,會比訓練集少一些欄位,然後把你的結果上傳到競賽中,競賽就會與原本的資料比對,吻合程度越高就代表你的模型越好。
鐵達尼資料集
Kaggle上的鐵達尼資料集來自真實的數據,但與真實完整的欄位有一點點落差,這些欄位包含:
- survival 倖存與否
- pclass 艙等
- sex 性別
- Name 姓名 (包含頭銜)
- Age 年齡
- sibsp 手足、配偶人數
- parch 父母、子女人數
- ticket 船票編號
- fare 票價
- cabin 艙房編號
- embarked 登船口岸
但這些資料集中有嚴重的資料疏漏,所以需要用各種技巧來處理。
資料分析
在Excel有很多方式可以分析這個檔案,第一是採取 Logistic Regression,這樣不用針對數據的特徵有任何分析,直接硬算即可。
另外一種方法就是針對數據的特徵分析之後,你可以不斷透過樞紐分析往下找到各種特徵。
當Rose與Jack要逃下船時,誰的機會比較大呢?我們先從性別來看,可以很快發現最明顯的特徵,就是女性大部分都活下來了,但男性很少。
- 頭等與二等的女性存活
- 男性頭等與二等艙10歲以下存活
當你把這些特徵或規則都找出來之後,就可以在測試集輸入你的判斷式、公式、規則、模型等等,去估計測試集每一位乘客是否會倖存(1),之後再把數據貼到另一個 .csv 檔案,這樣就可以上傳,並且立即看到分數與排名了。
以「頭等與二等的女性存活」為例,我的 Excel 判斷式應該會是
=IF(AND(Sex="Female", PClass<3),1,0)
然後逐漸向下拉,就可以判斷是否可能存活。
這個鐵達尼的資料集,我用邏輯斯回歸與樞紐分析找規則的方式,兩個都可以獲得差不多的正確率。
資料上傳
Titanic的資料上傳很簡單,拖拉 .csv 檔案,並簡單寫個註記(主要是給自己看的),馬上就可以看到你的正確率與排名。
如果你上傳一個全部都倖存的檔案會發生什麼事?你會獲得一個 0.37 的成績,大概倒數1000名內。如果全部都死亡呢?成績就會高很多了。
通常你經過每次調整再重新上傳,都會獲得更好的成績,這也是 Kaggle 平台的趣味所在。