統計機器學習與資料分析介紹 @ 經濟,財務,統計學,數理科學與政治評論

得先聲明，大數據分析是統計背景的人較適合發展的領域，至於資訊科學跟資訊工程的人，當然也適合發展，但機器學習本身並不需要背景知識(domain knowledge)，因著如此，進行科學計算者只需要專注於目標函數的最適化達成，藉著各種設定好的限制式，追求條件限制下的最適化，只是如果沒有商學院或管理學院的學科磨練，幫忙設計機器學習者可能並不了解特定產業中需要解決的特定議題，此時機器學習最終將變成是一個四不像，毫無實用性與真實價值可言；簡單的說，沒有背景知識者所發展出來的機器學習是無法為實際商業決策提供任何貢獻的。在決策科學中，經常會討論到專家系統運用，只是專家系統需要的內涵是甚麼?絕對不是機器學習，不論您想要機器學習甚麼，都是需要替機器設定目標，如果希望機器學習結果能構建出一個專家系統，或是藉由專家來幫忙調整機器學習的目標，這些都需要人來幫忙定義與界定，若只是讓機器針對各類設定好的計算原則加以計算，那機器學習的目標就只是幫忙人們很快找到真相，因為人一時之間能處理的資料量有限，人有情緒跟盲點，人經常需要很多時間的試誤才知道真理是甚麼，但是機器不會，在設定的演算規則與邏輯下，機器只要有很快速的CPU或是GPU，就能進行各類計算，就能幫忙人們克服很多過往需要大量時間才能達到的目標!機器不會累但人會，統計學習或是機器學習在此的目標就是一個能高速計算並很快探求事實真相且將問題降低維度來簡易化的問題過程與建構一個探查真相的模式!是的，這裡談的是弱AI!統計學習與機器學習在此就是替人們很快速地進行相關計算，幫忙人們進行特定決策的簡易人工智慧，此時如果您設計的機器學習演算法無法與任何特定相關商業議題有關連，其實機器學習出來結果就真的是GIGO( Garbage In, Garbage Out)!

談到統計學習，得先從J. Friedman開始談起，1990年代，Friedman是第一代決策樹學習-CART(Classification and Regression Tree)的始祖，另一個CART的始祖就是L. Breiman，Friedman同時也是統計無母數回歸(nonparametric regression)的MARS(Multivariate Adaptive Regression Splines)創始者，而CART是第一代決策樹學習(decision tree learning)的基本計算學理與原則，決策樹學習是一套監督式的統計學習(supervised statistical learning)，原諒個人不太願意將它說成是機器學習，因為他用的是Chi-Square test，這是統計學界常用的方法，特別是在線性模式(linear modelling)中，雖然很多資工或是資科的人喜歡說決策樹學習是監督式的機器學習，但Friedman先生是統計學界的人，而這套方法在1990年代是統計學界中非常熱門的方法，只是在那個年代總是在高速或是工作站上的電腦才能完成，今天卻能在自家的桌機或是筆記型電腦完成，最多您只能說是資工與資科的人，借用統計學界發展出來的這套以條件機率和相關性高低與Chi-Square Test準則為發展基石，它背後的學理是統計思維，這個方法應該被視為是統計學習，而非傳統資工或是資科所界定的機器學習方法。回頭談決策樹學習，第二代的決策樹學習融入資訊理論Entropy的想法，利用這個方式來進行變數新增選擇-條件機率下特定變數增加對於決策的幫助有多少，其實Entropy最好用的地方不是資訊工程，而是電信相關領域，很多電訊的信號傳遞，經常因路途遙遠會失真或是發散，如何利用各種方式讓電信資訊內容傳遞保持一定程度的可信，資訊壓縮是重要的處理方式，就需要各類方法來衡量資訊傳遞多寡的可信程度，其中Entropy是基本衡量原則!

另一個晚近流行的統計學習方法是隨機森林(random Forest)，這個方法是前面提到的L. Breiman所發展，這個先生在業界待過一段蠻長的時間，爾後才回到學界中，Breiman師承機率論大師Loeve，但自身是做統計計算的，這在統計學界很常見，大家都知道理論統計中最重要的兩個議題是中央極限定理跟大數法則，L. Breiman提出的隨機森林融合拔靴法(Bootstraping，這個方法是另一個很重要的統計學家B. Efron所發展出來的方法)跟第一代決策樹的學習方法，衍生出後來的隨機森林!!當您聽到別人在談隨機森林時，請記得要跟資工和資科的人說明，這個方法是統計學習，機器學習的資訊研究學者只是借用這個方法發展出來不少應用，常讓人以為這個方法是機器學習，但L. Breiman當時可是在UC Berkeley的統計系所任教!隨機森林的基本概念是為解決一些特定議題，比如資料中經常會面臨缺值問題，在隨機森林中，就由取出放回的重複抽取來建構新樣本，再藉由特定邏輯不斷重複進行相關事宜補強，最終重新將建構出的枝葉增補在特定決策樹，爾後就是後續計算與參數估計和統計檢定的議題，這個方法剛看起來有些怪異，就像當初拔靴法(bootstrap)的估計法曾引起統計學界的爭議，因拔靴法的估計統計量可能不是不偏的(bootstraping may create a biased estimator)，而隨機森林的基礎立論是大數法則與中央極限定理，從隨機森林所推演出的統計量，有時還是無法滿足不偏,有效,一致等統計學者以為需要達到的優良統計量準則，但確實補強不少過往統計學者以為決策樹學習發展的不足，或許是天妒英才， L. Breiman先生在西元2004年與世長辭。

晚近機器學習最重要的方法，也確實是資訊學家發展長達五十年以上的方法是人工類神經網絡(ANN, Artificial Neural Network)，這個方法的歷史久遠，可源自於1950年代的俄國研究者，爾後晚近因在強化學習與相關學習增強賞發展出具備記憶能力學習得到改進的突破性發展，使得此法功力大增，大家前一陣子見到的AlphaGo就是ANN的改良，不可否認的是這類方法是以人大腦運作為模擬與仿效的對象，目標確實就是取代人類，讓機器更像人，讓機器能模擬人的思考模式，進行各類資訊的判讀與辨識；這是資訊學者的重要貢獻，而非統計學者的貢獻!

回頭談在非監督式學習方法中，經常使用到的多變量分析(multivariate analysis)，這些研究與分類界定的方法，多為發展超過五六十年以上的老方法，大家常用的主成分分析(PCA, principal component analysis)，主要找尋的是線性的關係，相對於回歸分析，找的是一個多聞度的線性組合平面，而衡量方式是用空間的實際資料點直接垂降的方式來衡量距離，以找出最佳的多維度平面或是直線，主成分分析找的也是直線或是多個維度的座標參考軸，只是衡量的方式是用空間中的實際資料點垂直連接到特定直線或平面上，以找出在這個直線上的所有垂直投射點，是否具備最大的變異量，如果確實，那這條線就是第一個成分(the first principal component)，爾後遵循此一原則找尋另一個與其第一成分直交或是斜交的直線，對其直線上垂直投射出來的點進行變異計算，判別其變異是否為第二大，以此類推直到找到足夠的成分，就能利用這些成分構成新的解釋空間，對於資料點進行更多的解釋與闡述，這樣的計算過程完全可以採用矩陣的方式來加以展現，因此在1940-1950年代時，美國知名的哥倫比亞大學裡的Hotelling先生等人就已將重要的數學推導推論出，爾後隨著電腦的發展，這些與主成分分析相關的延伸方法，其視覺化呈現也越加清晰，這裡就不得不提到J. Tuckey先生在1977年左右的巨著Exploratory Data Analysis(EDA)，這是所有視覺化資訊分析的開始，爾後的故事，大家就都知道了!只是主成分分析(PCA)在機器學習中被歸類為非監督式學習(unsupervised machine learning)，但對於統計的人來說，它只是重新界定座標軸，讓這些變數的線性組合能夠更清楚的表達相關特定的議題，以利後續的分析與實用，而對於統計學者來說，主成分分析主要的目標是在找尋變異與降低變異，讓變異的來源分成能夠被解釋與不能被解釋的，能被解釋的就是主成分，不能被解釋的就是殘差，很多統計學者可能不知道甚麼是非監督式學習，但卻非常了解主成分分析，因為它的發展歷史已經超過六十年以上!晚近社會科學學界的其他相關延伸，討論的是多個具有變異因子的線性方程式所組成的線性方城組，這樣的延伸有點類似類神經網絡的鋪陳，藉由一個又一個變數數的線性組合，來表達特定與界定特定的議題，這些方法也被歸類為非監督式的學習方法，因為最終的結果並無發從一開始就被歸類出來，都屬於資料替自己說話的型態，也屬於Data Dependent的機器學習模式。

統計學習跟機器學習的不同，在於統計學習的方法大多為監督式的學習方法，對於最終的可能結果在學習之前就已經界定好，反觀晚近的機器學習有不少方法是屬於非監督式學習或具記憶功能的增強式學習，這類方法對最終結果並未在學習之前就界定，而是讓資料替自己說話，最終結果是甚麼，端賴輸入的資料而定。不可否認的是，統計學習中還是有不少方法屬於非監督式的學習方法，很多無母數回歸的方法其實也多屬於無法在學習前就界定好最終結果者，但無母數回歸，相對於傳統的廣義線性回歸或所謂的監督式統計學習法，最大的不同點在於參數估計的靈活性，既未限定參數數量的使用，也未限定在特定的情境下可運用的參數數量，在計算與資料模型的配適上都比傳統母數回歸法是更有彈性的，這個觀念與監督或非監督式學習的定義大不相同，若以為監督式學習的參數數量需要事前決定，那無母數回歸的計算方法因為參數數量並未事前決定，確實比較類似非監督式學習，但與非監督是機器學習不同的是，無母數回歸估計法所採用的特定基本生成函數或是特定生成分配，還是在一開始就界定好，並非不可預測的，且為了防止不良的發展，通常都會針對特定最適化議題去設計懲罰函數(penalty function)，目標當然是期望降低所需參數的多寡，藉由變異與有偏估計量的控制與交換(trade-off)，來讓資料的配適與參數估計修正與改進，最終使得估算結果更為合理!

十多年以前，在本地，統計諮詢在臺灣這個小島沒有甚麼市場!試問誰會花費很多錢請人幫忙進行相關統計諮詢?曾聽過心理學的專家談統計，也曾聽過醫學院的人談統計，這些人都認為統計只是工具，並非一項專業，當然那是十多年前的事情，只是在臺灣，對統計專業的了解不夠，而生物統計在國內的發展，始終都是由醫師與相關能爭取到經費者主導，專業統計人員扮演的角色只是助理與建構模式的黑手，薪資固定且大部分相關的利潤是由計畫者所取得，專業統計者很難分享參與!再多的統計專業，都遠不如能主導計畫與爭取到可發展經費，這在國內非常不健康的統計諮詢市場中始終存在，這也使得在臺灣，統計始終都只是工具，只是回頭談，誰會質疑會計師所使用的會計不是專業?誰會質疑經濟學家的經濟理論並非專業?誰會質疑金融財務操作者的財務學理不是專業?但始終有一堆人質疑統計學家的統計專業!或許時代轉變，如今很多的機器學習方法過往都是由統計學家所發展，只是資工與資科者當然會刻意漠視，因此需要統計學家說明統計學習其實是諸多目前流行的機器學習背後執行時的思維與觀念，當機率出現在諸多機器學習計算中，統計學習才是其發展的根源!

在國內，統計學與數學的掛勾，經常讓人搞不清楚統計與數學的不同，數學是邏輯推演的思辯過程，當邏輯走不通時，可以自己定義就能處理，但統計卻始終是處理實際問題，統計採用的研究方式是歸納而非演繹，統計對實際存在現象，只能找方法找相關與找真相，不可能自己定義甚麼，統計經常被認為是沒辦法中的辦法，針對諸多難量測的事，不斷發展出各類衡量方式加以面對，這是很多數學背景的研究者所不能體會的，沒人因為物理用到很多數學，就說物理就是數學吧?!!統計其實也是如此，統計需要大量數學是無庸置疑的，但數學對統計來說，真的只是工具!國內統計學界的問題，始終在於統計的碩博士，並不具備商業方面的知識，甚至大學統計系所的學生，最終並不選擇統計碩士與博士學程作為後續的發展目標，因為大學裡面的統計課程有相當程度與碩士課程重疊，若是統計碩士課程走向更為數理的發展，對學生是負擔，而且也不太能讓學生考量到未來的就業議題，在全世界碩士學歷大幅度貶值的此時，統計領域必須更為應用與更具實用性，大數據的發展歷程中，可採用非常多統計方法，而這些方法都已經發展超過三十年以上的歷史，也已有二三十年的實際應用歷程可參考，對於統計領域者，必須更加善用計算機的運用與相關建模與模擬，這是統計學界必須持續發展的道路。