得先聲明,大數據分析是統計背景的人較適合發展的領域,至於資訊科學跟資訊工程的人,當然也適合發展,但機器學習本身並不需要背景知識(domain knowledge),因著如此,進行科學計算者只需要專注於目標函數的最適化達成,藉著各種設定好的限制式,追求條件限制下的最適化,只是如果沒有商學院或管理學院的學科磨練,幫忙設計機器學習者可能並不了解特定產業中需要解決的特定議題,此時機器學習最終將變成是一個四不像,毫無實用性與真實價值可言;簡單的說,沒有背景知識者所發展出來的機器學習是無法為實際商業決策提供任何貢獻的。在決策科學中,經常會討論到專家系統運用,只是專家系統需要的內涵是甚麼?絕對不是機器學習,不論您想要機器學習甚麼,都是需要替機器設定目標,如果希望機器學習結果能構建出一個專家系統,或是藉由專家來幫忙調整機器學習的目標,這些都需要人來幫忙定義與界定,若只是讓機器針對各類設定好的計算原則加以計算,那機器學習的目標就只是幫忙人們很快找到真相,因為人一時之間能處理的資料量有限,人有情緒跟盲點,人經常需要很多時間的試誤才知道真理是甚麼,但是機器不會,在設定的演算規則與邏輯下,機器只要有很快速的CPU或是GPU,就能進行各類計算,就能幫忙人們克服很多過往需要大量時間才能達到的目標!機器不會累但人會,統計學習或是機器學習在此的目標就是一個能高速計算並很快探求事實真相且將問題降低維度來簡易化的問題過程與建構一個探查真相的模式!是的,這裡談的是弱AI!統計學習與機器學習在此就是替人們很快速地進行相關計算,幫忙人們進行特定決策的簡易人工智慧,此時如果您設計的機器學習演算法無法與任何特定相關商業議題有關連,其實機器學習出來結果就真的是GIGO( Garbage In, Garbage Out)!

  談到統計學習,得先從J. Friedman開始談起,1990年代,Friedman是第一代決策樹學習-CART(Classification and Regression Tree)的始祖,另一個CART的始祖就是L. Breiman,Friedman同時也是統計無母數回歸(nonparametric regression)的MARS(Multivariate Adaptive Regression Splines)創始者,而CART是第一代決策樹學習(decision tree learning)的基本計算學理與原則,決策樹學習是一套監督式的統計學習(supervised statistical learning),原諒個人不太願意將它說成是機器學習,因為他用的是Chi-Square test,這是統計學界常用的方法,特別是在線性模式(linear modelling)中,雖然很多資工或是資科的人喜歡說決策樹學習是監督式的機器學習,但Friedman先生是統計學界的人,而這套方法在1990年代是統計學界中非常熱門的方法,只是在那個年代總是在高速或是工作站上的電腦才能完成,今天卻能在自家的桌機或是筆記型電腦完成,最多您只能說是資工與資科的人,借用統計學界發展出來的這套以條件機率和相關性高低與Chi-Square Test準則為發展基石,它背後的學理是統計思維,這個方法應該被視為是統計學習,而非傳統資工或是資科所界定的機器學習方法。回頭談決策樹學習,第二代的決策樹學習融入資訊理論Entropy的想法,利用這個方式來進行變數新增選擇-條件機率下特定變數增加對於決策的幫助有多少,其實Entropy最好用的地方不是資訊工程,而是電信相關領域,很多電訊的信號傳遞,經常因路途遙遠會失真或是發散,如何利用各種方式讓電信資訊內容傳遞保持一定程度的可信,資訊壓縮是重要的處理方式,就需要各類方法來衡量資訊傳遞多寡的可信程度,其中Entropy是基本衡量原則!

 另一個晚近流行的統計學習方法是隨機森林(random Forest),這個方法是前面提到的L. Breiman所發展,這個先生在業界待過一段蠻長的時間,爾後才回到學界中,Breiman師承機率論大師Loeve,但自身是做統計計算的,這在統計學界很常見,大家都知道理論統計中最重要的兩個議題是中央極限定理跟大數法則,L. Breiman提出的隨機森林融合拔靴法(Bootstraping,這個方法是另一個很重要的統計學家B. Efron所發展出來的方法)跟第一代決策樹的學習方法,衍生出後來的隨機森林!!當您聽到別人在談隨機森林時,請記得要跟資工和資科的人說明,這個方法是統計學習,機器學習的資訊研究學者只是借用這個方法發展出來不少應用,常讓人以為這個方法是機器學習,但L. Breiman當時可是在UC Berkeley的統計系所任教!隨機森林的基本概念是為解決一些特定議題,比如資料中經常會面臨缺值問題,在隨機森林中,就由取出放回的重複抽取來建構新樣本,再藉由特定邏輯不斷重複進行相關事宜補強,最終重新將建構出的枝葉增補在特定決策樹,爾後就是後續計算與參數估計和統計檢定的議題,這個方法剛看起來有些怪異,就像當初拔靴法(bootstrap)的估計法曾引起統計學界的爭議,因拔靴法的估計統計量可能不是不偏的(bootstraping may create a biased estimator),而隨機森林的基礎立論是大數法則與中央極限定理,從隨機森林所推演出的統計量,有時還是無法滿足不偏,有效,一致等統計學者以為需要達到的優良統計量準則,但確實補強不少過往統計學者以為決策樹學習發展的不足,或許是天妒英才, L. Breiman先生在西元2004年與世長辭。

  晚近機器學習最重要的方法,也確實是資訊學家發展長達五十年以上的方法是人工類神經網絡(ANN, Artificial Neural Network),這個方法的歷史久遠,可源自於1950年代的俄國研究者,爾後晚近因在強化學習與相關學習增強賞發展出具備記憶能力學習得到改進的突破性發展,使得此法功力大增,大家前一陣子見到的AlphaGo就是ANN的改良,不可否認的是這類方法是以人大腦運作為模擬與仿效的對象,目標確實就是取代人類,讓機器更像人,讓機器能模擬人的思考模式,進行各類資訊的判讀與辨識;這是資訊學者的重要貢獻,而非統計學者的貢獻!

  回頭談在非監督式學習方法中,經常使用到的多變量分析(multivariate analysis),這些研究與分類界定的方法,多為發展超過五六十年以上的老方法,大家常用的主成分分析(PCA, principal component analysis),主要找尋的是線性的關係,相對於回歸分析,找的是一個多聞度的線性組合平面,而衡量方式是用空間的實際資料點直接垂降的方式來衡量距離,以找出最佳的多維度平面或是直線,主成分分析找的也是直線或是多個維度的座標參考軸,只是衡量的方式是用空間中的實際資料點垂直連接到特定直線或平面上,以找出在這個直線上的所有垂直投射點,是否具備最大的變異量,如果確實,那這條就是第一個成分(the first principal component),爾後遵循此一原則找尋另一個與其第一成分直交或是斜交的直線,對其直線上垂直投射出來的點進行變異計算,判別其變異是否為第二大,以此類推直到找到足夠的成分,就能利用這些成分構成新的解釋空間,對於資料點進行更多的解釋與闡述,這樣的計算過程完全可以採用矩陣的方式來加以展現,因此在1940-1950年代時,美國知名的哥倫比亞大學裡的Hotelling先生等人就已將重要的數學推導推論出,爾後隨著電腦的發展,這些與主成分分析相關的延伸方法,其視覺化呈現也越加清晰,這裡就不得不提到J. Tuckey先生在1977年左右的巨著Exploratory Data Analysis(EDA),這是所有視覺化資訊分析的開始,爾後的故事,大家就都知道了!只是主成分分析(PCA)在機器學習中被歸類為非監督式學習(unsupervised machine learning),但對於統計的人來說,它只是重新界定座標軸,讓這些變數的線性組合能夠更清楚的表達相關特定的議題,以利後續的分析與實用,而對於統計學者來說,主成分分析主要的目標是在找尋變異與降低變異,讓變異的來源分成能夠被解釋與不能被解釋的,能被解釋的就是主成分,不能被解釋的就是殘差,很多統計學者可能不知道甚麼是非監督式學習,但卻非常了解主成分分析,因為它的發展歷史已經超過六十年以上!晚近社會科學學界的其他相關延伸,討論的是多個具有變異因子的線性方程式所組成的線性方城組,這樣的延伸有點類似類神經網絡的鋪陳,藉由一個又一個變數數的線性組合,來表達特定與界定特定的議題,這些方法也被歸類為非監督式的學習方法,因為最終的結果並無發從一開始就被歸類出來,都屬於資料替自己說話的型態,也屬於Data Dependent的機器學習模式。

 統計學習跟機器學習的不同,在於統計學習的方法大多為監督式的學習方法,對於最終的可能結果在學習之前就已經界定好,反觀晚近的機器學習有不少方法是屬於非監督式學習具記憶功能的增強式學習,這類方法對最終結果並未在學習之前就界定,而是讓資料替自己說話,最終結果是甚麼,端賴輸入的資料而定。不可否認的是,統計學習中還是有不少方法屬於非監督式的學習方法,很多無母數回歸的方法其實也多屬於無法在學習前就界定好最終結果者,但無母數回歸,相對於傳統的廣義線性回歸或所謂的監督式統計學習法,最大的不同點在於參數估計的靈活性,既未限定參數數量的使用,也未限定在特定的情境下可運用的參數數量,在計算與資料模型的配適上都比傳統母數回歸法是更有彈性的,這個觀念與監督或非監督式學習的定義大不相同,若以為監督式學習的參數數量需要事前決定,那無母數回歸的計算方法因為參數數量並未事前決定,確實比較類似非監督式學習,但與非監督是機器學習不同的是,無母數回歸估計法所採用的特定基本生成函數或是特定生成分配,還是在一開始就界定好,並非不可預測的,且為了防止不良的發展,通常都會針對特定最適化議題去設計懲罰函數(penalty function),目標當然是期望降低所需參數的多寡,藉由變異與有偏估計量的控制與交換(trade-off),來讓資料的配適與參數估計修正與改進,最終使得估算結果更為合理!

  十多年以前,在本地,統計諮詢在臺灣這個小島沒有甚麼市場!試問誰會花費很多錢請人幫忙進行相關統計諮詢?曾聽過心理學的專家談統計,也曾聽過醫學院的人談統計,這些人都認為統計只是工具並非一項專業,當然那是十多年前的事情,只是在臺灣,對統計專業的了解不夠,而生物統計在國內的發展,始終都是由醫師與相關能爭取到經費者主導,專業統計人員扮演的角色只是助理與建構模式的黑手,薪資固定且大部分相關的利潤是由計畫者所取得,專業統計者很難分享參與!再多的統計專業,都遠不如能主導計畫與爭取到可發展經費,這在國內非常不健康的統計諮詢市場中始終存在,這也使得在臺灣,統計始終都只是工具,只是回頭談,誰會質疑會計師所使用的會計不是專業?誰會質疑經濟學家的經濟理論並非專業?誰會質疑金融財務操作者的財務學理不是專業?但始終有一堆人質疑統計學家的統計專業!或許時代轉變,如今很多的機器學習方法過往都是由統計學家所發展,只是資工與資科者當然會刻意漠視,因此需要統計學家說明統計學習其實是諸多目前流行的機器學習背後執行時的思維與觀念,當機率出現在諸多機器學習計算中,統計學習才是其發展的根源!

  在國內,統計學與數學的掛勾,經常讓人搞不清楚統計與數學的不同,數學是邏輯推演的思辯過程,當邏輯走不通時,可以自己定義就能處理,但統計卻始終是處理實際問題,統計採用的研究方式是歸納而非演繹,統計對實際存在現象,只能找方法找相關與找真相不可能自己定義甚麼,統計經常被認為是沒辦法中的辦法,針對諸多難量測的事,不斷發展出各類衡量方式加以面對,這是很多數學背景的研究者所不能體會的,沒人因為物理用到很多數學,就說物理就是數學吧?!!統計其實也是如此,統計需要大量數學是無庸置疑的,但數學對統計來說,真的只是工具!國內統計學界的問題,始終在於統計的碩博士,並不具備商業方面的知識,甚至大學統計系所的學生,最終並不選擇統計碩士與博士學程作為後續的發展目標,因為大學裡面的統計課程有相當程度與碩士課程重疊,若是統計碩士課程走向更為數理的發展,對學生是負擔,而且也不太能讓學生考量到未來的就業議題,在全世界碩士學歷大幅度貶值的此時,統計領域必須更為應用與更具實用性,大數據的發展歷程中,可採用非常多統計方法,而這些方法都已經發展超過三十年以上的歷史,也已有二三十年的實際應用歷程可參考,對於統計領域者,必須更加善用計算機的運用與相關建模與模擬,這是統計學界必須持續發展的道路。

  回頭談統計學習,其實有人以為統計學習比較類似弱AI,但機器學習,特別是ANN的方法,比較像是強AI,強弱AI的界定方式在於最終機器是否能超越人類,自己學習成長並進行決策,或最終只是提供一些分類出來的準則與資料篩選的規則,其最後還是需要人們考量其計算結果來進行最終決策。

  從上述的論述當中,您應該不難發現筆者比較偏向統計學習,因統計學習的建模與計算,最終仍需人類來進行判讀與解釋,藉此做出決策,相對上即便計算能力再強,即便演算方法再聰明,最後還是需要人類來幫忙進行決策,最後結果還是可由人來掌握與掌控!但機器學習的改良式ANN,最終已超越人類並自行進行決策,那樣的決策是否影響人類,甚至做出甚麼危害人類群體的決策,即便那樣的規則是人一開始就界定出來的最適化準則,但最終結果仍....讓人擔心!

  晚近AlphaGO的發展展現出改良式ANN的長足進步,但別忘記...圍棋終究是一個能窮盡算法與布局的遊戲,機器只要透過強大運算,就能窮盡其最終的最適化,但在真實的人生中,所謂的輸贏,通常都是蓋棺論定,一時的最適化不代表永遠的最適化,在社會科學議題的最適化過程,永遠都是有保存期限賞味期,過了一段時間,人們回頭檢視,經常會發現過往想法的漏洞或不完整,但在當時卻是一個最適化的結果!由上述的論述,您不難發現社會科學與自然科學的不同,也應該能了解機器學習在社會科學議題上,確實受到沒有相關產業知識甚至是新產業知識更新的限制,過往以為適當的最適化函數與排程,在新議題與新目標函數的更新下,機器學習的目標在社會科學計算中有其自身時代性沒有產業的Know-how和產業的背景知識(domain konwledge),機器學習結果可能只是....笑話一場!

  晚近大數據的發展,其實也是如此,整合金融交易的借貸與支付,區塊鍊和電子支付的發展迅速,財務風險管理的需求與日俱增,統計學習在此對於特定企業與特定人的信用能力辨識,就變得重要且急切,但誠如前面所言,甚麼樣的風險管理方式與甚麼樣的風險管理原則設計,其實都具有自身的時代性,它只是一時,而非永久!在三十年前房價不高時,人的信用可能全由自身人力資本所產出的現金流量來界定,在今日房價高漲的年代,人擁有的資產價值或許反倒能完全決定人信用的多寡,這就是信用界定的時代性議題,而借貸與支付,最終還是要回歸能讓這個人借貸多少,能讓這個人使用多少的支付,信用風險管理議題的統計學習,其實也說明社會科學的最適化,取決於時代變動背後的真實考量!

  在統計學界中,過往發展超過二三十年的廣義線性模式與相關實際應用,甚至是遺傳基因演算法(Genetic Algorithm),這個方法也是統計學界學者發展出來,後來廣為生物醫學和資訊工程者加以運用,其實都已被整併成為統計學習的一環,這是晚近十五年統計學習的發展歷史,也是統計學界將過往四五十年所累積出來的知識展現,於是我們見到....統計學習這個學科的真實內涵!

  

arrow
arrow
    全站熱搜

    Vegetable 發表在 痞客邦 留言(0) 人氣()