新聞中心

        EEPW首頁 > 智能計算 > 設計應用 > 隨機過程在數據科學和深度學習中有哪些應用?

        隨機過程在數據科學和深度學習中有哪些應用?

        作者:雷鋒字幕組 時間:2019-08-20 來源:雷鋒網 收藏
        編者按:機器學習的主要應用之一是對隨機過程建模。

        隱馬爾科夫模型

        本文引用地址:http://www.104case.com/article/201908/403911.htm

        隱馬爾可夫模型都是關于認識序列信號的。它們在數據科學領域有大量應用,例如:

        ●計算生物學。

        ●寫作/語音識別。

        ●自然語言處理(NLP)。

        ●強化學習

        HMMs是一種概率圖形模型,用于從一組可觀察狀態預測隱藏(未知)狀態序列。

        這類模型遵循馬爾可夫過程假設:

        “鑒于我們知道現在,所以未來是獨立于過去的"

        因此,在處理隱馬爾可夫模型時,我們只需要知道我們的當前狀態,以便預測下一個狀態(我們不需要任何關于前一個狀態的信息)。

        要使用HMMs進行預測,我們只需要計算隱藏狀態的聯合概率,然后選擇產生最高概率(最有可能發生)的序列。

        為了計算聯合概率,我們需要以下三種信息:

        ●初始狀態:任意一個隱藏狀態下開始序列的初始概率。

        ●轉移概率:從一個隱藏狀態轉移到另一個隱藏狀態的概率。

        ●發射概率:從隱藏狀態移動到觀測狀態的概率

        舉個簡單的例子,假設我們正試圖根據一群人的穿著來預測明天的天氣是什么(圖5)。

        在這種例子中,不同類型的天氣將成為我們的隱藏狀態。晴天刮風下雨和穿的衣服類型將是我們可以觀察到的狀態(如,t恤、長褲和夾克)。初始狀態是這個序列的起點。轉換概率,表示的是從一種天氣轉換到另一種天氣的可能性。最后,發射概率是根據前一天的天氣,某人穿某件衣服的概率。

        圖5:隱馬爾可夫模型示例[6]

        使用隱馬爾可夫模型的一個主要問題是,隨著狀態數的增加,概率和可能狀態的數量呈指數增長。為了解決這個問題,可以使用維特比算法。

        如果您對使用HMMs和生物學中的Viterbi算法的實際代碼示例感興趣,可以在我的Github代碼庫中找到它。

        的角度來看,觀察值組成了我們的訓練數據,隱藏狀態的數量組成了我們要調優的超參數。

        中HMMs最常見的應用之一是agent-based情景,如強化學習(圖6)。

        圖6:強化學習[7]中的HMMs

        高斯過程

        高斯過程是一類完全依賴自協方差函數的平穩零均值隨機過程。這類模型可用于回歸和分類任務。

        高斯過程最大的優點之一是,它們可以提供關于不確定性的估計,例如,給我們一個算法確定某個項是否屬于某個類的確定性估計。

        為了處理嵌入一定程度上的不確定性的情況,通常使用概率分布。

        一個離散概率分布的簡單例子是擲骰子。

        想象一下,現在你的一個朋友挑戰你擲骰子,你擲了50個trows。在擲骰子公平的情況下,我們期望6個面中每個面出現的概率相同(各為1/6)。如圖7所示。

        圖7:擲骰子公平的概率分布

        無論如何,你玩得越多,你就越可以看到到骰子總是落在相同的面上。此時,您開始考慮骰子可能是不公平的,因此您改變了關于概率分布的最初信念(圖8)。

        圖8:不公平骰子的概率分布

        這個過程被稱為貝葉斯推理。

        貝葉斯推理是我們在獲得新證據的基礎上更新自己對世界的認知的過程。

        我們從一個先前的信念開始,一旦我們用全新的信息更新它,我們就構建了一個后驗信念。這種推理同樣適用于離散分布和連續分布。

        因此,高斯過程允許我們描述概率分布,一旦我們收集到新的訓練數據,我們就可以使用貝葉斯法則(圖9)更新分布。

        圖9:貝葉斯法則[8]

        自回歸移動平均過程

        自回歸移動平均(ARMA)過程是一類非常重要的分析時間序列的隨機過程。ARMA模型的特點是它們的自協方差函數只依賴于有限數量的未知參數(對于高斯過程是不可能的)。

        縮略詞ARMA可以分為兩個主要部分:

        ●自回歸=模型利用了預先定義的滯后觀測值與當前滯后觀測值之間的聯系。

        ●移動平均=模型利用了殘差與觀測值之間的關系。

        ARMA模型利用兩個主要參數(p, q),分別為:

        ●p=滯后觀測次數。

        ●q=移動平均窗口的大小。

        ARMA過程假設一個時間序列在一個常數均值附近均勻波動。如果我們試圖分析一個不遵循這種模式的時間序列,那么這個序列將需要被差分,直到分割后的序列具有平穩性。

        參考文獻

        [1] M C Escher, “Smaller and Smaller” — 1956. https://www.etsy.com/listing/288848445/m-c-escher-print-escher-art-smaller-and

        [2]  中大數定律的簡要介紹。Machine Learning Mastery, Jason Brownlee. https://machinelearningmastery.com/a-gentle-introduction-to-the-law-of-large-numbers-in-machine-learning/

        [3]  正態分布,二項分布,泊松分布 , Make Me Analyst. http://makemeanalyst.com/wp-content/uploads/2017/05/Poisson-Distribution-Formula.png

        [4] 通用維基百科. Accessed at: https://commons.wikimedia.org/wiki/File:Random_walk_25000.gif

        [5]  數軸是什么?Mathematics Monste. https://www.mathematics-monster.com/lessons/number_line.html

        [6] 機器學習算法: SD (σ)- 貝葉斯算法. Sagi Shaier, Medium. https://towardsdatascience.com/ml-algorithms-one-sd-%CF%83-bayesian-algorithms-b59785da792a

        [7]  DeepMind的正在自學跑酷,結果非常令人驚訝。The Verge, James Vincent. https://www.theverge.com/tldr/2017/7/10/15946542/deepmind-parkour-agent-reinforcement-learning

        [8]  為數據科學專業人員寫的強大的貝葉斯定理介紹。KHYATI MAHENDRU, Analytics Vidhya. Accessed at: https://www.analyticsvidhya.com/blog/2019/06/introduction-powerful-bayes-theorem-data-science/

        via https://towardsdatascience.com/stochastic-processes-analysis-f0a116999e4

        本文轉自雷鋒網,如需轉載請至雷鋒網官網申請授權。

        原文章地址為隨機過程在數據科學和深度學習中有哪些應用?


        上一頁 1 2 下一頁

        評論


        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 西昌市| 琼结县| 大厂| 封丘县| 保亭| 松滋市| 北票市| 秭归县| 尼玛县| 克拉玛依市| 巴中市| 普宁市| 措美县| 古浪县| 合水县| 大邑县| 日土县| 民县| 嘉定区| 安泽县| 华池县| 宜昌市| 伊春市| 容城县| 崇州市| 宽城| 南安市| 曲阳县| 信阳市| 漾濞| 利津县| 民乐县| 二连浩特市| 澄城县| 故城县| 南汇区| 应城市| 孟村| 沙雅县| 镇安县| 泽普县|