日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能開發(fā)者 正文
發(fā)私信給美圖數(shù)據(jù)技術團隊
發(fā)送

0

科普 | 貝葉斯概率模型一覽

本文作者: 美圖數(shù)據(jù)技術團隊 2018-08-02 15:56
導語:貝葉斯學派和概率學派在小數(shù)據(jù)量的場景下的推論結果常常是有一定區(qū)別的,因此它有存在的必要。

雷鋒網(wǎng)按:本文出自美圖數(shù)據(jù)研究院

什么是貝葉斯概率模型?

機器學習狹義上是指代統(tǒng)計機器學習,如圖 1 所示,統(tǒng)計學習根據(jù)任務類型可以分為監(jiān)督學習、半監(jiān)督學習、無監(jiān)督學習、增強學習等。

科普 | 貝葉斯概率模型一覽

圖 1

在每類任務中,又可以將各類模型歸結為概率模型和非概率模型,以下以監(jiān)督學習為例說明。

概率模型(生成模型)通過函數(shù) F 來描述 X 和 Y 的聯(lián)合概率或者條件概率分布,如 P(X|Y);非概率模型(判別模型)通過函數(shù) F 來直接描述 X 到 Y 的映射,如 Y=f(X)。判別模型的優(yōu)化目標五花八門,但都符合人類認知;而在概率模型中,所有模型的優(yōu)化目標是統(tǒng)一的,即最大化觀測數(shù)據(jù)在概率模型中出現(xiàn)的概率。這兩者在部分模型表現(xiàn)形式上又可以互相解釋,如神經網(wǎng)絡等。

貝葉斯概率模型的誕生

所有概率模型描述的都是在系統(tǒng)參數(shù) w 下觀測變量對 X,Y 的聯(lián)合概率分布或條件概率分布,即 P(Y,X|w) 。設計好概率模型后,剩下的問題就是如何通過大量的觀測數(shù)據(jù)來決定參數(shù) w, 這時出現(xiàn)了貝葉斯理論。

頻率學派主張大數(shù)定律,對參數(shù)的最佳選擇是使觀測變量概率最大的值;而貝葉斯學派提出了貝葉斯公式和主觀概率,他們認為參數(shù)可以是一個分布,并且最初可以通過主觀經驗設置。頻率學派的人對此是無法接受的,他們認為參數(shù)應該是一個確定的值不應該有隨機性。

舉個例子,有個檢測太陽是否爆炸的探測器,它有 0.3 左右的概率撒謊。當探測器說出太陽爆炸時,兩個學派的人答案是不一樣的。

科普 | 貝葉斯概率模型一覽

圖 2

如圖 3 所示這里太陽的狀態(tài)是系統(tǒng)參數(shù) w,探測器回答是觀測變量 data。以頻率學派的理論來討論,如果參數(shù)只能是一個確定的值,那么應該選取出錯概率最小的那個參數(shù),那太陽應該是爆炸了;如果以貝葉斯學派來討論,將參數(shù)視為分布,并根據(jù)我們的經驗賦予先驗,得到的后驗認為太陽應該是沒有爆炸的,只有當探測器多次回答「yes」,后驗分布才會相信太陽爆炸了。

科普 | 貝葉斯概率模型一覽

圖 3

貝葉斯學派和概率學派在小數(shù)據(jù)量的場景下的推論結果常常是有一定區(qū)別的,因此它有存在的必要。

構建貝葉斯概率模型

接下里通過構建貝葉斯概率模型案例直觀地感受貝葉斯概率模型的核心概念、構建思想和優(yōu)勢。

CKF(Collaborative Kalman filter)

科普 | 貝葉斯概率模型一覽

圖 4

如圖 4 所示,這種基于頻率學派模型存在兩個比較大的缺陷:

  • 無法增量訓練。理論上每新增一條用戶行為,模型就要重新估計一遍參數(shù);

  • 無法處理用戶興趣漂移。粗暴的做法是設置時間衰減,但是衰減的函數(shù)和力度都需要人工把握,模型對超參數(shù)很敏感,而且每個用戶的興趣漂移能力應該是不同的,這點無法建模。

根據(jù)以上提到的兩大缺陷,通過貝葉斯將該模型進行改造。首先將參數(shù)都變成分布的,把用戶向量 u 和物品向量 w 都賦予維納過程:

科普 | 貝葉斯概率模型一覽

給 u 和 w 賦予一個方差很大的先驗分布。輸入數(shù)據(jù)時計算后驗。將后驗通過維納過程得到下一刻的先驗:

科普 | 貝葉斯概率模型一覽

每個用戶的興趣漂移能力不同:

科普 | 貝葉斯概率模型一覽

*這里通過維納過程算下一刻先驗,實質上在上一刻后驗的基礎上加一個方差 α。從而保證狀態(tài)始終有一個漂移能力,如果這個 α 等于 0,就會出現(xiàn)隨著推理的進行 u 的分布只會越來越集中,這樣即便后面用戶興趣漂移了,由于先驗分布集中,似然函數(shù)無法調整。所以這里的 α 控制的是興趣漂移的能力。

再設一層概率分布,令 α 也為一個維納過程,讓每個用戶的興趣漂移能力可以自適應去調整和變化:

科普 | 貝葉斯概率模型一覽

經過貝葉斯改造之后,CFK 模型有以下優(yōu)勢:

  • 訓練過程中是增量進行的;

  • 無參化,數(shù)據(jù)越來越多時,后驗方差會越來越小,分布越來越集中,實現(xiàn)先驗與數(shù)據(jù)的自動權衡;

  • 漂移參數(shù)自適應,當用戶興趣發(fā)生漂移時,狀態(tài)會跟隨著漂移。

Bayesian Neural Networks

Bayesian Neural Networks 是指通過后驗推理擴展標準網(wǎng)絡。通過優(yōu)化標準神經網(wǎng)絡訓練(從概率學派的角度來看)等同于權重的最大似然估計。

科普 | 貝葉斯概率模型一覽

圖 5

它存在以下三大缺陷:

  • 無法增量訓練;

  • 網(wǎng)絡結構等需要超參數(shù)設置;

  • 無法衡量預測不確定性。

科普 | 貝葉斯概率模型一覽

針對以上問題的解決方案是引入正則化,從貝葉斯學派的角度來看,這相當于在權重上引入先驗。從概率學派的角度來看這不是正確的做法,盡管它在實踐中確實很有效。改造后它有以下優(yōu)勢:

  • 可以進行增量訓練;

  • 非參數(shù)模型,無參并非沒有超參數(shù),而是把超參數(shù)隱藏到更深層,以達到更弱的參數(shù)敏感性;

  • 可以刻畫預測的不確定性;

  • 先驗與數(shù)據(jù)自動權衡。

如何更新模型?

變分推理 Variational inference

問題描述:觀測變量 X={x1,x2,……,xn},  隱變量 Z={z1,z2,……zm},已知 P(X,Z) 或 P(X | Z),求后驗分布 P(Z | X)。由于后驗分布有時很難獲得解析解,在受限制函數(shù)空間中搜索與后驗分布函數(shù)近似的函數(shù),這里需要一個函數(shù)相似性的度量(泛函):

科普 | 貝葉斯概率模型一覽

那么如何獲得近似解 q(Z) 呢?

Step 1: 通過調整 q(Z), 最小化 q(Z) 與 后驗 p(Z|X) 的 KL 散度 KL(q||p)

科普 | 貝葉斯概率模型一覽

Step 2: 將最小優(yōu)化散度 KL(q||p)的問題轉化為最大化 L(q)


科普 | 貝葉斯概率模型一覽

*MinKL(q||p) 等價于 MaxL(q)

考慮概率分布 q(Z)是受限制的類別,我們的?標是充分限制 q(Z)可以取得的概率分布的類別范圍,使得這個范圍中的所有概率分布都是可以處理的概率分布。同時還要使得這個范圍充分?、充分靈活,從?它能夠提供對真實后驗概率分布的?個?夠好的近似。

Step 3: 利用平均場理論限制函數(shù)空間,將 q(Z)簡化為互不相關的幾個組:

科普 | 貝葉斯概率模型一覽

Step 4: 將分組簡化后的q(Z)代入以上公式,將其它組視為常來,輪流優(yōu)化

科普 | 貝葉斯概率模型一覽

所有模型的變分推理,都是在交替計算該公式。該公式與模型無關,當對 P(X,Z)賦予具體形式,便可算出 q 的更新公式:

科普 | 貝葉斯概率模型一覽

在對 q(Z)分組的原則及 q(Z)函數(shù)族的選取原則有兩個小建議:

科普 | 貝葉斯概率模型一覽

1.在概率模型中同一層次的隱變量分在一組,在算積分的時候可以使其它層次的對應的條件概率因為不含有改組內的變量而被當做常量,不需計算。

2.q(Z) 的函數(shù)族選取條件分布的共軛分布族,在計算期望的積分時需要建條件分布與 q(z)相乘,選取條件分布的共軛分布族保證相乘完的形式還是原來的簡單形式。

概率反向傳播 Probabilistic Backpropagation

概率反向傳播是貝葉斯神經網(wǎng)絡的更新方式,已知:

科普 | 貝葉斯概率模型一覽

求后驗分布 q(ω,Υ,λ)。

Step 1:利用 KL 逼近 w 的后驗

w 的后驗分布可以寫成科普 | 貝葉斯概率模型一覽,其中 f(w)是與 w 相關的似然,設待求后驗為高斯分布科普 | 貝葉斯概率模型一覽。

在算關于 w 的后驗過程中,不含有 w 的函數(shù)部分都可以看成常數(shù)忽略掉。因為 w 與另外兩個方差 γ 和 λ 在不同層次,所以 f(w)中不含有這兩個參數(shù)。

*這里雖然是搜索最優(yōu)函數(shù),但因為限制了函數(shù)空間的形式,所以其實是在搜索最優(yōu)參數(shù) m 和 v

通過最小化 KL 散度 KL(q^new||s),可以得到直接得到如下的最優(yōu)值:

科普 | 貝葉斯概率模型一覽

一般來講這里需使用變分推理,是因為這里的 Z 比較難求(需要求這個積分):

科普 | 貝葉斯概率模型一覽

但是這里通過 Z 的近似形式來替代,它約等于最后一層神經元響應的分布:

科普 | 貝葉斯概率模型一覽

Step 2:前向傳播,得到 Z^L 的均值和方差

前向過程本質上是一個概率分布的傳播過程,但是由于都是高斯分布,所以可以簡化成分布參數(shù)的傳播過程。

科普 | 貝葉斯概率模型一覽

Step 3:利用該公式反向傳播,更新參數(shù)

科普 | 貝葉斯概率模型一覽

最后 Z 將變成含有各層參數(shù)的高斯函數(shù),從而可以進行反向梯度計算并更新各層分布的參數(shù),這樣就解決了貝葉斯神經網(wǎng)絡的模型更新問題。

本文主要介紹了機器學習中的概率模型及貝葉斯理論在概率模型中的應用,這也是人工智能目前比較活躍的方向,相信會有越來越多的工作在這方面進行探索,期待新的發(fā)展。我們也會把貝葉斯神經網(wǎng)絡應用于實際的業(yè)務中,后續(xù)的文章中將會與各位交流一些實踐經驗。

雷峰網(wǎng)特約稿件,未經授權禁止轉載。詳情見轉載須知。

科普 | 貝葉斯概率模型一覽

分享:
相關文章

知情人士

嗯,美圖的數(shù)據(jù)都是我的
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說