日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能開發(fā)者 正文
發(fā)私信給三川
發(fā)送

0

無監(jiān)督聚類問題中,如何決定簇的最優(yōu)數(shù)量?

本文作者: 三川 2017-05-15 18:20
導語:聚類問題有一大經(jīng)典難題:沒有 ground truth ,我們怎么才能知道數(shù)據(jù)簇的最優(yōu)數(shù)目?

雷鋒網(wǎng)按:聚類問題有一大經(jīng)典難題:沒有數(shù)據(jù)集的真實分類情況,我們怎么才能知道數(shù)據(jù)簇的最優(yōu)數(shù)目?

本文會談談解決該問題的兩種流行方法:elbow method(肘子法)和 silhouette method。

在監(jiān)督學習里,某特定數(shù)據(jù)集的類(class)的數(shù)量,在一開始就是知道的——每個數(shù)據(jù)實例,都被標記歸屬于某個類。最壞的情況下,我們還可以盤查類屬性( class attribute),計算其中包含的獨特元素。

無監(jiān)督聚類問題中,如何決定簇的最優(yōu)數(shù)量?

但在無監(jiān)督學習里,類屬性或者明確的類成員劃分是不存在的。想想也是,無監(jiān)督學習的一個主要形式,就是數(shù)據(jù)聚類。它的目標是通過最小化不同類之間的實例相似度、最大化同個類中的實例相似度,來進行大致的類成員劃分。

眾所周知,聚類問題有一個很大的技術難題——不管是以什么形式,開發(fā)者需要在一開始,就給出無標記數(shù)據(jù)集中的類的數(shù)目。足夠幸運的話,你或許事先就知道數(shù)據(jù)的 ground truth——類的真實數(shù)目。但情況并不會總是如此。譬如說,或許數(shù)據(jù)中不存在定義明確的類(簇)。而無監(jiān)督學習本來的意義,便是探索數(shù)據(jù),找出使簇、類得數(shù)目達到最優(yōu)的結構。

這就回到了文章開頭的問題:不知道  ground truth 的情況下,怎么才能知道數(shù)據(jù)簇的最優(yōu)數(shù)目是多少?這方面,倒是已經(jīng)林林總總有相當多的處理方法。本文會討論其中應用極廣泛的兩種方法。第一種,是 Elbow Method。

Elbow Method

elbow method 是上手首選,由于能通過可視化便利地解釋、驗證,它的用處很大。它用關于簇數(shù)目的函數(shù)來解釋方差(k-means 里的 k)。它會繪制出能被 k 解釋的方差的比例。第一批的 N 個簇應當會為解釋方差添加大量信息。但是,有些 k 最終值會導致少得多的信息增量。這時,數(shù)據(jù)圖會有明顯的角度。該角度就是簇的最優(yōu)數(shù)量。

雷鋒網(wǎng)提醒,有一點應該是不言而喻、無須解釋的:為了按照不同的簇數(shù)量繪制方差,需要對不同數(shù)目的簇進行測試。在繪制、比較結果之后,必須要有該聚類方法的成功、完整地迭代。

無監(jiān)督聚類問題中,如何決定簇的最優(yōu)數(shù)量?

Silhouette Method

Silhouette method 會衡量對象和所屬簇之間的相似度——即內(nèi)聚性(cohesion)。當把它與其他簇做比較,就稱為分離性(separation)。該對比通過 silhouette 值來實現(xiàn),后者在 [-1, 1] 范圍內(nèi)。Silhouette 值接近 1,說明對象與所屬簇之間有密切聯(lián)系;反之則接近 -1。若某模型中的一個數(shù)據(jù)簇,生成的基本是比較高的 silhouette 值,說明該模型是合適、可接受的。

無監(jiān)督聚類問題中,如何決定簇的最優(yōu)數(shù)量?

via kdnuggets;雷鋒網(wǎng)編譯


深度學習之神經(jīng)網(wǎng)絡特訓班

20年清華大學神經(jīng)網(wǎng)絡授課導師鄧志東教授,帶你系統(tǒng)學習人工智能之神經(jīng)網(wǎng)絡理論及應用!

課程鏈接:http://www.mooc.ai/course/65

加入AI慕課學院人工智能學習交流QQ群:624413030,與AI同行一起交流成長


相關文章:

機器學習算法實踐 K均值聚類的實用技巧

雷峰網(wǎng)版權文章,未經(jīng)授權禁止轉載。詳情見轉載須知。

無監(jiān)督聚類問題中,如何決定簇的最優(yōu)數(shù)量?

分享:
相關文章

用愛救世界
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說