日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能學術 正文
發(fā)私信給張大倩
發(fā)送

0

數據不夠,是模型表現不佳的“借口”,還是真正的問題所在?

本文作者: 張大倩 2020-06-22 10:26
導語:數據量真的是項目的限制因素嗎?

“如果我能獲得更多的訓練數據,我的模型精度就會大大提高”,“我們應該通過API獲得更多的數據”,“源數據質量太差,我們無法使用”。

這是很多工程師在模型表現不力時給出的一些解釋或者理由。

數據作為機器學習或分析項目的基礎,雖然現在擁有的可用數據比之前要多,但是數據不足或者數據類型不匹配等問題并不少見。

然而如何知道這些問題是真正的問題點還是僅僅是借口呢?換句話說,如何發(fā)現數據是否是項目的限制因素?

那就需要,查找數據瓶頸!

一般來說,主要可以從以下三個方面來調整數據:

  • 深度:增加數據點的數量

  • 廣度:增加數據源的多樣性

  • 高質量:整合混亂的數據!

數據不夠,是模型表現不佳的“借口”,還是真正的問題所在?

一:從數據深度上下功夫

這種方式不需要改變數據結構,而是新增數據點。

你不能一直控制數據點(例如:你不能輕易地新增用戶),但是至少可以在某些方面一直控制這個點。

在下面這幾個不同的情況下,增加數據量是很有用的。

1、A/B測試或實驗

如果你正在運行一個實驗,需要足夠的數據點來實現結果統(tǒng)計的意義,而需要多少個數據點,還受到其他因素的影響,例如:誤差范圍、置信區(qū)間和分布的方差。對于要進行的每一個實驗,都有一個最小數據量閾值:如果已經達到這個閾值,則可以繼續(xù)進行下一步,因為再增加數據點已經起不到任何作用了。否則,數據將會成為實驗的瓶頸。下面這篇博文對此進行了很好的概述:

https://towardsdatascience.com/how-do-you-know-you-have-enough-training-data-ad9b1fd679ee

2、機器學習中的預測精度

如果你正在運行的是一個預測模型,預測精度會隨著數據量的增加而提高,但是這個精度會達到某個“飽和”點,如何去發(fā)現是否已經達到這樣的一個點呢?你可以用不同數量的訓練數據點來重新訓練模型,然后根據數據量繪制預測精度。如果曲線沒有變平,則模型可能從額外增加的數據進一步受益。

數據不夠,是模型表現不佳的“借口”,還是真正的問題所在?

來源:Kim 和 Park 在 researchgate 上發(fā)表的文章

https://www.researchgate.net/publication/228784109_A_Survey_of_Applications_of_Artificial_Intelligence_Algorithms_in_Eco-environmental_Modelling)

3、賦能深度學習

雖然傳統(tǒng)的機器學習模型可以在較小的數據量下運行,但是模型越復雜,它需要的數據量就越多,到最后,如果沒有大量的數據作為支撐,深度學習模型就無法運行。對機器學習模型來說,大數據是一種需求,而不是提高性能的好方法。

4、分析和思路

即使你沒有將數據用于預測,但是想要豐富報告或者進行一次分析來證實你的決策,數據量仍然有可能會成為預測的瓶頸。不過如果你的數據具備許多異構性,并且你還能夠從不同的粒度層級上對其進行分析,增加數據量便是正確的做法。例如你有一個龐大的銷售隊伍,銷售的產品范圍非常寬泛,每一個銷售人員可能只銷售產品中的一個子集。如果你想比較他們在銷售某一特定產品方面的能力,可能就無從比較了。

二:從數據廣度上下功夫

數據的多樣性是關鍵,但就經驗而言,這方面的數據也常常被高估。

我之前有一份工作:便是在一家初創(chuàng)公司用機器學習做房價預測。我們的戰(zhàn)略優(yōu)勢是擁有各種各樣的數據,因此可以整合所有可能的數據資源,以幫助對房地產進行預測。

而提高模型的預測能力的關鍵,就在于確定要獲取哪些數據資源。

如何評估獲取新數據的成本與收益?數據不夠,是模型表現不佳的“借口”,還是真正的問題所在?

我們需要從兩個關鍵點對新數據的收益進行評估:新數據與我們試圖預測的目標變量的相關性是什么(希望盡可能高),新數據與已有數據的相關性是什么(希望盡可能少)。但是,這并不容易定量分析,但是一些定性的判斷可以幫助我們篩選出最合適我們的新數據。

評估新數據的成本可以看作是擁有數據的總成本。有時,購買數據或支付API會產生實際成本,但這只是其中的一部分。往往如下這些因素才是最需要考慮的:

  • 一次性獲取 vs 反復獲取

  • 數據轉換和存儲的復雜性

  • 數據質量和數據清理的需求

  • 數據處理和解析

三:提高數據質量

哈佛大學教授Xiao-Li Meng曾做過一個非常鼓舞人心的演講,他提到:“數據質量遠比數據數量重要”。

這個演講的美妙之處在于,他能夠用數學方法量化這句話,觀察數據質量或數量的統(tǒng)計度量。

觀看演講地址:https://www.youtube.com/watch?v=8YLdIDOMEZs

我的商業(yè)經驗也反映了這一點:通常情況下,公司往往在獲取或合并更多的數據前,并沒有先分析當前現有數據是否已足夠。

數據質量經常是一個問題,而且還是一個大問題。這個問題可能是由于手工輸入錯誤、原始數據的不準確性、聚合或處理層中的問題、某段時間內數據丟失等原因造成的。

提高數據質量,是一個需要花費大量時間并且很無趣的工作,但是它也可以給我們帶來最有益的的結果。

四:總結

如果模型表現不佳確實存在數據瓶頸,那就試著找出瓶頸在哪里??偠灾梢詮倪@三個方面入手:

第一,數據量的問題往往可以通過簡單的統(tǒng)計顯著性或準確性曲線來檢驗識別。如果這不是問題所在,那就繼續(xù)進行下一步。

第二,根據我的經驗,我們所擁有的數據的多樣性往往被夸大,這并不是因為新數據沒有用處,而是因為新數據資源可能已經包含了以某種方式捕獲的信息,特別是在已經有了一個相對豐富的數據集的情況下。

第三,數據質量是關鍵,關注更小、更干凈的數據集比關注更大、更混亂的數據集要好得多。

via  https://towardsdatascience.com/do-you-have-enough-data-87e31191f932  雷鋒網雷鋒網雷鋒網

雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。

數據不夠,是模型表現不佳的“借口”,還是真正的問題所在?

分享:
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說