日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給DonFJ
發(fā)送

0

評(píng)價(jià)指標(biāo)為何如此必要?有哪些設(shè)計(jì)之道?

本文作者: DonFJ 2020-06-06 16:52
導(dǎo)語(yǔ):數(shù)據(jù)科學(xué)項(xiàng)老炮兒聊評(píng)價(jià)指標(biāo)的必要性和設(shè)計(jì)之道~

生逢這個(gè)效率和利益無(wú)比珍貴的時(shí)代,萬(wàn)事萬(wàn)物都需要準(zhǔn)確的“評(píng)價(jià)”和“度量”。就像看到一幅油畫,我們會(huì)評(píng)估它的筆觸;入手一款香水,我們會(huì)品味它的前中后調(diào);交往一位異性,我們會(huì)感受ta的溫柔、曲線或棱角(是的?。?。甚至是對(duì)于自身,我們也有著一系列的度量方法和評(píng)價(jià)指標(biāo)。

這些指標(biāo)定量地描述了世界,理性地構(gòu)成了我們對(duì)于所處環(huán)境和所遇事物的認(rèn)知。它們是世間萬(wàn)物的影子,是我們洞悉世界的鏡頭,也是監(jiān)督和改變目標(biāo)事物的方式。

本文作者作為在幾十個(gè)數(shù)據(jù)科學(xué)項(xiàng)目上戰(zhàn)斗了好幾年的老炮兒,希望通過(guò)這篇文章跟大家聊聊他心中的“評(píng)價(jià)指標(biāo)設(shè)計(jì)之道”。

簡(jiǎn)單來(lái)說(shuō),他認(rèn)為評(píng)價(jià)指標(biāo)的設(shè)計(jì)共有5個(gè)關(guān)鍵點(diǎn):代價(jià)成本、簡(jiǎn)潔性、可信性、準(zhǔn)確性和因果相關(guān)性。它們之間的權(quán)衡與取舍決定了所設(shè)計(jì)的評(píng)價(jià)指標(biāo)的側(cè)重方向,它們也是評(píng)價(jià)指標(biāo)的設(shè)計(jì)過(guò)程中最核心的考慮因素。

評(píng)價(jià)指標(biāo)為何如此必要?有哪些設(shè)計(jì)之道?

一、評(píng)價(jià)指標(biāo)的重要性

無(wú)數(shù)個(gè)日夜里,我都在思考著“評(píng)價(jià)指標(biāo)”這個(gè)神奇的家伙。我覺(jué)得評(píng)價(jià)指標(biāo)和對(duì)應(yīng)的度量方法是構(gòu)成現(xiàn)代科學(xué)的基礎(chǔ),也是促進(jìn)現(xiàn)代社會(huì)、政策和商業(yè)等領(lǐng)域發(fā)展的關(guān)鍵技術(shù)。舉例來(lái)說(shuō),人類的航海和遠(yuǎn)征事業(yè)一直受到時(shí)間記錄方法的限制,直到我們發(fā)明了更加精準(zhǔn)的時(shí)間記錄方法之后,人類才能繪制出整個(gè)大陸乃至世界的恢弘地圖;再例如天文學(xué)原本長(zhǎng)期處于牛郎織女和圣斗士星矢的神話水平,直到十分系統(tǒng)的天文觀測(cè)記錄技術(shù)才為其帶來(lái)了革命性的進(jìn)步;而在流行病學(xué)領(lǐng)域,也只有當(dāng)約翰斯諾用筆建立了霍亂病人傳播的擴(kuò)散圖時(shí),人們才明白這場(chǎng)攪得大英帝國(guó)天翻地覆的傳染病是由水源引起的。正所謂工欲善其事必先利其器,只有當(dāng)我們對(duì)所研究問(wèn)題構(gòu)建起正確的記錄方法和衡量方法,其本質(zhì)和內(nèi)在規(guī)律才能夠被剖析出來(lái),人們也才能有的放矢地對(duì)其進(jìn)行研究并加以解決。

評(píng)價(jià)指標(biāo)對(duì)于現(xiàn)代科學(xué)有多重要呢,請(qǐng)看這里

時(shí)間記錄方式之于遠(yuǎn)征事業(yè)的影響請(qǐng)戳這里

系統(tǒng)的天文記錄技術(shù)之于天文學(xué)的影響看看吧

約翰斯諾的霍亂傳播地圖

曾幾何時(shí),集體投資是個(gè)玄學(xué)。面對(duì)金融界風(fēng)云莫測(cè)的時(shí)局以及浩如星海的商海變數(shù),人們往往無(wú)法準(zhǔn)確鎖定投資目標(biāo)。但是當(dāng)人們建立了合理的評(píng)價(jià)和測(cè)量標(biāo)準(zhǔn),投資人就只需要將注意力放在選定尺度上的那些特定屬性上,大大提高了投資的成功率。當(dāng)然也正是因此,我們也才能創(chuàng)造出高效的分布式感知系統(tǒng)(Distributed Perceptual System)。度量和評(píng)價(jià)指標(biāo)正在逐漸成為我們生活的一部分,當(dāng)我們跟朋友聊起正在發(fā)生的事情的時(shí)候,當(dāng)我們根據(jù)當(dāng)前形勢(shì)進(jìn)行決策的時(shí)候,度量跟評(píng)價(jià)標(biāo)準(zhǔn)都會(huì)高頻率的出現(xiàn)在我們的語(yǔ)言之中。它潛移默化的影響著我們。

其實(shí)說(shuō)起度量方法和評(píng)價(jià)指標(biāo),它最厲害的地方在于能對(duì)目標(biāo)內(nèi)部組織的協(xié)調(diào)過(guò)程進(jìn)行量化和描述。在生活中,我們會(huì)對(duì)自己所珍視和關(guān)注的事物格外關(guān)心;而在研究和建模時(shí),我們也應(yīng)小心地選擇和設(shè)計(jì)度量方法和評(píng)價(jià)標(biāo)準(zhǔn)。就好像在爬山的時(shí)候,我們會(huì)根據(jù)山丘的拓?fù)浣Y(jié)構(gòu)(其實(shí)就是陡峭程度啦)和y標(biāo)度(y-scale)來(lái)選擇較易攀爬的路線。但僅僅這樣是不夠的,我們還應(yīng)同時(shí)將各種風(fēng)險(xiǎn)和不利因素(濕滑程度、巖石風(fēng)化程度等等)考慮進(jìn)去,綜合形成一套統(tǒng)一的登山路線度量方式和評(píng)價(jià)指標(biāo)。我們希望這個(gè)指標(biāo)既能夠?qū)τ欣谂实堑囊蛩剡M(jìn)行正向的表示,也能夠?qū)Σ焕谂实堑奈kU(xiǎn)因素進(jìn)行負(fù)值編碼。

二、評(píng)價(jià)指標(biāo)的五大要素

在設(shè)計(jì)一個(gè)評(píng)價(jià)指標(biāo)的時(shí)候,我們一定要時(shí)刻銘記5個(gè)關(guān)鍵點(diǎn):代價(jià)成本、簡(jiǎn)潔性、可信性、準(zhǔn)確性和因果相關(guān)性。對(duì)于這幾個(gè)關(guān)鍵點(diǎn)的提升能夠直接幫助后續(xù)產(chǎn)品的改進(jìn)、用戶體驗(yàn)的提升,也能幫我們?cè)诟鞣N左右為難的權(quán)衡局面中做出合理和自然的取舍。當(dāng)然了,這5個(gè)關(guān)鍵點(diǎn)不僅用于商業(yè)和數(shù)學(xué)場(chǎng)景,也能應(yīng)用于其他領(lǐng)域中。在本文中,因?yàn)槲业睦媳拘惺钱a(chǎn)品開發(fā),所以在介紹中會(huì)更多的以統(tǒng)計(jì)和因果特性角度對(duì)這5個(gè)問(wèn)題進(jìn)行描述。

代價(jià)與成本

咱們先從代價(jià)和成本說(shuō)起,因?yàn)樗鼈兪窃u(píng)價(jià)指標(biāo)中最容易被忽略的方面。俗話說(shuō),有錢能使鬼推磨。只要你有錢、愿意付出足夠的“成本”和“代價(jià)”,那這個(gè)世界上幾乎任何事都能被量化和評(píng)估出來(lái)。這個(gè)“代價(jià)”或者“成本”可能是錢、可能是時(shí)間、可能是員工時(shí)間、用戶時(shí)間(就是占用用戶時(shí)間讓他們做特定事情)、計(jì)算量或者技術(shù)和債權(quán)等等。在研究問(wèn)題時(shí),當(dāng)我們考慮成本因素時(shí),便自然而然地需要對(duì)所研究事物的決策進(jìn)行一定的權(quán)衡和取舍了。但是據(jù)我觀察,人們?cè)谠O(shè)計(jì)度量方法的時(shí)候,總是喜歡使用包含人類主觀標(biāo)記信息、用戶調(diào)查報(bào)告或者外源性的數(shù)據(jù)集。不是說(shuō)不好,而是這些信息源都會(huì)給評(píng)價(jià)標(biāo)準(zhǔn)的設(shè)計(jì)引入大量的復(fù)雜性、延遲和誤差,我們稱之為“噪聲”。

雖然在我們的印象中,代價(jià)和成本通常是一個(gè)固定的、有限制力的約束條件,它相對(duì)來(lái)說(shuō)很穩(wěn)定,不會(huì)根據(jù)外界呈現(xiàn)巨大的波動(dòng)。但其實(shí)在很多情況下,我們能夠通過(guò)多付出一些成本的方式“作弊”,從而讓評(píng)價(jià)指標(biāo)的結(jié)果得分變得更加漂亮。換句話說(shuō),我們能夠通過(guò)付出時(shí)間、金錢或者一些額外的代價(jià)來(lái)得到更好的評(píng)估結(jié)果。這種成本和結(jié)果之間的折衷很難處理,因?yàn)樵u(píng)價(jià)方法的改變也能帶來(lái)評(píng)估結(jié)果的受益,這個(gè)收益也要加入評(píng)估結(jié)果當(dāng)中。而且評(píng)估方法的改變會(huì)產(chǎn)生蝴蝶效應(yīng),其下游產(chǎn)品勢(shì)必會(huì)產(chǎn)生連鎖反應(yīng),這個(gè)影響所帶來(lái)的受益或者損失也要考慮進(jìn)去……emm,錯(cuò)綜復(fù)雜。

簡(jiǎn)潔性 

評(píng)價(jià)指標(biāo)為何如此必要?有哪些設(shè)計(jì)之道?

評(píng)價(jià)指標(biāo)是人設(shè)計(jì)的嘛,人天生喜歡簡(jiǎn)單明了的東西:數(shù)學(xué)領(lǐng)域稱之為公式之美,計(jì)算機(jī)科學(xué)稱之為代碼簡(jiǎn)潔之道,異性們稱之為直爽……亦或性感。不好的評(píng)價(jià)指標(biāo)往往充斥著人們對(duì)于所描述事物的不信任和二次猜忌,也會(huì)因?yàn)楹雎粤耸挛锏哪承┨卣鞫屧u(píng)價(jià)指標(biāo)不夠全面。通過(guò)實(shí)踐總結(jié),我關(guān)注到規(guī)則化(Normalization)通常是一個(gè)不錯(cuò)的技術(shù),它能讓問(wèn)題的描述和考慮的方面更加的集中、不冗余,從而構(gòu)建出一個(gè)性能優(yōu)越的評(píng)價(jià)方法。而通過(guò)組合方式(Combination)疊加出來(lái)評(píng)價(jià)標(biāo)準(zhǔn)通常不怎么樣(因?yàn)榻M合之后要考慮的東西更多,我們?cè)u(píng)估的時(shí)候就特別不容易集中到關(guān)鍵上)。比如在體育賽事的技術(shù)數(shù)據(jù)分析環(huán)節(jié)中,人們會(huì)發(fā)現(xiàn)在評(píng)價(jià)指標(biāo)中添加某某率(比如擊球的成功率、上壘的成功率、三分命中率,就是用原本的數(shù)值除以一個(gè)整體的次數(shù))或者考慮比賽的環(huán)境背景(主場(chǎng)優(yōu)勢(shì)之類)因素來(lái)評(píng)價(jià)某個(gè)球隊(duì)的表現(xiàn)是很有效的。但是一股腦兒的將擊球率、出手次數(shù)也放到評(píng)價(jià)標(biāo)準(zhǔn)里顯然沒(méi)啥用,因?yàn)闆](méi)人覺(jué)得擊球率也能和本壘打能有半毛錢關(guān)系。

哦對(duì)了,雖然規(guī)則化很有效,但是找到規(guī)則化項(xiàng)中“某某率”的分母通常是很難的。有多難呢?瞅瞅人家怎么說(shuō):https://twitter.com/fredbenenson/status/370222055083753473

有一次在項(xiàng)目中,我想用所謂的“模型化度量(Modeled Metrics)”來(lái)降低模型對(duì)于簡(jiǎn)單化的硬性標(biāo)準(zhǔn)(技術(shù)上來(lái)說(shuō)就是輸出統(tǒng)計(jì)模型,從而平滑并提高估計(jì)的準(zhǔn)確性)。但很可惜,它們都沒(méi)能完全成功。機(jī)器學(xué)習(xí)領(lǐng)域有個(gè)定律叫“沒(méi)有免費(fèi)的午餐”嘛,當(dāng)我們犧牲了簡(jiǎn)單性,那相應(yīng)的就會(huì)在所研究的其他問(wèn)題和特性上產(chǎn)生變動(dòng)并引入不確定性。 

評(píng)價(jià)指標(biāo)為何如此必要?有哪些設(shè)計(jì)之道?

可信性

雖然人們絞盡腦汁地想設(shè)計(jì)出高效的評(píng)價(jià)指標(biāo),但是很遺憾,世界就是這么殘酷,一多半的工作都不能準(zhǔn)確表達(dá)出我們所關(guān)心的事物和概念。在我的經(jīng)驗(yàn)里,兩種情況下設(shè)計(jì)的評(píng)價(jià)指標(biāo)效果極差:第一個(gè)是缺乏結(jié)構(gòu)有效性的設(shè)計(jì),第二個(gè)是數(shù)據(jù)集帶有某種抽樣偏差的情況。其中缺乏結(jié)構(gòu)有效性的設(shè)計(jì)是指,這個(gè)指標(biāo)所度量的東西跟我們關(guān)心的目標(biāo)根本不是一碼事兒的情況,驢唇不對(duì)馬嘴,無(wú)法構(gòu)成有效的度量;而抽樣的偏差是指我們數(shù)據(jù)集中的樣本和事物本身的分布不匹配的情況,采樣的偏差會(huì)讓我們關(guān)注到事物的那些沒(méi)什么用的方面,從而忽略了數(shù)據(jù)的重要特征。

在實(shí)踐中,簡(jiǎn)單性、低成本和構(gòu)造的有效性通常是對(duì)立的,此消彼長(zhǎng)。我們通常會(huì)為了追求簡(jiǎn)單和低成本性而破壞了構(gòu)造的有效性。很多公司或團(tuán)隊(duì)在這個(gè)方面投入了大量的人力物力,力求得到完美的平衡。結(jié)構(gòu)有效性設(shè)計(jì)的一個(gè)難點(diǎn)在于它其中使用的人類標(biāo)記信息。人類都具有主觀偏差性,每個(gè)人在標(biāo)記過(guò)程中的準(zhǔn)則和標(biāo)準(zhǔn)都可能有所差異,可能A童鞋將這個(gè)標(biāo)簽標(biāo)記為1,B童鞋就認(rèn)為應(yīng)該標(biāo)記為2。每個(gè)人對(duì)于標(biāo)簽的理解都存在著主觀性和差異性。

這種因人而異的主觀性和差異性具體請(qǐng)戳:

https://twitter.com/seanjtaylor/status/1090320775901409280

除了人類標(biāo)記信息外,還有一種十分主觀且伴隨著噪聲的信息會(huì)影響評(píng)價(jià)指標(biāo)的客觀性,就是用戶反饋。用戶的反饋五花八門,比如調(diào)研報(bào)告、缺陷報(bào)告和眾包標(biāo)簽等等,我們?cè)诶脭?shù)據(jù)的時(shí)候很難判斷這個(gè)人到底能不能代表我們關(guān)心的目標(biāo)人群,不知道他摻入了多少主觀因素,更不知道他到底認(rèn)真反饋了沒(méi)有。如果我們不能保證用戶反饋體現(xiàn)了嚴(yán)格數(shù)學(xué)意義上的隨機(jī)抽樣,那我們可能永遠(yuǎn)無(wú)法解決這個(gè)問(wèn)題。因此,在設(shè)計(jì)評(píng)價(jià)指標(biāo)的時(shí)候我們就必須接受并容忍這個(gè)誤差源。需要注意的是,即便是特別簡(jiǎn)單的二分類標(biāo)簽,比如抖音上“喜歡”和“不喜歡”,也可能會(huì)因?yàn)橛脩舻膮⑴c率和調(diào)查涵蓋面的問(wèn)題而引入較大偏差,那此時(shí)我們的樣本集就可能會(huì)出現(xiàn)以偏概全的現(xiàn)象。我們將這種現(xiàn)象稱為“度量信度”問(wèn)題。

這里我們列舉兩個(gè)低度量信度的例子:

1. 廣告的點(diǎn)擊量和銷售額沒(méi)什么聯(lián)系。如果我們用廣告的點(diǎn)擊率作為銷售額的衡量標(biāo)準(zhǔn),那可能會(huì)出現(xiàn)南轅北轍的現(xiàn)象,因?yàn)楦鶕?jù)統(tǒng)計(jì),它們兩個(gè)壓根兒沒(méi)有關(guān)聯(lián)。如果算法只使用廣告點(diǎn)擊率作為評(píng)價(jià)指標(biāo),那它可能會(huì)去優(yōu)化一個(gè)跟銷售總額不相關(guān)的目標(biāo)函數(shù)。要知道,廣告的點(diǎn)擊者和購(gòu)買者可能是兩撥不同的人。

不信的話戳這里看看

2. 微博文字的情緒和作者真實(shí)情緒間相關(guān)性很低。微博上感傷文字的主人可能是個(gè)樂(lè)天派,陽(yáng)光文學(xué)的作者可能是個(gè)傷痕累累的文藝青年呢。如果你想通過(guò)人們的Twitter和Facebook帖子衡量他們的幸福感,那很可能老鐵,你就弄錯(cuò)了。

真的這么精分嗎?請(qǐng)戳這里看看。

準(zhǔn)確性

評(píng)價(jià)指標(biāo)為何如此必要?有哪些設(shè)計(jì)之道?

準(zhǔn)確性應(yīng)該是五個(gè)重要指標(biāo)中最容易理解的那個(gè)了。毋庸置疑,準(zhǔn)確性越高越好。不好的度量方法會(huì)導(dǎo)致數(shù)據(jù)中的噪聲和有效值混到一起的現(xiàn)象,從而無(wú)法區(qū)分。換句話說(shuō),在這種情況下我們沒(méi)法通過(guò)控制變量來(lái)對(duì)所研究問(wèn)題進(jìn)行評(píng)估了。當(dāng)我們調(diào)整一個(gè)參數(shù)的時(shí)候,結(jié)果在變;我們不調(diào)整它的時(shí)候,結(jié)果還是在變。如此一來(lái)我們就糊涂了,不知道結(jié)果的改變是由參數(shù)的調(diào)整所引發(fā),還是因?yàn)樵肼曀?。這里我列舉了三個(gè)關(guān)于精確度指標(biāo)的注意事項(xiàng):

1. 我們能夠通過(guò)數(shù)學(xué)變化對(duì)評(píng)價(jià)指標(biāo)的結(jié)果進(jìn)行干預(yù),從而提升精確度。數(shù)學(xué)變換包括對(duì)數(shù)計(jì)算、尾處理或者一些其他的高級(jí)技術(shù)。

尾處理技術(shù)戳這里

更高級(jí)的處理技術(shù)戳這里

2. 規(guī)則化能夠大幅提高度量的精確度。比如在評(píng)價(jià)指標(biāo)的計(jì)算中,如果分子是有偏差的,那我們通過(guò)規(guī)則化能夠讓分母也具有類似的偏差。如此一來(lái),這個(gè)偏差會(huì)被約分,比值結(jié)果的方差便會(huì)縮?。y道這就是所謂的以毒攻毒)。通過(guò)規(guī)則化能夠降低度量方法的方差。

3. 對(duì)多個(gè)評(píng)價(jià)標(biāo)準(zhǔn)進(jìn)行求和或均值操作能夠提高精度。不同的度量方法就是從不同的角度對(duì)事物進(jìn)行觀測(cè),如果我們能夠?qū)δ繕?biāo)事件進(jìn)行多種不相關(guān)的觀測(cè),那它們的組合結(jié)果就會(huì)比單獨(dú)觀測(cè)的結(jié)果更加穩(wěn)定,也就不會(huì)充斥著那么多噪聲了。但代價(jià)是模型的簡(jiǎn)單性會(huì)降低,也可能會(huì)減少因果關(guān)系的相關(guān)性。

評(píng)價(jià)方法的精確性和可信性間往往存在內(nèi)在的權(quán)衡。比如說(shuō)在商業(yè)場(chǎng)景中,財(cái)務(wù)結(jié)果(比如銷售額、收入或利潤(rùn))的評(píng)價(jià)指標(biāo)可能包含很多造噪聲,這是因?yàn)閿?shù)據(jù)分布的傾斜性所致的。當(dāng)我們鎖定變量,僅對(duì)其中的一位客戶或某一宗交易進(jìn)行離散的計(jì)算時(shí),結(jié)果就會(huì)具有較小的方差了。

因果的相關(guān)性

評(píng)價(jià)指標(biāo)為何如此必要?有哪些設(shè)計(jì)之道?

好的度量方法還需要有一個(gè)特點(diǎn)就是能被人類刻意控制。Deng和Shi在2016年定義了一個(gè)很有意思的概念,叫做靈敏度,它由上一節(jié)我們提到的精度性和典型效果尺寸(Typical Effect Sizes)組成。我覺(jué)得應(yīng)該將這兩個(gè)屬性分開,分別考慮。于是我使用相關(guān)性(Proximity)來(lái)描述我們?cè)O(shè)計(jì)的評(píng)價(jià)指標(biāo)與人為更改變量在因果空間上的近似程度。

具體了解靈敏度請(qǐng)戳這里

當(dāng)評(píng)價(jià)指標(biāo)和人為因素之間的因果的相關(guān)性很低時(shí),人們通常不會(huì)根據(jù)產(chǎn)品的變化經(jīng)常性的修改評(píng)價(jià)指標(biāo),因?yàn)槟阋獙?duì)評(píng)價(jià)指標(biāo)進(jìn)行干預(yù)的話是需要經(jīng)過(guò)很長(zhǎng)一個(gè)因果關(guān)系鏈才能完成的。而這個(gè)鏈條太長(zhǎng)、太晦澀了,相關(guān)度太低了。通常來(lái)說(shuō),如果因果關(guān)系性很低的話,我們只能使用利潤(rùn)或者收入這個(gè)簡(jiǎn)單粗暴的最終指標(biāo)衡量大多數(shù)產(chǎn)品的變化效果,但是這個(gè)衡量通常是無(wú)效的。我們必須建立一個(gè)具有更高相關(guān)性的評(píng)價(jià)指標(biāo),并嘗試通過(guò)某種理論來(lái)說(shuō)明這對(duì)于可信性的影響是多么的有效。

這個(gè)理論被稱為代理度量(Proxy Metric)。這個(gè)代理度量的具體數(shù)學(xué)內(nèi)涵可能不是本文關(guān)心的重點(diǎn)(要是真寫也沒(méi)人看了哈哈),但是我們能夠通過(guò)它對(duì)可信性的影響程度進(jìn)行評(píng)估。對(duì)于我們所關(guān)心事物的長(zhǎng)鏈輸出影響,最近有研究提出使用替代指標(biāo)(Surrogate Indices)進(jìn)行描述。在這個(gè)方法中,我們可以通過(guò)使用短期指標(biāo)的輸出來(lái)更靠譜地估計(jì)長(zhǎng)期輸出的結(jié)果。

替代指標(biāo)的介紹請(qǐng)戳這里。

對(duì)了,物極必反,因果相相關(guān)性太高的話也是不可取的。因?yàn)檎l(shuí)想要一塊一成不變的木頭來(lái)體現(xiàn)當(dāng)下的變化呢?評(píng)價(jià)指標(biāo)中適當(dāng)?shù)拿舾行阅軒椭藗兏玫乩斫饪煽貐?shù)為結(jié)果和評(píng)價(jià)所帶來(lái)的影響(也叫操作檢查Manipulation Checks),從而能夠評(píng)估我們的假設(shè)和處理操作能否引起正確的反應(yīng)。只有這樣,我們才可以將評(píng)價(jià)指標(biāo)作為一個(gè)監(jiān)視器,從而建立起“改變-反饋”的鏈條來(lái)指導(dǎo)生活并服務(wù)當(dāng)下。

操作檢查的解釋請(qǐng)戳這里

高貴性

評(píng)價(jià)指標(biāo)為何如此必要?有哪些設(shè)計(jì)之道?

作為一個(gè)評(píng)級(jí)指標(biāo),其高貴性一定要得到充分的體現(xiàn)。畢竟萬(wàn)事萬(wàn)物皆有靈性,如果我們無(wú)法給予評(píng)價(jià)指標(biāo)足夠的尊重、尊嚴(yán)和自豪感,那么它……算了,我編不下去了哈哈哈,這條是開玩笑的哈,別當(dāng)真老鐵。

三、評(píng)價(jià)指標(biāo)的設(shè)計(jì)過(guò)程

根據(jù)我的經(jīng)驗(yàn),評(píng)價(jià)指標(biāo)的設(shè)計(jì)是一個(gè)來(lái)回迭代性的過(guò)程,它是多方參與者在一個(gè)較長(zhǎng)時(shí)間內(nèi)的合作、總結(jié)和權(quán)衡的漫長(zhǎng)過(guò)程。下面這張圖是一個(gè)理想情況下的評(píng)價(jià)指標(biāo)設(shè)計(jì)流程。我們可以看到,它實(shí)際上是一堆循環(huán)的嵌套,我們甚至在某些特殊情況下會(huì)陷入死循環(huán)的窘境。這是因?yàn)樵u(píng)價(jià)指標(biāo)的設(shè)計(jì)沒(méi)有一定之規(guī),它的變數(shù)太大、問(wèn)題太多、可能的解決方法也千奇百怪。這個(gè)流程圖也只能幫助我們“以管窺豹”,大概了解評(píng)價(jià)指標(biāo)的設(shè)計(jì)之道。

設(shè)計(jì)評(píng)價(jià)指標(biāo)的過(guò)程有時(shí)候就像寫代碼一樣,我們要經(jīng)歷寫代碼、樣例測(cè)試、重新評(píng)估和代碼調(diào)整,然后在代碼邏輯不符合最新需求的時(shí)候重寫關(guān)鍵模塊(或者在甲方無(wú)限的苛責(zé)和臨時(shí)起意下刪庫(kù)走人,開玩笑哈哈)。 

評(píng)價(jià)指標(biāo)為何如此必要?有哪些設(shè)計(jì)之道?

在這里列舉出我對(duì)其中一些關(guān)鍵步驟的思考:

  • 討論:毛爺爺告訴我們,從群眾中來(lái),到群眾中去。我們要廣泛的聽取人們內(nèi)心的需求,同時(shí)更要將這些需求形式化、量化起來(lái)。雖然有點(diǎn)絮叨,但是在我的實(shí)際工作中,我會(huì)首先認(rèn)真細(xì)致地了解目標(biāo)人群的需求,并且嘗試在多個(gè)矛盾的需求之間做出權(quán)衡和取舍,力求找到一個(gè)平衡點(diǎn)。在這個(gè)過(guò)程中我們可能會(huì)使用很多種不同的評(píng)價(jià)指標(biāo)作為候選,因?yàn)檫@樣很方便很簡(jiǎn)單,成本也很低。但是如此簡(jiǎn)單和低成本的做法很可能會(huì)限制評(píng)價(jià)指標(biāo)的表達(dá)能力和學(xué)習(xí)能力,從而降低評(píng)價(jià)指標(biāo)的應(yīng)用效果。

  • 驗(yàn)證:有個(gè)有趣的現(xiàn)象,就是人們往往更喜歡那些新提出來(lái)的評(píng)價(jià)指標(biāo)(喜新厭舊的家伙!),而且會(huì)十分樂(lè)意去相信那些少數(shù)的、符合自身認(rèn)知和直覺(jué)的特例(所謂刻板偏見(jiàn)嘛)。比如說(shuō),當(dāng)我們對(duì)某個(gè)事物進(jìn)行了調(diào)整,如果結(jié)果的變化跟我們?cè)O(shè)想的一樣,那我們會(huì)特別容易接受這個(gè)現(xiàn)象,也會(huì)更容易信任所使用的評(píng)價(jià)指標(biāo)了。Deng和Shi想要去收集一個(gè)很有意思的數(shù)據(jù)集,就是看某個(gè)已知好壞的操作會(huì)引發(fā)人們?cè)u(píng)價(jià)指標(biāo)的哪些主觀變化。我覺(jué)得這個(gè)數(shù)據(jù)集很有意思,它能用來(lái)評(píng)估人們的刻板偏見(jiàn)所帶來(lái)的的主觀影響,當(dāng)然,前提是我們收集了足夠多的實(shí)驗(yàn)、標(biāo)記了足夠多的樣本哈。Deng和Shi的數(shù)據(jù)集戳這里

  •  實(shí)驗(yàn):其實(shí)很多研究都沒(méi)有得到他們最關(guān)心的評(píng)價(jià)指標(biāo)的理想實(shí)驗(yàn)結(jié)果。我曾經(jīng)在Facebook做了一個(gè)產(chǎn)品,在那我們幾個(gè)月的實(shí)驗(yàn),但是收效甚微。因?yàn)槲覀兊脑u(píng)價(jià)指標(biāo)的噪聲太大了,其中的因果關(guān)系太低了。如果我們無(wú)法刻意地、有因果對(duì)評(píng)價(jià)指標(biāo)產(chǎn)生一些影響和控制,那其實(shí)這個(gè)評(píng)價(jià)指標(biāo)就沒(méi)什么實(shí)際作用了。這時(shí)候你可能就要考慮犧牲一些評(píng)價(jià)指標(biāo)的可信性,或者付出一些其他的代價(jià)從而換取更高的因果性和精確性了。在我們的實(shí)驗(yàn)驗(yàn)證過(guò)程中,那些不好的評(píng)價(jià)指標(biāo)應(yīng)該被盡量剔除掉,因?yàn)樗麄冎粫?huì)讓我們實(shí)驗(yàn)結(jié)果的“信噪比”降低,讓結(jié)果分析起來(lái)更加困難。

  • 優(yōu)化:有了度量之后,我們就能用它作為目標(biāo)對(duì)所研究的事情進(jìn)行優(yōu)化了。那優(yōu)化操作會(huì)帶來(lái)什么結(jié)果呢?人們總覺(jué)得只要目標(biāo)選對(duì)了,算法所進(jìn)行的優(yōu)化就一定能帶來(lái)積極的反饋。但其實(shí)對(duì)于很多評(píng)價(jià)指標(biāo)來(lái)說(shuō),它都是有自己的優(yōu)化上限的,或者叫做優(yōu)化的飽和點(diǎn)。從這個(gè)飽和點(diǎn)開始,如果我們?cè)龠M(jìn)行額外的優(yōu)化的話,就會(huì)不經(jīng)意間過(guò)度修飾,從而損害一些我們關(guān)心的其他東西。就比如在很多公司中,他們都會(huì)面臨一個(gè)核心挑戰(zhàn),就是最優(yōu)化評(píng)價(jià)指標(biāo)和原則性決定之間的權(quán)衡。為了追求最優(yōu)化的評(píng)價(jià)結(jié)果,可能就會(huì)觸碰公司的原則性底線。這些原則性的問(wèn)題也許關(guān)乎行業(yè)利益、信譽(yù)甚至是法律道德。也像某建國(guó)同志為了追求股市和經(jīng)濟(jì)的上漲而不顧某國(guó)疫情強(qiáng)制開工一樣。我們需要注意,當(dāng)我們純粹地以某個(gè)指標(biāo)為驅(qū)動(dòng)來(lái)最大化利益或最小化損失的時(shí)候,這個(gè)評(píng)價(jià)指標(biāo)原本想表達(dá)的意義就會(huì)逐漸被削弱。這個(gè)現(xiàn)象在經(jīng)濟(jì)學(xué)和社會(huì)學(xué)中通常被稱作古德哈特定律(Goodhart’s Law)。很晦澀?其實(shí)就像利用增強(qiáng)學(xué)習(xí)技術(shù)教會(huì)計(jì)算機(jī)打游戲的場(chǎng)景一樣:計(jì)算機(jī)通常會(huì)尋找到某個(gè)歪門邪道的玩法,甚至不惜利用游戲的bug(比如某種騷操作讓內(nèi)存數(shù)值溢出)來(lái)讓自己取得更高的分?jǐn)?shù)或者出奇制勝。顯然我們的目的不是讓它找bug,而是讓他在我們制定的規(guī)則中找到最優(yōu)的操作方法和獲勝路徑。所以,面向評(píng)價(jià)指標(biāo)的優(yōu)化也是個(gè)燒腦的話題呀。

古德哈特定律感興趣的話戳這里了解一下。  雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

Via https://medium.com/@seanjtaylor/designing-and-evaluating-metrics-5902ad6873bf

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

評(píng)價(jià)指標(biāo)為何如此必要?有哪些設(shè)計(jì)之道?

分享:
相關(guān)文章

知情人士

當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)