日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能學術 正文
發(fā)私信給龔倩
發(fā)送

0

ACL 2020 | 詞嵌入性別偏見難以避免?“雙硬去偏”新方法來了!

本文作者: 龔倩 編輯:幸麗娟 2020-07-30 15:49 專題:ACL 2019
導語:“雙硬去偏”新方法——通過消除詞頻的負面影響提高詞嵌入性別去偏性能!

ACL 2020 | 詞嵌入性別偏見難以避免?“雙硬去偏”新方法來了!

Paper: https://arxiv.org/abs/2005.00965
Github: https://github.com/uvavision/Double-Hard-Debias

研究背景

源自人為生成的語料庫的詞嵌入,具有很強的性別偏見,而且這種性別偏見會被下游模型進一步放大。我們發(fā)現(xiàn)語料庫的規(guī)律性如詞頻等,會對現(xiàn)有的事后比較去偏算法(post-hoc debiasing algorithms)的性能產(chǎn)生負面影響,于是我們提出在推斷和去除性別子空間之前,根據(jù)語料庫的規(guī)律性對詞嵌入進行凈化處理。 

1. 詞嵌入中的性別偏見

詞嵌入是指用有意義的數(shù)字向量表示詞匯表中的單詞,它們能夠捕捉單詞的語義和句法意義以及與其他單詞的關系。盡管詞嵌入向量在自然語言處理任務中得到了廣泛的應用,但它還是被批判:從訓練語料庫中繼承了無意識的性別偏見。

正如論文《Man is to Computer Programmer as Woman is to Homemaker? Debiasing Word Embeddings》中所討論的那樣,當一個詞的語義是中性而學到的詞嵌入?yún)s更偏向特定的性別時,就暴露出了性別偏見的問題。例如,在下圖中,x坐標表示的是對嵌入的單詞“he”(他)和“she”(她)之間的差異,而y坐標表示捕獲性別中立的嵌入過程中學到的傾向,中性的單詞在x軸之上,而特定性別的單詞在x軸之下。盡管“brilliant”(聰明)和“genius”(天才)在定義上是中性的,但它們的嵌入更接近“he”(他)。同樣,“homemaker”(操持家務者)和“sewing(”縫紉)與“she”(她)更接近。

ACL 2020 | 詞嵌入性別偏見難以避免?“雙硬去偏”新方法來了!

 2. 為什么性別偏見是一個嚴重的問題?

詞嵌入中的性別偏見確實是一個很嚴重的問題?想象一下,如果人們訓練了一個基于具有偏見的詞嵌入的簡歷篩選模型,那么這個模型就會針對程序員等崗位自動地過濾掉女性應聘者,也會針對理發(fā)師等職位篩除掉男性應聘者。同樣,一個把醫(yī)生全都當作男性以及把護士全都當作女性的問題應答模型,當被用來理解醫(yī)療報告時,它提供的答案也會是錯誤的。

3. 早期的“硬去偏”方法

之前的方法是通過后處理方式減少詞嵌入中與性別相關的部分從而減少性別偏見。具體來說,它需要一系列與性別相關的詞對,并計算這些詞對的差分向量的第一主成分作為嵌入空間中的性別方向。然后將有偏詞嵌入映射到與推測的性別方向正交的子空間中,以消除性別偏見。雖然此方法確實能夠在單詞類比任務中減輕性別偏見,但另一項工作《Lipstick on a pig: Debiasing methods cover up systematic gender biases in word embeddings but do not remove them》認為這種方法并不是特別有效,因為去偏后嵌入的幾何圖形中仍然存在性別偏見。

ACL 2020 | 詞嵌入性別偏見難以避免?“雙硬去偏”新方法來了!

4. 詞頻會對性別方向產(chǎn)生負面影響

在這篇論文中,我們假設現(xiàn)有的“硬去偏”方法很難確定詞嵌入正確的性別方向。《Frage: Frequency-agnostic word representation》和《All-but-the-top: Simple and effective postprocessing for word representations》兩項工作表明,詞頻會顯著影響詞嵌入的幾何結構。例如,常用詞和罕見詞會聚集在嵌入空間的不同子區(qū)域,不過,這些聚集在同一個子區(qū)域的詞在語義上并不相似。這會對性別方向的定義過程產(chǎn)生負面影響,從而降低“硬去偏”方法消除性別偏見的能力。通過經(jīng)驗可以證明,某些詞的使用頻率變化,會導致其對應的差分向量與其他詞的差分向量之間的相似性發(fā)生顯著變化,如下圖所示。 

ACL 2020 | 詞嵌入性別偏見難以避免?“雙硬去偏”新方法來了!

“雙硬去偏”方法

這項工作中,我們通過消除詞頻對性別方向的影響來提高“硬去偏”方法的性能。由于詞頻會改變性別方向,我們提出運用“雙硬去偏”法來消除詞頻對性別方向的負面影響。此方法的關鍵在于:使用硬去偏之前,將單詞嵌入映射到一個中間的子空間中?;仡櫼幌?,我們前面討論的硬去偏方法就是通過將嵌入空間轉化為無特定性別的空間來降低性別偏見。

同樣地,在雙硬去偏方法中,我們首先將所有的單詞嵌入轉換成一個與使用頻率無關的子空間,在這樣的子空間中,我們能夠計算出一個更加準確的性別方向。更確切地說,我們試圖找到一個能夠分散性別方向計算的編碼頻率信息的維度。然后我們從詞嵌入中沿著這個特定的維度映射出組件,從而獲得修正的嵌入向量,再對其應用硬去偏方法。

ACL 2020 | 詞嵌入性別偏見難以避免?“雙硬去偏”新方法來了!

為了確定這個維度,我們利用具有高偏見的單詞的聚類作為指標,迭代測試詞嵌入的主成分。具體步驟如下:

  1. 計算所有單詞嵌入向量的主成分作為候選的頻率維度。 

  2. 選擇一系列高性別偏見的男性和女性詞匯(如程序員,家務操持者,游戲,跳舞等)。

  3. 分別對每個候選維度ACL 2020 | 詞嵌入性別偏見難以避免?“雙硬去偏”新方法來了!重復步驟4-6。

  4. 將詞嵌入映射到一個與 ACL 2020 | 詞嵌入性別偏見難以避免?“雙硬去偏”新方法來了!正交的中間空間,從而得到修正的詞嵌入。

  5. 對修正的詞嵌入應用"硬去偏"方法。

  6. 高性別偏見的單詞經(jīng)過步驟5得到去偏嵌入,再聚類此去偏嵌入,然后計算該聚類的精度。 

如果步驟6中的聚類算法仍然將具有性別偏見的單詞按性別分成兩組,則說明去除ACL 2020 | 詞嵌入性別偏見難以避免?“雙硬去偏”新方法來了!并不能改善去偏效果。因此,我們可以篩選出導致有偏詞聚類精度下降最顯著的那個ACL 2020 | 詞嵌入性別偏見難以避免?“雙硬去偏”新方法來了!,然后將其刪除。

“雙硬去偏”方法效果如何?

我們在幾個偏見消除基準上評估“雙硬去偏”法,其中包括一個重要的下游任務——共指消解(coreference resolution)。

我們使用WinoBias數(shù)據(jù)集來量化共指系統(tǒng)中的性別偏見。WinoBias由兩種類型的句子組成,每種類型的句子都可以劃分為一個對性別有刻板印象的子集和一個反性別刻板印象的子集。性別,是這兩個子集之間唯一的區(qū)別。

 舉例來說,第一類句子中包含了一種對性別有刻板印象的句子: “The physician hired the secretary because he was overwhelmed with clients”(醫(yī)生雇傭秘書是因為他的病人太多了)。而反性別刻板印象的句子是“The physician hired the secretary because she was overwhelmed with clients”(醫(yī)生雇傭秘書是因為她的病人太多了)。

性別刻板印象子集和反性別刻板印象子集的表現(xiàn)差異,反映了共指系統(tǒng)對于男性群體和女性群體有哪些不同的表現(xiàn),所以我們將這種差異度作為性別偏見分數(shù)。原始的GloVe嵌入具有顯著的性別差異,我們可以從其性別偏見分數(shù)中看到兩種類型的句子之間的差距:一個達到29分,而另一個只有15分。

與“硬去偏”方法和其他先進的去偏方法相比,我們的方法在兩種類型的共指句子中都實現(xiàn)了最小差異。同時,“雙硬去偏”法也保留了詞嵌入中有用的語義信息。在最初的測試集上,我們觀察到F1分數(shù)只下降了0.1%。 

ACL 2020 | 詞嵌入性別偏見難以避免?“雙硬去偏”新方法來了!

我們還對500個帶有高性別偏見的女性/男性詞嵌入進行 tSNE 映射。如下圖所示,原始GloVe嵌入被清晰地映射到不同的區(qū)域,顯示出強烈的性別偏見。與其他方法相比,雙硬GloVe最大程度地混合了男性和女性嵌入,去偏后能捕獲到更少的性別信息。

ACL 2020 | 詞嵌入性別偏見難以避免?“雙硬去偏”新方法來了!

 結論

我們發(fā)現(xiàn),詞頻統(tǒng)計上的一點小變化就會對詞嵌入的性別去偏方法產(chǎn)生負面影響。在以往的性別去偏工作中,詞頻統(tǒng)計一直被忽視,而我們提出的“雙硬去偏”法能夠減輕詞頻特征對去偏算法的負面影響。

我們相信,引入無性別偏見且實用的詞嵌入是十分重要的,同時也希望通過我們的這項研究工作,能夠激勵這一方向出現(xiàn)更多研究工作。

via https://blog.einstein.ai/double-hard-debias-tailoring-word-embeddings-for-gender-bias-mitigation/  雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。

ACL 2020 | 詞嵌入性別偏見難以避免?“雙硬去偏”新方法來了!

分享:
相關文章

知情人士

當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說