獨家 | AI仍然受困于仇恨言論——但科學家們在衡量每個系統失敗的地方正做得越來越好
作者:Karen Hao
翻譯:朱啟軒
校對:詹好
盡管自然語言處理最近取得了諸多進展,但它仍在最基本的應用上受阻。在一項新的研究中,科學家們測試了四種最佳的檢測仇恨言論的人工智能系統,他們發現這些系統或多或少在區分帶有仇恨情緒和沒有仇恨情緒的句子時存在一些問題。
然而這個結果并不令人驚訝——因為創造能夠理解語言細微差別的人工智能是很困難的。這使得研究人員診斷和分析這些問題的方法顯得尤為重要。他們針對仇恨言論開發了29個不同的測試方法,以便更準確地找出每個系統的疏漏,從而讓人們更容易去克服這一問題。實際上,上述的這個測試已經在幫助一家商業公司改善其人工智能系統。
The study authors 是由牛津大學(University of Oxford)和艾倫·圖靈研究所(Alan Turing Institute)的科學家們所領導的團隊。該團隊采訪了來自16家研究網絡仇恨的非營利機構的員工,以求了解AI檢測仇恨言論的進一步信息。
該團隊利用這些采訪結果把仇恨言論分成了18大類,他們致力于關注基于英文文本的仇恨言論,包括貶損言論,侮辱性語言和威脅性語言。他們還識別了11種通常會讓AI陷入困境的非仇恨場景,包括在無害聲明中使用臟話,被目標社區收回的詆毀,以及引用或引用原始仇恨言論(即反言論)的仇恨譴責。
對于29個不同的仇恨類別, 他們創造了大量的例子并且使用“模板”句式,比如“我討厭(身份)”或“你只是在(誹謗)我”,從而為7個受保護的群體生成相同的例子集合。根據美國法律,這些“受保護群體”受到法律保護,不應當遭到歧視。他們還有一個開源的數據集叫HateCheck,其中總共包含了近4000個案例。
研究人員隨后檢查了兩個流行的商業公司的服務條款: 谷歌Jigsaw的Perspective API和Two Hat的SiftNinja。兩者都允許客戶在帖子或評論中舉報違規內容。Perspective API,它被Reddit等平臺以及《紐約時報》和《華爾街日報》等新聞機構所使用。它基于有害性的衡量對帖子和評論進行標記和排序,以供人們審查。
而SiftNinja對仇恨言論則過于寬容,沒有能檢測到所有的變化。相反,Perspective則過于嚴格。它擅長于檢測18個仇恨類別,但也同時標記了大多數非仇恨類別,比如被撤回的侮辱性言語和反擊言論。研究人員在測試谷歌的兩種學術模型時發現了同樣的特征,這兩種模型代表了現有的一些最好的自然語言處理技術,且有望成為其他商業內容審核系統的基礎。學術模型也顯示出在受保護群體上不均衡的表現——對某些群體的仇恨進行錯誤分類的頻率高于其他群體。
這些結果指明了當前基于AI的仇恨言語檢測系統中最具挑戰性的一個方面:若不注重消除仇恨言論,就無法解決該問題; 若過于注重消除仇恨言論就會誤傷。牛津互聯網研究所的博士生Paul Rottge指出:“突然間你會首先懲罰那些被仇恨鎖定的群體。”
Jigsaw的首席軟件工程師露西·瓦瑟曼提出,一個更好的被叫做Perspective的模型,可以通過依靠人類調解員做出最終決定,來克服了這些限制。但是這個過程不適用于更大的平臺和更多的數據。Jigsaw現在正致力于開發一項功能,可以根據Perspective的不確定性重新調整帖子和評論的優先級——自動刪除那些它認為令人討厭的內容,并向人們標記出可疑內容。
Jigsaw指出,這項新研究令人興奮的地方在于,它是否提供了一種精細的方法來評估技術水平。Jigsaw現在正在使用HateCheck來更好地理解其模型之間的差異以及它們需要改進的地方。
其他學者也對這項研究感到興奮。華盛頓大學的語言人工智能研究員馬爾滕?薩普表示:“這篇論文為我們評估行業系統提供了一個很好的資源,它允許企業和用戶提出改進的需求。”
羅格斯大學的社會學助理教授Thomas Davidson對此表示贊同。他說,語言模型的局限性和語言的混亂意味著,仇恨言論的識別總是會在識別力欠缺和識別過度之間進行權衡。他補充說:“HateCheck數據集有助于讓這些權衡變得可見。”
原文標題:
AI still sucks at moderating hate speech——But scientists are getting better at measuring where each system fails.
原文鏈接:
’https://www.technologyreview.com/2021/06/04/1025742/ai-hate-speech-moderation/
*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。