GPT-3“知道”我什么?
翻譯:顧偉嵩校對:歐陽錦
大型語言模型是根據從互聯網上收集的大量個人數據進行訓練的。所以我想知道:它對我有什么影響?
對于一位報道AI的記者來說,今年最大的新聞之一是大型語言模型的興起。這些人工智能模型生成了本是人類才能寫出的文本,有時非常令人信服,他們欺騙了人們,讓他們認為自己是有意識的。
這些模型的力量來自于從互聯網上收集的大量公開的人造文本。這不禁讓我思考:這些模型擁有關于我的什么數據?并且這些數據是怎么被濫用的?
這不是一個無聊的問題。自從大約十年前的一次傷害經歷以來,我一直對公開發布任何有關我個人生活的信息感到恐懼。我的照片和個人信息在一個在線論壇上大肆傳播,然后被那些不喜歡我為某個芬蘭報紙寫的專欄的人所剖析和嘲笑。
在那之前,像許多人一樣,我不小心在互聯網上亂放了我的數據:個人博客帖子、晚上拍的尷尬照片、以及我的位置信息、關系狀態和政治偏好的帖子,并且公開給任何人看。即使現在,我仍然是一個相對公眾的人物,由于我是一名記者,我的整個職業生涯信息基本上只需一次在線搜索就能全部看到。
OpenAI提供了對其著名的大型語言模型GPT-3的有限訪問,而Meta允許人們通過一個名為BlenderBot 3的公開可用的聊天機器人來使用其模型OPT-175B。
我決定測試這兩個模型,首先問GPT-3:誰是Melissa Heikkil??(Who is Melissa Heikkil??)
當我讀到這時,我愣住了。Heikkil?是2022年我的家鄉芬蘭的第18個最常見的姓氏,但我是那個姓氏的人中唯一一個用英語寫作的記者。該模型將其與新聞業聯系起來本不該讓我驚訝。因為當大型語言模型從互聯網上包括新聞文章和社交媒體帖子中獲取大量數據時,記者和文章作者的名字經常出現。
然而,面對一些事實上是正確的事情,它是令人不安的。它還知道什么??
但很快我就明白了,這個模型對我來說并沒有什么意義。它隨后開始給我其收集的關于芬蘭剩下13931個關于Heikkil?s的信息,以及其他與芬蘭有關的東西的隨機文本。
哈哈,謝謝,但我想你指的是Lotta Heikkil?,她進入了選美比賽前十,但沒有獲勝。
原來我是個無名小卒。這是AI世界的一件好事。
大型語言模型(LLMs),如OpenAI的GPT-3、谷歌的LaMDA和Meta的OPT-175B,在AI研究中是炙手可熱的,它們正在成為互聯網軌道上越來越不可或缺的一部分。LLMs被用于支持聊天機器人,幫助客戶服務,從而創建更強大的在線搜索,并幫助軟件開發人員寫代碼。
如果你在互聯網上用英語發布了任何個人信息,你的數據可能有機會成為世界上最流行的LLMs的一部分。
谷歌(Google)和OpenAI等科技公司不會發布有關用于構建語言模型的數據集的信息,但它們不可避免地包含一些敏感的個人信息,如地址、電話號碼和電子郵件地址。
ETH計算機科學副教授弗洛里安·特拉梅爾(Florian Tramèr)警告說,這對網絡隱私來說構成了一個“定時炸彈”,并帶來了大量安全和法律風險。與此同時,改善機器學習隱私和規范技術的努力仍處于起步階段。
我在歐洲生活了一輩子,歐盟嚴格的數據保護制度GDPR自2018年開始實施,這讓我在網上的相對匿名成為可能。
然而,我的老板,麻省理工技術評論主編馬特·霍南(Mat Honan)絕對是一個大人物。
GPT-3和BlenderBot都“知道”他是誰。這就是GPT-3對他的影響。
這并不奇怪,馬特在很長一段時間內都非常活躍,這意味著他的在線足跡(online footprint)比我大。這也可能是因為他在美國,大多數大型語言模型都非常關注美國。美國沒有聯邦數據保護法。馬特居住的加利福尼亞州確實有一個,但直到2020年才生效。
根據GPT-3和BlenderBot,馬特的成名是由于他在2012年《Wired》雜志上發表的一篇文章中提到的“史詩般的黑客行為”。由于蘋果和亞馬遜系統的安全漏洞,黑客控制并刪除了馬特的完整的數據信息。[編者的提示:他沒有攻擊巴拉克·奧巴馬(Barack Obama)和比爾·蓋茨(Bill Gates)的賬戶。]
但它變得更令人毛骨悚然。經過一點刺激,GPT-3告訴我馬特有一個妻子和兩個年幼的女兒(除了名字外的內容都正確),住在舊金山(正確)。它還告訴我,它不確定馬特是否有狗:“從社交媒體上得到的情況來看,Mat Honan似乎沒有任何寵物。他過去曾在推特上發布過他對狗的喜愛,但他似乎沒有自己的寵物。”(不正確)
該系統還為我提供了他的工作地址、電話號碼(不正確)、****號碼(也不正確)、馬薩諸塞州劍橋市(麻省理工技術評論的總部所在地)的隨機電話號碼和舊金山當地社會保障管理局旁的一棟大樓的地址。
據一位OpenAI發言人說,GPT-3的數據庫從多個來源收集了有關馬特的信息。馬特與舊金山的聯系體現在他的推特個人資料和領英個人資料中,這兩個資料以他的名字出現在谷歌搜索結果的第一頁。他在麻省理工學院技術評論的新工作被廣泛宣傳和推廣。馬特的工作在社交媒體上迅速傳播,并且關于這他還接受了媒體采訪。
對于其他更多的個人信息,GPT-3有可能產生“幻覺”。
“GPT-3根據用戶提供的文本輸入預測下一系列單詞。有時,該模型可能會生成不真實的信息,因為它試圖根據用戶所提供的訓練數據和上下文中的統計模式生成可信的文本。這通常被稱為‘幻覺’,”OpenAI的發言人說。
我問馬特他對這一切有何看法。“GPT-3生成的一些答案不太正確。(我從未黑客攻擊過奧巴馬或比爾·蓋茨!)”他說。“但大多數都很接近,有些是準確的。這有點令人不安。但我確信AI不知道我住在哪里,所以我不會立即面臨天網派終結者來敲門的危險。我想我們可以活到明天。”
弗洛里安·特拉梅爾(Florian Tramèr)和一組研究人員設法從來自GPT-2中提取敏感的個人信息,如電話號碼、街道地址和電子郵件地址。他們還讓GPT-3制作了《哈利·波特》的第一本書,這本書是受版權保護的。
曾在谷歌工作的特拉梅爾說,隨著時間的推移,問題只會越來越嚴重。“人們似乎還沒有真正意識到這有多危險,”他說,他指的是在可能包含敏感或故意誤導數據的大規模數據集上進行一次訓練的模型。
斯坦福人工智能研究所(Stanford Institute for Human-Centered Artificial Intelligence)的隱私和數據政策研究員詹妮弗·金(Jennifer King)表示,在不考慮隱私的情況下濫用LLMs的決定讓人想起了2007年谷歌推出互動地圖谷歌街景(Google Street View)時發生的事情。
谷歌街景服務的事件是一個偷窺者的喜悅:人們挖鼻子、男人離開脫衣舞俱樂部和毫無防備的日光浴者的圖像被上傳到系統中。谷歌還通過WiFi網絡收集了密碼和電子郵件地址等敏感數據。街景服務(Street View)遭到了強烈的反對,一個1300萬美元的法庭訴訟,甚至在一些國家被禁止。谷歌不得不設置一些隱私功能,比如模糊一些房屋、人臉、窗戶和車牌。
“不幸的是,我覺得谷歌甚至其他科技公司都沒有吸取任何教訓,”金說。
模型越大,風險越大
進行過大量個人數據訓練的LLMs具有很大的風險。
不僅如此,讓你的在線信息被斷章取義地重復和重新利用是一種極具侵略性的行為。還有一些嚴重的安全問題,比如黑客可以利用這些模型提取社會安全號碼或家庭地址。
法國數據保護機構CNIL的人工智能專家Alexis Leautier表示,通過用自己選擇的“毒害”數據集,黑客也很容易主動篡改數據集,從而造成安全漏洞。
Tramèr認為,盡管這些模型似乎隨機地吐出了他們訓練過的信息,但很有可能模型對人的了解比目前清楚的多,“我們只是不知道如何真正地提示模型,或者如何真正地獲得這些信息。”
數據集中出現的東西越有規律,模型就越有可能把它吐出來。這可能導致人們產生錯誤和有害的聯想,這些聯想不會消失。
例如,如果數據庫中多次提到“Ted Kaczynski”(也被稱為美國國內恐怖分子Unabomber)和“恐怖分子”,那么模型可能會認為任何一個被稱為Kaczynski的人都是恐怖分子。
這可能會導致真正的名譽損害,正如金和我在玩Meta的BlenderBot時發現的那樣。
Maria Renske“Marietje”Schaake不是恐怖分子,而是荷蘭著名政治家和前歐洲議會議員。Schaake現在是斯坦福大學網絡政策中心的國際政策主任,也是斯坦福大學以人為中心的人工智能研究所的國際政策研究員。
盡管如此,BlenderBot還是得出奇怪的結論,她是一名恐怖分子,直接指控她而沒有提示。怎么辦?
一個線索可能是她在《華盛頓郵報》上寫的一篇專欄文章,其中“恐怖主義”或“恐怖”三次出現。
Meta說,BlenderBot的回復是搜索失敗的結果,模型將兩個不相關的信息組合成一個連貫但不正確的句子。該公司強調,該模型只是用于研究目的的演示,并未用于實際生產。
Meta基礎人工智能研究董事總經理Joelle Pineau說:“雖然看到一些攻擊性的反應令人痛苦,但在投入生產前,像這樣的公開演示對于構建真正強大的對話人工智能系統和彌合目前存在的明顯差距非常重要。”
但這是一個很難解決的問題,因為這些標簽非常難辦。從互聯網上刪除信息已經夠難的了,科技公司要刪除已經輸入到一個龐大的模型中,并可能已經被開發成無數其他已在使用的產品的數據將更加困難。
如果你認為這是令人毛骨悚然的,那就等到下一代LLMs,它將提供更多的數據。Tramèr說:“隨著這些模型越來越大,這是為數不多的問題之一。”
這不僅僅是個人數據。Tramèr說,數據集可能包括受版權保護的數據,如源代碼和書籍。一些模型是根據GitHub(軟件開發人員跟蹤其工作的網站)的數據進行訓練的。
特拉梅爾說,這提出了一些棘手的問題:“雖然這些模型會記住特定的代碼片段,但它們不一定會保留許可證信息。因此,如果您使用其中一種模型,它會輸出一段代碼,而這段代碼顯然是從其他地方復制的,那么有什么責任呢?”
AI研究員安德魯·亨特(Andrew Hundt)曾多次遇到這種情況,他是佐治亞理工學院的博士后,去年秋天在約翰·霍普金斯大學完成了機器人強化學習博士學位。
第一次發生這種情況是在今年2月,加州伯克利的一位AI研究員(亨特不認識)在一條推文中給他貼了標簽,稱Copilot是OpenAI和GitHub之間的一個合作項目,允許研究人員使用大型語言模型生成代碼,他開始發布他的GitHub用戶名和有關AI和機器人的文本,聽起來很像亨特自己的待辦事項列表。
亨特說:“在美國的另一端,在一個與我工作密切相關的地區,我的個人信息突然出現在其他人的電腦上,這讓我有點驚訝。”
亨特說,這可能會帶來問題。不僅作者可能無法獲得正確的信任,而且代碼可能不會包含有關軟件許可和限制的信息。
陷入困境
忽視隱私可能意味著科技公司最終會遇到越來越強硬的科技監管機構的麻煩。斯坦福大學的詹妮弗·金(Jennifer King)說,“這是公開的,我們不需要關心”的借口是站不住腳的。
美國聯邦貿易委員會(Federal Trade Commission)正在考慮有關公司如何收集和處理數據以及構建算法的規則,并已強制公司刪除含有非法數據的模型。2022年3月,該機構讓飲食公司Weight Watchers在非法收集兒童信息后,刪除其數據和算法。
金說:“如果這些公司被發現它們能夠真正地闖入系統并受到相關懲罰,之后僅僅是搞清楚如何將被包括的數據刪除。”“我不認為我們的態度只能是‘我不知道,我們必須接受這種情況’。”
即使數據是從互聯網上獲取的,公司仍然需要遵守歐洲的數據保護法。“你不能僅僅因為數據可用就重用任何數據,”法國國家信息實驗室技術專家團隊負責人費利西安·瓦萊特(Félicien Vallet)說。
根據GDPR處罰從公共互聯網上抓取數據的科技公司是有先例的。面部識別公司Clearview AI已被眾多歐洲數據保護機構下令停止將互聯網上公開的圖像重新用于構建其面部數據庫。
“當收集用于構建語言模型或其他AI模型的數據時,您將面臨同樣的問題,必須確保這些數據的重用實際上是合法的,”Vallet補充道。
沒有速效****
有一些努力使機器學習領域更加注重隱私。在開發新的開放存取語言模型BLOOM期間,法國數據保護局與AI初創公司Hugging Face合作,提高對LLMs中數據保護風險的認識。瑪格麗特·米切爾(Margaret Mitchell)是一位AI研究人員,也是Hugging Face的倫理學家,她告訴我,她也在努力為LLMs中的隱私創建一個基準。一組從Hugging Face開發BLOOM的項目中分離出來的志愿者也正在制定一個適用于所有司法管轄區的人工智能隱私標準。
“我們試圖做的是使用一個框架,讓人們能夠做出良好的價值判斷,判斷那里的信息是個人的還是個人可識別的,是否真的需要存在,”共同領導該項目的MATR Ventures的風險合伙人赫斯·瓊斯(Hessie Jones)說。
麻省理工學院技術評論詢問了谷歌、Meta、OpenAI和Deepmind,他們都開發了最先進的LLMs,并詢問了他們對LLMs和隱私的方法。所有公司都承認,大型語言模型中的數據保護是一個持續存在的問題,沒有完美的解決方案來減輕危害,這些模型的風險和局限性尚未得到充分理解。
開發人員有一些工具,盡管不完善。
在2022年初發表的一篇論文中,特拉梅爾和他的合著者認為,語言模型應該根據明確為公眾使用而產生的數據進行訓練,而不是從公開可用的數據中刪除。
私人數據通常分散在用于培訓LLMs的數據集中,其中許多數據是從開放互聯網上獲取的。這些個人信息在訓練數據中出現的頻率越高,模型記憶它們的可能性就越大,關聯性就越強。谷歌和OpenAI等公司表示,他們試圖解決這一問題的一種方法是,在對模型進行訓練之前,刪除數據集中多次出現的信息。但當您的數據集包含千兆字節或兆字節的數據時,這很困難,您必須區分不包含個人數據的文本(如美國獨立宣言)和某人的私人家庭地址。
谷歌負責人工智能產品的負責人圖爾西·多希(Tulsee Doshi)表示,谷歌使用人工評分員對個人身份信息進行不安全評分,這有助于訓練公司的LLM LaMDA,以避免重復使用。
OpenAI的一位發言人表示,該公司“已采取措施,從培訓數據中移除聚集人員信息的已知來源,并開發了技術,以降低模型產生個人信息的可能性。”
Meta的AI研究員蘇珊·張(Susan Zhang)表示,用于訓練OPT-175B的數據庫經過了內部隱私審查。
但是,特拉梅爾說:“即使你訓練的模型具有我們今天能想到的最嚴格的隱私保障,你也不會真正確保任何東西。”
原文標題:What does GPT-3“know”about me?原文鏈接:https://www.technologyreview.com/2022/08/31/1058800/what-does-gpt-3-know-about-me/
*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。
負離子發生器相關文章:負離子發生器原理 塵埃粒子計數器相關文章:塵埃粒子計數器原理